diff --git "a/train.log" "b/train.log"
new file mode 100644--- /dev/null
+++ "b/train.log"
@@ -0,0 +1,11637 @@
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:03:13 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:03:13 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:03:13 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:03:13 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:03:13 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:03:13 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:03:13 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:03:14 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:03:14 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:03:14 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:03:14 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:03:14 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:03:15 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:03:15 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:03:15 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:03:15 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:03:15 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:03:15 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:03:23 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:03:23 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:03:23 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:03:23 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:03:23 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:03:24 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:03:25 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:03:25 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:03:25 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:03:26 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:03:26 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:03:26 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:03:26 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:03:27 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:03:31 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:15<00:15, 15.76s/it]
+2025-10-06 15:03:32 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:16<00:16, 16.44s/it]
+2025-10-06 15:03:32 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:16<00:16, 16.81s/it]
+2025-10-06 15:03:32 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:16<00:16, 16.73s/it]
+2025-10-06 15:03:33 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:17<00:17, 17.62s/it]
+2025-10-06 15:03:36 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:20<00:00,  9.34s/it]
+2025-10-06 15:03:36 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:20<00:00, 10.41s/it]
+2025-10-06 15:03:36 - ERROR - stderr - 
+2025-10-06 15:03:36 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.norm.bias', 'model.point_proj.2.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_proj.0.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.pos_embed.2.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.temporal_encoder.norm1.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:36 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.norm.bias', 'model.point_proj.2.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_proj.0.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.pos_embed.2.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.temporal_encoder.norm1.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:36 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:03:36 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:03:36 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:03:36 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:03:36 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:03:36 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:21<00:00,  9.86s/it]
+2025-10-06 15:03:36 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:21<00:00, 10.75s/it]
+2025-10-06 15:03:36 - ERROR - stderr - 
+2025-10-06 15:03:36 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_proj.2.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_proj.0.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.temporal_encoder.norm2.weight', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:36 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_proj.2.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_proj.0.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.temporal_encoder.norm2.weight', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:36 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:03:37 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:03:37 - ERROR - stderr - 2025-10-06 15:03:37,112 - Transformer - INFO - PointBERT's weights are successfully loaded from checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt
+2025-10-06 15:03:37 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:22<00:00,  9.86s/it]
+2025-10-06 15:03:37 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:22<00:00, 11.03s/it]
+2025-10-06 15:03:37 - ERROR - stderr - 
+2025-10-06 15:03:37 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.reduce_dim.weight', 'model.temporal_encoder.norm1.bias', 'model.temporal_encoder.norm2.bias', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.norm.bias', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.cls_token', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_proj.0.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:37 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.reduce_dim.weight', 'model.temporal_encoder.norm1.bias', 'model.temporal_encoder.norm2.bias', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.norm.bias', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.cls_token', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_proj.0.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:03:37 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:22<00:00,  9.98s/it]
+2025-10-06 15:03:37 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:22<00:00, 11.00s/it]
+2025-10-06 15:03:37 - ERROR - stderr - 
+2025-10-06 15:03:37 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_proj.4.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_proj.0.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_proj.0.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.pos_embed.0.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:37 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_proj.4.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_proj.0.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_proj.0.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.pos_embed.0.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:03:37 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:03:37 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:03:37 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:22<00:00, 10.11s/it]
+2025-10-06 15:03:37 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:22<00:00, 11.11s/it]
+2025-10-06 15:03:37 - ERROR - stderr - 
+2025-10-06 15:03:37 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.pos_embed.2.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:37 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.pos_embed.2.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:03:37 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:03:37 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:03:39 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:24<00:24, 24.12s/it]
+2025-10-06 15:03:42 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:14<00:14, 14.26s/it]
+2025-10-06 15:03:42 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:17<00:17, 17.27s/it]
+2025-10-06 15:03:46 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:18<00:00,  8.29s/it]
+2025-10-06 15:03:46 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:18<00:00,  9.18s/it]
+2025-10-06 15:03:46 - ERROR - stderr - 
+2025-10-06 15:03:46 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_proj.4.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.pos_embed.2.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.cls_token', 'model.point_backbone.pos_embed.0.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:46 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_proj.4.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.pos_embed.2.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.cls_token', 'model.point_backbone.pos_embed.0.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:46 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:03:46 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:03:46 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:03:46 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:03:46 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:03:47 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:03:47 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:03:47 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:03:47 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:03:47 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:03:47 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:03:47 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:03:47 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:03:47 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:03:47 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:03:47 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:03:47 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:03:47 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:03:47 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:03:47 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:03:47 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:03:47 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:03:47 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:03:47 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:03:47 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:03:47 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:03:47 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:03:47 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:03:47 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:03:47 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:03:47 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:03:47 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:03:47 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:03:47 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:03:47 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:03:48 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:32<00:00, 14.89s/it]
+2025-10-06 15:03:48 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:32<00:00, 16.27s/it]
+2025-10-06 15:03:48 - ERROR - stderr - 
+2025-10-06 15:03:48 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_proj.2.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.cls_token', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.cls_pos', 'model.temporal_encoder.norm1.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_proj.4.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_proj.4.bias', 'model.point_backbone.norm.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:48 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_proj.2.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.cls_token', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.cls_pos', 'model.temporal_encoder.norm1.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_proj.4.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_proj.4.bias', 'model.point_backbone.norm.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:48 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:03:48 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:03:48 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:03:48 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:03:48 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:03:48 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:23<00:00, 10.65s/it]
+2025-10-06 15:03:48 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:23<00:00, 11.65s/it]
+2025-10-06 15:03:48 - ERROR - stderr - 
+2025-10-06 15:03:48 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.bias', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.cls_token', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_proj.4.weight', 'model.point_backbone.cls_pos']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:48 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.bias', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.cls_token', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_proj.4.weight', 'model.point_backbone.cls_pos']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:03:48 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:03:49 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:03:49 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:03:49 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:03:49 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:03:55 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:03:55 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:03:55 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:03:55 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:03:55 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:03:55 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:03:58 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:03:58 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:03:58 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:03:58 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:03:58 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:03:58 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:03:58 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:03:58 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:03:58 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:03:58 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:03:58 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:03:58 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:04:00 - INFO - transformers.trainer - Using cuda_amp half precision backend
+2025-10-06 15:04:00 - INFO - transformers.trainer - Using cuda_amp half precision backend
+2025-10-06 15:04:17 - INFO - transformers.trainer - ***** Running training *****
+2025-10-06 15:04:17 - INFO - transformers.trainer - ***** Running training *****
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Num examples = 44474
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Num examples = 44474
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Num Epochs = 6
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Num Epochs = 6
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Instantaneous batch size per device = 16
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Instantaneous batch size per device = 16
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Total train batch size (w. parallel, distributed & accumulation) = 128
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Total train batch size (w. parallel, distributed & accumulation) = 128
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Gradient Accumulation steps = 1
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Gradient Accumulation steps = 1
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Total optimization steps = 2088
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Total optimization steps = 2088
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Number of trainable parameters = 143744896
+2025-10-06 15:04:17 - INFO - transformers.trainer -   Number of trainable parameters = 143744896
+2025-10-06 15:04:18 - INFO - transformers.integrations - Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"
+2025-10-06 15:04:18 - INFO - transformers.integrations - Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"
+2025-10-06 15:04:20 - ERROR - stderr - [34m[1mwandb[0m: Currently logged in as: [33mzhangxd22[0m ([33mzhangxd22-jilin-university[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
+2025-10-06 15:04:20 - INFO - wandb - Current SDK version is 0.21.3
+2025-10-06 15:04:20 - INFO - wandb - Configure stats pid to 39844
+2025-10-06 15:04:20 - INFO - wandb - Loading settings from /home/xindanzhang/.config/wandb/settings
+2025-10-06 15:04:20 - INFO - wandb - Loading settings from /data1/xindanzhang/PointLLM/wandb/settings
+2025-10-06 15:04:20 - INFO - wandb - Loading settings from environment variables
+2025-10-06 15:04:20 - INFO - wandb - Logging user logs to /data1/xindanzhang/PointLLM/wandb/run-20251006_150420-uxp6ahpc/logs/debug.log
+2025-10-06 15:04:20 - INFO - wandb - Logging internal logs to /data1/xindanzhang/PointLLM/wandb/run-20251006_150420-uxp6ahpc/logs/debug-internal.log
+2025-10-06 15:04:20 - INFO - wandb - calling init triggers
+2025-10-06 15:04:20 - INFO - wandb - wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2025-10-06 15:04:20 - INFO - wandb - starting backend
+2025-10-06 15:04:24 - INFO - wandb - sending inform_init request
+2025-10-06 15:04:24 - INFO - wandb - backend started and connected
+2025-10-06 15:04:24 - DEBUG - wandb - no default config file found in config-defaults.yaml
+2025-10-06 15:04:24 - INFO - wandb - updated telemetry
+2025-10-06 15:04:24 - INFO - wandb - communicating run to backend with 90.0 second timeout
+2025-10-06 15:04:28 - ERROR - stderr - [34m[1mwandb[0m: [38;5;178m⢿[0m creating run (0.0s)
+2025-10-06 15:04:29 - ERROR - stderr - [Am[2K
+2025-10-06 15:04:29 - ERROR - stderr - [34m[1mwandb[0m: [38;5;178m⣻[0m creating run (0.0s)
+2025-10-06 15:04:29 - ERROR - stderr - [Am[2K
+2025-10-06 15:04:29 - ERROR - stderr - [34m[1mwandb[0m: [38;5;178m⣽[0m creating run (0.0s)
+2025-10-06 15:04:29 - ERROR - stderr - [Am[2K
+2025-10-06 15:04:29 - ERROR - stderr - [34m[1mwandb[0m: [38;5;178m⣾[0m creating run (0.0s)
+2025-10-06 15:04:29 - ERROR - stderr - [Am[2K
+2025-10-06 15:04:29 - INFO - wandb - starting run threads in backend
+2025-10-06 15:04:29 - ERROR - stderr - [34m[1mwandb[0m: Tracking run with wandb version 0.21.3
+2025-10-06 15:04:29 - ERROR - stderr - [34m[1mwandb[0m: Run data is saved locally in [35m[1m/data1/xindanzhang/PointLLM/wandb/run-20251006_150420-uxp6ahpc[0m
+2025-10-06 15:04:29 - ERROR - stderr - [34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
+2025-10-06 15:04:29 - ERROR - stderr - [34m[1mwandb[0m: Syncing run [33mPointLLM_train_stagece[0m
+2025-10-06 15:04:29 - ERROR - stderr - [34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/zhangxd22-jilin-university/huggingface[0m
+2025-10-06 15:04:29 - ERROR - stderr - [34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/zhangxd22-jilin-university/huggingface/runs/uxp6ahpc[0m
+2025-10-06 15:04:29 - DEBUG - wandb - Saving list of pip packages installed into the current environment
+2025-10-06 15:04:37 - INFO - wandb - atexit reg
+2025-10-06 15:04:37 - INFO - wandb - redirect: wrap_raw
+2025-10-06 15:04:37 - INFO - wandb - Wrapping output streams.
+2025-10-06 15:04:37 - INFO - wandb - Redirects installed.
+2025-10-06 15:04:37 - INFO - wandb - run started, returning control to user process
+2025-10-06 15:04:37 - INFO - wandb - config_cb None None {'vocab_size': 32003, 'hidden_size': 4096, 'intermediate_size': 11008, 'num_hidden_layers': 32, 'num_attention_heads': 32, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-06, 'use_cache': False, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': False, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'chunk_size_feed_forward': 0, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['PointLLMLlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 1, 'pad_token_id': 0, 'eos_token_id': 2, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'checkpoints/PointLLM_7B_v1.1_init', 'transformers_version': '4.28.0.dev0', 'max_position_embeddings': 2048, 'model_type': 'pointllm', 'point_backbone': 'PointBERT', 'point_backbone_ckpt': 'checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt', 'point_backbone_config_name': 'PointTransformer_8192point_2layer', 'use_color': True, 'mm_use_point_start_end': True, 'DEFAULT_POINT_PATCH_TOKEN': '<point_patch>', 'DEFAULT_POINT_START_TOKEN': '<point_start>', 'DEFAULT_POINT_END_TOKEN': '<point_end>', 'output_dir': 'epoch6/PointLLM_train_stage1/PointLLM_train_stagece', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': False, 'do_predict': False, 'evaluation_strategy': 'no', 'prediction_loss_only': False, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 4, 'per_gpu_train_batch_size': 'None', 'per_gpu_eval_batch_size': 'None', 'gradient_accumulation_steps': 1, 'eval_accumulation_steps': 'None', 'eval_delay': 0, 'learning_rate': 0.001, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 6.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'warmup_ratio': 0.03, 'warmup_steps': 0, 'log_level': 'info', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': 'epoch6/PointLLM_train_stage1/PointLLM_train_stagece/runs/Oct06_15-02-09_6e49fa911257', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'no', 'save_steps': 400, 'save_total_limit': 1, 'save_on_each_node': False, 'no_cuda': False, 'use_mps_device': False, 'seed': 42, 'data_seed': 'None', 'jit_mode_eval': False, 'use_ipex': False, 'bf16': True, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'cuda_amp', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': 'None', 'local_rank': 0, 'xpu_backend': 'None', 'tpu_num_cores': 'None', 'tpu_metrics_debug': False, 'debug': '[]', 'dataloader_drop_last': False, 'eval_steps': 'None', 'dataloader_num_workers': 0, 'past_index': -1, 'run_name': 'PointLLM_train_stagece', 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': 'None', 'load_best_model_at_end': False, 'metric_for_best_model': 'None', 'greater_is_better': 'None', 'ignore_data_skip': False, 'sharded_ddp': '[]', 'fsdp': '[]', 'fsdp_min_num_params': 0, 'fsdp_config': "{'fsdp_min_num_params': 0, 'xla': False, 'xla_fsdp_grad_ckpt': False}", 'fsdp_transformer_layer_cls_to_wrap': 'None', 'deepspeed': 'None', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': 'None', 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': "['wandb']", 'ddp_find_unused_parameters': 'None', 'ddp_bucket_cap_mb': 'None', 'dataloader_pin_memory': True, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': 'None', 'hub_model_id': 'None', 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'gradient_checkpointing': True, 'include_inputs_for_metrics': False, 'fp16_backend': 'auto', 'push_to_hub_model_id': 'None', 'push_to_hub_organization': 'None', 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': 'None', 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': 'None', 'torch_compile_mode': 'None', 'cache_dir': 'None', 'model_max_length': 2048, 'model_debug': False, 'fix_llm': True, 'fix_pointnet': True, 'force_fsdp': False, 'tune_mm_mlp_adapter': True, 'stage_2': False, 'pretrained_mm_mlp_adapter': 'None', 'detatch_point_token': '<DETATCH_POINT_TOKEN>', 'train_batch_size': 16, 'eval_batch_size': 4}
+2025-10-06 15:04:37 - ERROR - stderr -   0%|                                                                                                                     | 0/2088 [00:00<?, ?it/s]
+2025-10-06 15:04:53 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:04:53 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:04:53 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:04:53 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:04:53 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:04:53 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:04:53 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:04:53 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:04:53 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:04:53 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:04:53 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:04:53 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:04:53 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:04:53 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:04:53 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:04:53 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:05:03 - ERROR - stderr -   0%|                                                                                                          | 1/2088 [00:25<14:48:41, 25.55s/it]
+2025-10-06 15:05:03 - ERROR - stderr - 
+2025-10-06 15:05:03 - ERROR - stderr - 
+2025-10-06 15:05:03 - INFO - stdout - {'loss': 9.9219, 'learning_rate': 1.5873015873015872e-05, 'epoch': 0.0}
+2025-10-06 15:05:03 - ERROR - stderr -   0%|                                                                                                          | 1/2088 [00:25<14:48:41, 25.55s/it]
+2025-10-06 15:05:12 - ERROR - stderr -   0%|                                                                                                           | 2/2088 [00:34<9:15:15, 15.97s/it]
+2025-10-06 15:05:12 - ERROR - stderr - 
+2025-10-06 15:05:12 - ERROR - stderr - 
+2025-10-06 15:05:12 - INFO - stdout - {'loss': 9.7945, 'learning_rate': 3.1746031746031745e-05, 'epoch': 0.01}
+2025-10-06 15:05:12 - ERROR - stderr -   0%|                                                                                                           | 2/2088 [00:34<9:15:15, 15.97s/it]
+2025-10-06 15:05:19 - ERROR - stderr -   0%|▏                                                                                                          | 3/2088 [00:42<6:59:46, 12.08s/it]
+2025-10-06 15:05:19 - ERROR - stderr - 
+2025-10-06 15:05:19 - ERROR - stderr - 
+2025-10-06 15:05:19 - INFO - stdout - {'loss': 9.4104, 'learning_rate': 4.761904761904762e-05, 'epoch': 0.01}
+2025-10-06 15:05:19 - ERROR - stderr -   0%|▏                                                                                                          | 3/2088 [00:42<6:59:46, 12.08s/it]
+2025-10-06 15:05:27 - ERROR - stderr -   0%|▏                                                                                                          | 4/2088 [00:49<5:55:50, 10.25s/it]
+2025-10-06 15:05:27 - ERROR - stderr - 
+2025-10-06 15:05:27 - ERROR - stderr - 
+2025-10-06 15:05:27 - INFO - stdout - {'loss': 8.8637, 'learning_rate': 6.349206349206349e-05, 'epoch': 0.01}
+2025-10-06 15:05:27 - ERROR - stderr -   0%|▏                                                                                                          | 4/2088 [00:49<5:55:50, 10.25s/it]
+2025-10-06 15:05:34 - ERROR - stderr -   0%|▎                                                                                                          | 5/2088 [00:57<5:22:57,  9.30s/it]
+2025-10-06 15:05:34 - ERROR - stderr - 
+2025-10-06 15:05:34 - ERROR - stderr - 
+2025-10-06 15:05:34 - INFO - stdout - {'loss': 8.6916, 'learning_rate': 7.936507936507937e-05, 'epoch': 0.01}
+2025-10-06 15:05:34 - ERROR - stderr -   0%|▎                                                                                                          | 5/2088 [00:57<5:22:57,  9.30s/it]
+2025-10-06 15:05:43 - ERROR - stderr -   0%|▎                                                                                                          | 6/2088 [01:05<5:09:50,  8.93s/it]
+2025-10-06 15:05:43 - ERROR - stderr - 
+2025-10-06 15:05:43 - ERROR - stderr - 
+2025-10-06 15:05:43 - INFO - stdout - {'loss': 8.7206, 'learning_rate': 9.523809523809524e-05, 'epoch': 0.02}
+2025-10-06 15:05:43 - ERROR - stderr -   0%|▎                                                                                                          | 6/2088 [01:05<5:09:50,  8.93s/it]
+2025-10-06 15:05:44 - ERROR - stderr - Error in sys.excepthook:
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr - Error in sys.excepthook:
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 46, in getlines
+2025-10-06 15:05:44 - ERROR - stderr -     return updatecache(filename, module_globals)
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 137, in updatecache
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 46, in getlines
+2025-10-06 15:05:44 - ERROR - stderr -     lines = fp.readlines()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/codecs.py", line 319, in decode
+2025-10-06 15:05:44 - ERROR - stderr -     return updatecache(filename, module_globals)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 137, in updatecache
+2025-10-06 15:05:44 - ERROR - stderr -     lines = fp.readlines()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/codecs.py", line 319, in decode
+2025-10-06 15:05:44 - ERROR - stderr - Error in sys.excepthook:
+2025-10-06 15:05:44 - ERROR - stderr - Error in sys.excepthook:
+2025-10-06 15:05:44 - ERROR - stderr - Error in sys.excepthook:
+2025-10-06 15:05:44 - ERROR - stderr - Error in sys.excepthook:
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 46, in getlines
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 46, in getlines
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 46, in getlines
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 46, in getlines
+2025-10-06 15:05:44 - ERROR - stderr -     return updatecache(filename, module_globals)
+2025-10-06 15:05:44 - ERROR - stderr -     return updatecache(filename, module_globals)
+2025-10-06 15:05:44 - ERROR - stderr -     return updatecache(filename, module_globals)
+2025-10-06 15:05:44 - ERROR - stderr -     return updatecache(filename, module_globals)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 137, in updatecache
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 137, in updatecache
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 137, in updatecache
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/linecache.py", line 137, in updatecache
+2025-10-06 15:05:44 - ERROR - stderr -     lines = fp.readlines()
+2025-10-06 15:05:44 - ERROR - stderr -     lines = fp.readlines()
+2025-10-06 15:05:44 - ERROR - stderr -     lines = fp.readlines()
+2025-10-06 15:05:44 - ERROR - stderr -     lines = fp.readlines()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/codecs.py", line 319, in decode
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/codecs.py", line 319, in decode
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/codecs.py", line 319, in decode
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/codecs.py", line 319, in decode
+2025-10-06 15:05:44 - ERROR - stderr -     def decode(self, input, final=False):
+2025-10-06 15:05:44 - ERROR - stderr -     def decode(self, input, final=False):
+2025-10-06 15:05:44 - ERROR - stderr -     def decode(self, input, final=False):
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr -     def decode(self, input, final=False):
+2025-10-06 15:05:44 - ERROR - stderr -     def decode(self, input, final=False):
+2025-10-06 15:05:44 - ERROR - stderr - 
+2025-10-06 15:05:44 - ERROR - stderr - 
+2025-10-06 15:05:44 - ERROR - stderr - 
+2025-10-06 15:05:44 - ERROR - stderr - Original exception was:
+2025-10-06 15:05:44 - ERROR - stderr -     def decode(self, input, final=False):
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr - Original exception was:
+2025-10-06 15:05:44 - ERROR - stderr - Original exception was:
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr - 
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr - 
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train_mem.py", line 13, in <module>
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train_mem.py", line 13, in <module>
+2025-10-06 15:05:44 - ERROR - stderr - Original exception was:
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train_mem.py", line 13, in <module>
+2025-10-06 15:05:44 - ERROR - stderr - Original exception was:
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr -     train()
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr -     train()
+2025-10-06 15:05:44 - ERROR - stderr -     train()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train.py", line 210, in train
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train.py", line 210, in train
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train_mem.py", line 13, in <module>
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train_mem.py", line 13, in <module>
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train.py", line 210, in train
+2025-10-06 15:05:44 - ERROR - stderr - 
+2025-10-06 15:05:44 - ERROR - stderr -     trainer.train()
+2025-10-06 15:05:44 - ERROR - stderr -     train()
+2025-10-06 15:05:44 - ERROR - stderr -     trainer.train()
+2025-10-06 15:05:44 - ERROR - stderr -     trainer.train()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1644, in train
+2025-10-06 15:05:44 - ERROR - stderr - Original exception was:
+2025-10-06 15:05:44 - ERROR - stderr -     train()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1644, in train
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train.py", line 210, in train
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1644, in train
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train.py", line 210, in train
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr -     trainer.train()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1644, in train
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train_mem.py", line 13, in <module>
+2025-10-06 15:05:44 - ERROR - stderr -     trainer.train()
+2025-10-06 15:05:44 - ERROR - stderr -     return inner_training_loop(
+2025-10-06 15:05:44 - ERROR - stderr -     return inner_training_loop(
+2025-10-06 15:05:44 - ERROR - stderr -     return inner_training_loop(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1881, in _inner_training_loop
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1644, in train
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1881, in _inner_training_loop
+2025-10-06 15:05:44 - ERROR - stderr -     train()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1881, in _inner_training_loop
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train.py", line 210, in train
+2025-10-06 15:05:44 - ERROR - stderr -     return inner_training_loop(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1881, in _inner_training_loop
+2025-10-06 15:05:44 - ERROR - stderr -     for step, inputs in enumerate(epoch_iterator):
+2025-10-06 15:05:44 - ERROR - stderr -     trainer.train()
+2025-10-06 15:05:44 - ERROR - stderr -     for step, inputs in enumerate(epoch_iterator):
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 630, in __next__
+2025-10-06 15:05:44 - ERROR - stderr -     for step, inputs in enumerate(epoch_iterator):
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 630, in __next__
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 630, in __next__
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1644, in train
+2025-10-06 15:05:44 - ERROR - stderr -     return inner_training_loop(
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._next_data()
+2025-10-06 15:05:44 - ERROR - stderr -     for step, inputs in enumerate(epoch_iterator):
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._next_data()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 674, in _next_data
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._next_data()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 630, in __next__
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1881, in _inner_training_loop
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 674, in _next_data
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 674, in _next_data
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._next_data()
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in fetch
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 674, in _next_data
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in fetch
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in fetch
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in <listcomp>
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in <listcomp>
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in <listcomp>
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in fetch
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -     return inner_training_loop(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 236, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 236, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -     for step, inputs in enumerate(epoch_iterator):
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 236, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in <listcomp>
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1881, in _inner_training_loop
+2025-10-06 15:05:44 - ERROR - stderr -     data_dict = preprocess_v1(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 630, in __next__
+2025-10-06 15:05:44 - ERROR - stderr -     data_dict = preprocess_v1(
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/utils.py", line 109, in preprocess_v1
+2025-10-06 15:05:44 - ERROR - stderr -     data_dict = preprocess_v1(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/utils.py", line 109, in preprocess_v1
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 220, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/utils.py", line 108, in preprocess_v1
+2025-10-06 15:05:44 - ERROR - stderr -     instruction_len = len(tokenizer(parts[0]).input_ids) - 2
+2025-10-06 15:05:44 - ERROR - stderr -     instruction_len = len(tokenizer(parts[0]).input_ids) - 2
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2531, in __call__
+2025-10-06 15:05:44 - ERROR - stderr -     round_len = len(tokenizer(rou).input_ids)
+2025-10-06 15:05:44 - ERROR - stderr -     point_cloud = self._load_point_cloud(object_id) # * N, C
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2531, in __call__
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2531, in __call__
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._next_data()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 149, in _load_point_cloud
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 674, in _next_data
+2025-10-06 15:05:44 - ERROR - stderr -     return self._load_objaverse_point_cloud(object_id)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 155, in _load_objaverse_point_cloud
+2025-10-06 15:05:44 - ERROR - stderr -     point_cloud = npz_file['points']
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/numpy/lib/npyio.py", line 256, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -     for step, inputs in enumerate(epoch_iterator):
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
+2025-10-06 15:05:44 - ERROR - stderr -     encodings = self._call_one(text=text, text_pair=text_pair, **all_kwargs)
+2025-10-06 15:05:44 - ERROR - stderr -     encodings = self._call_one(text=text, text_pair=text_pair, **all_kwargs)
+2025-10-06 15:05:44 - ERROR - stderr -     encodings = self._call_one(text=text, text_pair=text_pair, **all_kwargs)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2637, in _call_one
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 630, in __next__
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in fetch
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2637, in _call_one
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2637, in _call_one
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in <listcomp>
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._next_data()
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -     return self.encode_plus(
+2025-10-06 15:05:44 - ERROR - stderr -     return self.encode_plus(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 674, in _next_data
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2710, in encode_plus
+2025-10-06 15:05:44 - ERROR - stderr -     return self.encode_plus(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 236, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2710, in encode_plus
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2710, in encode_plus
+2025-10-06 15:05:44 - ERROR - stderr -     data_dict = preprocess_v1(
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/utils.py", line 81, in preprocess_v1
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in fetch
+2025-10-06 15:05:44 - ERROR - stderr -     return self._encode_plus(
+2025-10-06 15:05:44 - ERROR - stderr -     return self._encode_plus(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 649, in _encode_plus
+2025-10-06 15:05:44 - ERROR - stderr -     return self._encode_plus(
+2025-10-06 15:05:44 - ERROR - stderr -     input_ids = tokenizer(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 649, in _encode_plus
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 649, in _encode_plus
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2531, in __call__
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -     first_ids = get_input_ids(text)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in <listcomp>
+2025-10-06 15:05:44 - ERROR - stderr -     first_ids = get_input_ids(text)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 616, in get_input_ids
+2025-10-06 15:05:44 - ERROR - stderr -     first_ids = get_input_ids(text)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 616, in get_input_ids
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 616, in get_input_ids
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 236, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -     tokens = self.tokenize(text, **kwargs)
+2025-10-06 15:05:44 - ERROR - stderr -     tokens = self.tokenize(text, **kwargs)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 517, in tokenize
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 517, in tokenize
+2025-10-06 15:05:44 - ERROR - stderr -     tokens = self.tokens_trie.split(text)
+2025-10-06 15:05:44 - ERROR - stderr -     tokens = self.tokenize(text, **kwargs)
+2025-10-06 15:05:44 - ERROR - stderr -     data_dict = preprocess_v1(
+2025-10-06 15:05:44 - ERROR - stderr -     tokens = self.tokens_trie.split(text)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 182, in split
+2025-10-06 15:05:44 - ERROR - stderr -     encodings = self._call_one(text=text, text_pair=text_pair, **all_kwargs)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 152, in split
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/utils.py", line 109, in preprocess_v1
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 517, in tokenize
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2617, in _call_one
+2025-10-06 15:05:44 - ERROR - stderr -     while next_char in looktrie_pointer:
+2025-10-06 15:05:44 - ERROR - stderr -     if "" in trie_pointer:
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr -     instruction_len = len(tokenizer(parts[0]).input_ids) - 2
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2531, in __call__
+2025-10-06 15:05:44 - ERROR - stderr -     tokens = self.tokens_trie.split(text)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 152, in split
+2025-10-06 15:05:44 - ERROR - stderr -     return self.batch_encode_plus(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2808, in batch_encode_plus
+2025-10-06 15:05:44 - ERROR - stderr -     if "" in trie_pointer:
+2025-10-06 15:05:44 - ERROR - stderr -     encodings = self._call_one(text=text, text_pair=text_pair, **all_kwargs)
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2637, in _call_one
+2025-10-06 15:05:44 - ERROR - stderr -     return self.encode_plus(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils_base.py", line 2710, in encode_plus
+2025-10-06 15:05:44 - ERROR - stderr -     return self._encode_plus(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 649, in _encode_plus
+2025-10-06 15:05:44 - ERROR - stderr -     first_ids = get_input_ids(text)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 616, in get_input_ids
+2025-10-06 15:05:44 - ERROR - stderr -     tokens = self.tokenize(text, **kwargs)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 517, in tokenize
+2025-10-06 15:05:44 - ERROR - stderr -     tokens = self.tokens_trie.split(text)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line -1, in split
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr -     return format.read_array(bytes,
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/numpy/lib/format.py", line 831, in read_array
+2025-10-06 15:05:44 - ERROR - stderr -     return self._batch_encode_plus(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 733, in _batch_encode_plus
+2025-10-06 15:05:44 - ERROR - stderr -     first_ids = get_input_ids(ids)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 700, in get_input_ids
+2025-10-06 15:05:44 - ERROR - stderr -     tokens = self.tokenize(text, **kwargs)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 517, in tokenize
+2025-10-06 15:05:44 - ERROR - stderr -     tokens = self.tokens_trie.split(text)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/tokenization_utils.py", line 208, in split
+2025-10-06 15:05:44 - ERROR - stderr -     states[start] = trie_pointer
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train_mem.py", line 13, in <module>
+2025-10-06 15:05:44 - ERROR - stderr -     train()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train.py", line 210, in train
+2025-10-06 15:05:44 - ERROR - stderr -     trainer.train()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1644, in train
+2025-10-06 15:05:44 - ERROR - stderr -     return inner_training_loop(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1881, in _inner_training_loop
+2025-10-06 15:05:44 - ERROR - stderr -     for step, inputs in enumerate(epoch_iterator):
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 630, in __next__
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._next_data()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 674, in _next_data
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in fetch
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in <listcomp>
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 220, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -     point_cloud = self._load_point_cloud(object_id) # * N, C
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 149, in _load_point_cloud
+2025-10-06 15:05:44 - ERROR - stderr -     return self._load_objaverse_point_cloud(object_id)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 154, in _load_objaverse_point_cloud
+2025-10-06 15:05:44 - ERROR - stderr -     npz_file = np.load(os.path.join(self.data_path, filename))
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/numpy/lib/npyio.py", line 434, in load
+2025-10-06 15:05:44 - ERROR - stderr -     magic = fid.read(N)
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr -     data = _read_bytes(fp, read_size, "array data")
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/numpy/lib/format.py", line 966, in _read_bytes
+2025-10-06 15:05:44 - ERROR - stderr -     r = fp.read(size - len(data))
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/zipfile.py", line 930, in read
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._read1(n)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/zipfile.py", line 1006, in _read1
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._decompressor.decompress(data, n)
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train_mem.py", line 13, in <module>
+2025-10-06 15:05:44 - ERROR - stderr -     train()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train.py", line 210, in train
+2025-10-06 15:05:44 - ERROR - stderr -     trainer.train()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1644, in train
+2025-10-06 15:05:44 - ERROR - stderr -     return inner_training_loop(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1881, in _inner_training_loop
+2025-10-06 15:05:44 - ERROR - stderr -     for step, inputs in enumerate(epoch_iterator):
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 630, in __next__
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._next_data()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 674, in _next_data
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in fetch
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in <listcomp>
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 220, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -     point_cloud = self._load_point_cloud(object_id) # * N, C
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 149, in _load_point_cloud
+2025-10-06 15:05:44 - ERROR - stderr -     return self._load_objaverse_point_cloud(object_id)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 155, in _load_objaverse_point_cloud
+2025-10-06 15:05:44 - ERROR - stderr -     point_cloud = npz_file['points']
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/numpy/lib/npyio.py", line 256, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -     return format.read_array(bytes,
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/numpy/lib/format.py", line 831, in read_array
+2025-10-06 15:05:44 - ERROR - stderr -     data = _read_bytes(fp, read_size, "array data")
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/numpy/lib/format.py", line 966, in _read_bytes
+2025-10-06 15:05:44 - ERROR - stderr -     r = fp.read(size - len(data))
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/zipfile.py", line 930, in read
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._read1(n)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/zipfile.py", line 1006, in _read1
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._decompressor.decompress(data, n)
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - ERROR - stderr - Traceback (most recent call last):
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train_mem.py", line 13, in <module>
+2025-10-06 15:05:44 - ERROR - stderr -     train()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/train/train.py", line 210, in train
+2025-10-06 15:05:44 - ERROR - stderr -     trainer.train()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1644, in train
+2025-10-06 15:05:44 - ERROR - stderr -     return inner_training_loop(
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/transformers/trainer.py", line 1881, in _inner_training_loop
+2025-10-06 15:05:44 - ERROR - stderr -     for step, inputs in enumerate(epoch_iterator):
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 630, in __next__
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._next_data()
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/dataloader.py", line 674, in _next_data
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in fetch
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py", line 51, in <listcomp>
+2025-10-06 15:05:44 - ERROR - stderr -     data = [self.dataset[idx] for idx in possibly_batched_index]
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 220, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -     point_cloud = self._load_point_cloud(object_id) # * N, C
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 149, in _load_point_cloud
+2025-10-06 15:05:44 - ERROR - stderr -     return self._load_objaverse_point_cloud(object_id)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/data1/xindanzhang/PointLLM/pointllm4d/data/object_point_dataset.py", line 155, in _load_objaverse_point_cloud
+2025-10-06 15:05:44 - ERROR - stderr -     point_cloud = npz_file['points']
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/numpy/lib/npyio.py", line 256, in __getitem__
+2025-10-06 15:05:44 - ERROR - stderr -     return format.read_array(bytes,
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/numpy/lib/format.py", line 831, in read_array
+2025-10-06 15:05:44 - ERROR - stderr -     data = _read_bytes(fp, read_size, "array data")
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/numpy/lib/format.py", line 966, in _read_bytes
+2025-10-06 15:05:44 - ERROR - stderr -     r = fp.read(size - len(data))
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/zipfile.py", line 930, in read
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._read1(n)
+2025-10-06 15:05:44 - ERROR - stderr -   File "/home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/zipfile.py", line 1006, in _read1
+2025-10-06 15:05:44 - ERROR - stderr -     data = self._decompressor.decompress(data, n)
+2025-10-06 15:05:44 - ERROR - stderr - KeyboardInterrupt
+2025-10-06 15:05:44 - INFO - wandb.sdk.lib.service.service_client - Reached EOF.
+2025-10-06 15:05:44 - INFO - wandb.sdk.mailbox.mailbox - Closing mailbox, abandoning 1 handles.
+2025-10-06 15:05:44 - INFO - wandb.sdk.mailbox.mailbox - Closing mailbox, abandoning 1 handles.
+2025-10-06 15:07:46 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:07:46 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:07:46 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:07:46 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:07:46 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:07:46 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:07:47 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:07:47 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:07:47 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:07:47 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:07:47 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:07:48 - INFO - pointllm4d.model.pointllm - Using PointBERT.
+2025-10-06 15:07:48 - INFO - stdout - Loading PointBERT config from /data1/xindanzhang/PointLLM/pointllm4d/model/pointbert/PointTransformer_8192point_2layer.yaml.
+2025-10-06 15:07:48 - INFO - pointllm4d.model.pointllm - Using 6 dim of points.
+2025-10-06 15:07:48 - INFO - pointllm4d.model.pointllm - Use max pool is False. Number of point token is 513.
+2025-10-06 15:07:48 - INFO - pointllm4d.model.pointllm - Point backbone output dim: 384.
+2025-10-06 15:07:48 - INFO - pointllm4d.model.pointllm - Point projector output dim: 4096.
+2025-10-06 15:07:48 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:07:48 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:07:48 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:07:48 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:07:49 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:07:49 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:07:49 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:07:50 - ERROR - stderr - Loading checkpoint shards:   0%|                                                                                             | 0/2 [00:00<?, ?it/s]
+2025-10-06 15:08:00 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:11<00:11, 11.43s/it]
+2025-10-06 15:08:00 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:11<00:11, 11.39s/it]
+2025-10-06 15:08:01 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:11<00:11, 11.99s/it]
+2025-10-06 15:08:01 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:12<00:12, 12.55s/it]
+2025-10-06 15:08:01 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:13<00:13, 13.13s/it]
+2025-10-06 15:08:02 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:13<00:13, 13.22s/it]
+2025-10-06 15:08:03 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:13<00:13, 13.07s/it]
+2025-10-06 15:08:03 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:15<00:00,  6.82s/it]
+2025-10-06 15:08:03 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:15<00:00,  7.51s/it]
+2025-10-06 15:08:03 - ERROR - stderr - 
+2025-10-06 15:08:03 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.temporal_encoder.norm2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.temporal_encoder.norm1.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_proj.0.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_proj.4.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:03 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.temporal_encoder.norm2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.temporal_encoder.norm1.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_proj.0.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_proj.4.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:03 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:08:03 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:08:03 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:08:03 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:08:03 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:08:04 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:15<00:00,  6.98s/it]
+2025-10-06 15:08:04 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:15<00:00,  7.64s/it]
+2025-10-06 15:08:04 - ERROR - stderr - 
+2025-10-06 15:08:04 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.reduce_dim.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_proj.0.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:04 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.reduce_dim.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_proj.0.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:04 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:08:04 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:08:04 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:08:04 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:08:04 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:08:04 - ERROR - stderr - Loading checkpoint shards:  50%|██████████████████████████████████████████▌                                          | 1/2 [00:15<00:15, 15.53s/it]
+2025-10-06 15:08:05 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:16<00:00,  7.39s/it]
+2025-10-06 15:08:05 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:16<00:00,  8.08s/it]
+2025-10-06 15:08:05 - ERROR - stderr - 
+2025-10-06 15:08:05 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_proj.0.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_proj.4.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.pos_embed.2.weight', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_proj.4.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.encoder.first_conv.3.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.pos_embed.0.weight', 'model.temporal_encoder.temporal_attention.qkv.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:05 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_proj.0.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_proj.4.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.pos_embed.2.weight', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_proj.4.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.encoder.first_conv.3.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.pos_embed.0.weight', 'model.temporal_encoder.temporal_attention.qkv.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:08:05 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:08:05 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:16<00:00,  7.61s/it]
+2025-10-06 15:08:05 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:16<00:00,  8.44s/it]
+2025-10-06 15:08:05 - ERROR - stderr - 
+2025-10-06 15:08:05 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.norm.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.encoder.first_conv.1.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_proj.0.weight', 'model.point_backbone.encoder.second_conv.1.running_var']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:05 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.norm.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.encoder.first_conv.1.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_proj.0.weight', 'model.point_backbone.encoder.second_conv.1.running_var']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:08:05 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:08:05 - ERROR - stderr - 2025-10-06 15:08:05,778 - Transformer - INFO - PointBERT's weights are successfully loaded from checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt
+2025-10-06 15:08:05 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:17<00:00,  7.68s/it]
+2025-10-06 15:08:05 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:17<00:00,  8.51s/it]
+2025-10-06 15:08:05 - ERROR - stderr - 
+2025-10-06 15:08:05 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_proj.0.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_proj.4.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:05 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_proj.0.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_proj.4.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:08:05 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:08:05 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:16<00:00,  7.74s/it]
+2025-10-06 15:08:05 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:16<00:00,  8.46s/it]
+2025-10-06 15:08:05 - ERROR - stderr - 
+2025-10-06 15:08:05 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_proj.4.bias', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.temporal_encoder.norm2.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_proj.2.weight', 'model.temporal_encoder.norm1.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:05 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_proj.4.bias', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.temporal_encoder.norm2.weight', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_proj.2.weight', 'model.temporal_encoder.norm1.weight', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:08:05 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:08:05 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:08:07 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:17<00:00,  8.05s/it]
+2025-10-06 15:08:07 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:17<00:00,  8.80s/it]
+2025-10-06 15:08:07 - ERROR - stderr - 
+2025-10-06 15:08:07 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.temporal_encoder.norm2.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_proj.0.bias', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.cls_token', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:07 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.temporal_encoder.norm2.bias', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.temporal_encoder.norm1.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_proj.4.bias', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_proj.0.bias', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.point_backbone.cls_token', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.temporal_encoder.mlp.2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:07 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:08:07 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:08:07 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:08:07 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:08:07 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:08:09 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:20<00:00,  9.07s/it]
+2025-10-06 15:08:09 - ERROR - stderr - Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:20<00:00, 10.04s/it]
+2025-10-06 15:08:09 - ERROR - stderr - 
+2025-10-06 15:08:09 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.temporal_encoder.norm1.bias', 'model.point_proj.4.bias', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.temporal_encoder.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:09 - WARNING - transformers.modeling_utils - Some weights of PointLLMLlamaForCausalLM were not initialized from the model checkpoint at checkpoints/PointLLM_7B_v1.1_init and are newly initialized: ['model.point_backbone.blocks.blocks.0.attn.qkv.weight', 'model.point_backbone.blocks.blocks.8.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.weight', 'model.temporal_encoder.temporal_attention.proj.bias', 'model.temporal_encoder.norm1.bias', 'model.point_proj.4.bias', 'model.point_proj.4.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc2.weight', 'model.point_backbone.encoder.first_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.4.attn.proj.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.4.norm2.bias', 'model.temporal_encoder.temporal_attention.qkv.bias', 'model.point_backbone.encoder.second_conv.3.bias', 'model.point_backbone.blocks.blocks.6.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.bias', 'model.point_backbone.blocks.blocks.2.norm1.bias', 'model.point_backbone.blocks.blocks.9.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.6.norm1.weight', 'model.point_backbone.blocks.blocks.9.norm1.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.bias', 'model.point_backbone.encoder.first_conv.0.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.attn.proj.weight', 'model.point_backbone.reduce_dim.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.bias', 'model.point_backbone.encoder.second_conv.3.weight', 'model.point_backbone.blocks.blocks.5.norm2.weight', 'model.point_backbone.blocks.blocks.9.norm2.bias', 'model.point_proj.2.bias', 'model.point_backbone.blocks.blocks.10.norm2.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm1.bias', 'model.point_backbone.blocks.blocks.10.norm1.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.attn.proj.weight', 'model.point_backbone.blocks.blocks.11.attn.qkv.weight', 'model.point_backbone.blocks.blocks.11.norm2.weight', 'model.point_backbone.blocks.blocks.10.norm2.bias', 'model.point_backbone.blocks.blocks.7.norm2.weight', 'model.point_backbone.blocks.blocks.2.attn.proj.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.attn.qkv.weight', 'model.point_backbone.blocks.blocks.5.attn.qkv.weight', 'model.point_backbone.blocks.blocks.4.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.bias', 'model.point_backbone.blocks.blocks.0.norm1.bias', 'model.point_backbone.encoder.second_conv.1.bias', 'model.point_backbone.blocks.blocks.8.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.weight', 'model.point_backbone.blocks.blocks.8.norm2.weight', 'model.point_backbone.blocks.blocks.7.norm2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.11.norm1.weight', 'model.point_backbone.blocks.blocks.7.norm1.bias', 'model.point_backbone.encoder.second_conv.0.weight', 'model.point_backbone.encoder.first_conv.1.running_mean', 'model.point_backbone.encoder.second_conv.1.running_var', 'model.point_backbone.blocks.blocks.0.mlp.fc2.weight', 'model.temporal_encoder.mlp.0.bias', 'model.point_backbone.blocks.blocks.4.norm2.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm2.bias', 'model.point_backbone.blocks.blocks.8.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.weight', 'model.temporal_encoder.temporal_attention.qkv.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.3.norm2.weight', 'model.point_backbone.encoder.first_conv.3.weight', 'model.point_backbone.blocks.blocks.8.norm1.weight', 'model.point_backbone.encoder.first_conv.1.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.7.norm1.weight', 'model.point_backbone.blocks.blocks.0.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.7.attn.qkv.weight', 'model.point_backbone.blocks.blocks.7.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc1.weight', 'model.temporal_encoder.norm1.weight', 'model.point_backbone.blocks.blocks.4.attn.proj.bias', 'model.point_backbone.cls_token', 'model.point_backbone.blocks.blocks.3.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.1.norm2.weight', 'model.point_backbone.blocks.blocks.4.norm1.weight', 'model.point_backbone.blocks.blocks.5.norm1.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.11.norm2.bias', 'model.temporal_encoder.mlp.0.weight', 'model.point_proj.0.weight', 'model.point_backbone.blocks.blocks.6.attn.proj.bias', 'model.point_backbone.blocks.blocks.7.attn.proj.weight', 'model.point_backbone.blocks.blocks.10.mlp.fc1.weight', 'model.point_backbone.encoder.first_conv.0.weight', 'model.point_backbone.encoder.second_conv.1.running_mean', 'model.temporal_encoder.temporal_attention.proj.weight', 'model.point_backbone.blocks.blocks.5.attn.proj.weight', 'model.point_backbone.blocks.blocks.3.attn.proj.weight', 'model.point_backbone.blocks.blocks.6.norm2.weight', 'model.point_backbone.blocks.blocks.8.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.3.attn.qkv.weight', 'model.point_backbone.blocks.blocks.2.norm2.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm1.bias', 'model.point_backbone.blocks.blocks.4.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.1.norm1.bias', 'model.point_backbone.blocks.blocks.3.attn.proj.bias', 'model.point_backbone.blocks.blocks.6.norm2.bias', 'model.point_backbone.blocks.blocks.10.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm2.bias', 'model.point_backbone.blocks.blocks.6.norm1.bias', 'model.point_backbone.blocks.blocks.10.attn.proj.weight', 'model.point_backbone.encoder.first_conv.1.running_var', 'model.point_backbone.blocks.blocks.2.attn.proj.weight', 'model.temporal_encoder.mlp.2.bias', 'model.point_backbone.blocks.blocks.0.norm1.weight', 'model.point_proj.0.bias', 'model.point_backbone.blocks.blocks.2.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.2.attn.qkv.weight', 'model.point_backbone.blocks.blocks.1.attn.qkv.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.11.attn.proj.weight', 'model.temporal_encoder.norm2.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.weight', 'model.point_backbone.encoder.second_conv.1.weight', 'model.point_backbone.pos_embed.2.weight', 'model.point_backbone.blocks.blocks.4.norm1.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.0.norm2.weight', 'model.point_backbone.blocks.blocks.9.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.2.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.3.norm1.weight', 'model.point_backbone.pos_embed.0.weight', 'model.point_backbone.blocks.blocks.3.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.6.mlp.fc2.bias', 'model.point_backbone.pos_embed.2.bias', 'model.point_backbone.blocks.blocks.11.mlp.fc2.bias', 'model.point_backbone.blocks.blocks.5.norm1.bias', 'model.point_backbone.blocks.blocks.1.mlp.fc2.weight', 'model.point_backbone.blocks.blocks.8.attn.proj.bias', 'model.point_backbone.blocks.blocks.2.norm1.weight', 'model.point_backbone.reduce_dim.bias', 'model.point_backbone.encoder.first_conv.3.bias', 'model.temporal_encoder.norm2.bias', 'model.point_backbone.cls_pos', 'model.point_backbone.blocks.blocks.2.mlp.fc1.bias', 'model.point_backbone.encoder.second_conv.1.num_batches_tracked', 'model.point_backbone.blocks.blocks.8.norm1.bias', 'model.point_proj.2.weight', 'model.point_backbone.blocks.blocks.10.attn.qkv.weight', 'model.point_backbone.blocks.blocks.10.norm1.weight', 'model.point_backbone.norm.bias', 'model.point_backbone.blocks.blocks.5.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.9.norm1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.bias', 'model.point_backbone.blocks.blocks.1.norm1.weight', 'model.point_backbone.encoder.second_conv.0.bias', 'model.point_backbone.blocks.blocks.2.mlp.fc1.weight', 'model.point_backbone.blocks.blocks.5.norm2.bias', 'model.point_backbone.blocks.blocks.0.norm2.bias', 'model.point_backbone.blocks.blocks.7.mlp.fc1.bias', 'model.point_backbone.blocks.blocks.9.attn.proj.weight', 'model.point_backbone.blocks.blocks.9.norm2.weight', 'model.point_backbone.pos_embed.0.bias', 'model.point_backbone.norm.weight', 'model.point_backbone.blocks.blocks.6.mlp.fc1.bias', 'model.temporal_encoder.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+2025-10-06 15:08:09 - INFO - pointllm4d.train.train - LLM is fixed. Fix_llm flag is set to True
+2025-10-06 15:08:09 - INFO - pointllm4d.train.train - Point backbone is fixed. Fix_pointnet flag is set to True, pointnet grad will not be recorded.
+2025-10-06 15:08:09 - INFO - pointllm4d.train.train - Set requires_grad of point backbone to False
+2025-10-06 15:08:09 - INFO - pointllm4d.train.train - Point projection layer is trainable.
+2025-10-06 15:08:09 - INFO - stdout - Default point_backbone_ckpt is checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt.
+2025-10-06 15:08:12 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:08:12 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:08:12 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:08:12 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:08:12 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:08:12 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:08:13 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:08:13 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:08:13 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:08:13 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:08:13 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:08:13 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:08:14 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:08:14 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:08:14 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:08:14 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:08:14 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:08:14 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:08:14 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:08:14 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:08:14 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:08:14 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:08:14 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:08:14 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:08:14 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:08:14 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:08:14 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:08:14 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:08:14 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:08:14 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:08:14 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:08:14 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:08:15 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:08:15 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:08:15 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:08:15 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:08:17 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:08:17 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:08:17 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:08:17 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:08:17 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:08:17 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:08:18 - INFO - stdout - Setting output embeddings fixed and 2 new tokens' input embeddings trainable.
+2025-10-06 15:08:18 - INFO - stdout - Loading anno file from /data1/xindanzhang/PointLLM/pointllm4d/data/anno_data/PointLLM_brief_description_660K_filtered.json.
+2025-10-06 15:08:18 - INFO - stdout - Using conversation_type: ['simple_description']
+2025-10-06 15:08:18 - INFO - stdout - Before filtering, the dataset size is: 44474.
+2025-10-06 15:08:18 - INFO - stdout - After filtering, the dataset size is: 44474.
+2025-10-06 15:08:18 - INFO - stdout - Number of simple_description: 44474
+2025-10-06 15:08:22 - INFO - transformers.trainer - Using cuda_amp half precision backend
+2025-10-06 15:08:22 - INFO - transformers.trainer - Using cuda_amp half precision backend
+2025-10-06 15:08:28 - INFO - transformers.trainer - ***** Running training *****
+2025-10-06 15:08:28 - INFO - transformers.trainer - ***** Running training *****
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Num examples = 44474
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Num examples = 44474
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Num Epochs = 6
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Num Epochs = 6
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Instantaneous batch size per device = 16
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Instantaneous batch size per device = 16
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Total train batch size (w. parallel, distributed & accumulation) = 128
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Total train batch size (w. parallel, distributed & accumulation) = 128
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Gradient Accumulation steps = 1
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Gradient Accumulation steps = 1
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Total optimization steps = 2088
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Total optimization steps = 2088
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Number of trainable parameters = 143744896
+2025-10-06 15:08:28 - INFO - transformers.trainer -   Number of trainable parameters = 143744896
+2025-10-06 15:08:28 - INFO - transformers.integrations - Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"
+2025-10-06 15:08:28 - INFO - transformers.integrations - Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"
+2025-10-06 15:08:29 - ERROR - stderr - [34m[1mwandb[0m: Currently logged in as: [33mzhangxd22[0m ([33mzhangxd22-jilin-university[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
+2025-10-06 15:08:29 - INFO - wandb - Current SDK version is 0.21.3
+2025-10-06 15:08:29 - INFO - wandb - Configure stats pid to 52322
+2025-10-06 15:08:29 - INFO - wandb - Loading settings from /home/xindanzhang/.config/wandb/settings
+2025-10-06 15:08:29 - INFO - wandb - Loading settings from /data1/xindanzhang/PointLLM/wandb/settings
+2025-10-06 15:08:29 - INFO - wandb - Loading settings from environment variables
+2025-10-06 15:08:29 - INFO - wandb - Logging user logs to /data1/xindanzhang/PointLLM/wandb/run-20251006_150829-mdkjfii9/logs/debug.log
+2025-10-06 15:08:29 - INFO - wandb - Logging internal logs to /data1/xindanzhang/PointLLM/wandb/run-20251006_150829-mdkjfii9/logs/debug-internal.log
+2025-10-06 15:08:29 - INFO - wandb - calling init triggers
+2025-10-06 15:08:29 - INFO - wandb - wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2025-10-06 15:08:29 - INFO - wandb - starting backend
+2025-10-06 15:08:30 - INFO - wandb - sending inform_init request
+2025-10-06 15:08:30 - INFO - wandb - backend started and connected
+2025-10-06 15:08:30 - DEBUG - wandb - no default config file found in config-defaults.yaml
+2025-10-06 15:08:30 - INFO - wandb - updated telemetry
+2025-10-06 15:08:30 - INFO - wandb - communicating run to backend with 90.0 second timeout
+2025-10-06 15:08:31 - ERROR - stderr - [34m[1mwandb[0m: [38;5;178m⢿[0m creating run (0.0s)
+2025-10-06 15:08:31 - ERROR - stderr - [Am[2K
+2025-10-06 15:08:31 - ERROR - stderr - [34m[1mwandb[0m: [38;5;178m⣻[0m creating run (0.0s)
+2025-10-06 15:08:31 - ERROR - stderr - [Am[2K
+2025-10-06 15:08:31 - ERROR - stderr - [34m[1mwandb[0m: [38;5;178m⣽[0m creating run (0.0s)
+2025-10-06 15:08:31 - ERROR - stderr - [Am[2K
+2025-10-06 15:08:31 - INFO - wandb - starting run threads in backend
+2025-10-06 15:08:31 - ERROR - stderr - [34m[1mwandb[0m: Tracking run with wandb version 0.21.3
+2025-10-06 15:08:31 - ERROR - stderr - [34m[1mwandb[0m: Run data is saved locally in [35m[1m/data1/xindanzhang/PointLLM/wandb/run-20251006_150829-mdkjfii9[0m
+2025-10-06 15:08:31 - ERROR - stderr - [34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
+2025-10-06 15:08:31 - ERROR - stderr - [34m[1mwandb[0m: Syncing run [33mPointLLM_train_stagece[0m
+2025-10-06 15:08:31 - ERROR - stderr - [34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/zhangxd22-jilin-university/huggingface[0m
+2025-10-06 15:08:31 - ERROR - stderr - [34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/zhangxd22-jilin-university/huggingface/runs/mdkjfii9[0m
+2025-10-06 15:08:31 - DEBUG - wandb - Saving list of pip packages installed into the current environment
+2025-10-06 15:08:31 - INFO - wandb - atexit reg
+2025-10-06 15:08:31 - INFO - wandb - redirect: wrap_raw
+2025-10-06 15:08:31 - INFO - wandb - Wrapping output streams.
+2025-10-06 15:08:31 - INFO - wandb - Redirects installed.
+2025-10-06 15:08:31 - INFO - wandb - run started, returning control to user process
+2025-10-06 15:08:31 - INFO - wandb - config_cb None None {'vocab_size': 32003, 'hidden_size': 4096, 'intermediate_size': 11008, 'num_hidden_layers': 32, 'num_attention_heads': 32, 'hidden_act': 'silu', 'initializer_range': 0.02, 'rms_norm_eps': 1e-06, 'use_cache': False, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float16', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': False, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'chunk_size_feed_forward': 0, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['PointLLMLlamaForCausalLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'bos_token_id': 1, 'pad_token_id': 0, 'eos_token_id': 2, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': None, 'problem_type': None, '_name_or_path': 'checkpoints/PointLLM_7B_v1.1_init', 'transformers_version': '4.28.0.dev0', 'max_position_embeddings': 2048, 'model_type': 'pointllm', 'point_backbone': 'PointBERT', 'point_backbone_ckpt': 'checkpoints/PointLLM_7B_v1.1_init/point_bert_v1.2.pt', 'point_backbone_config_name': 'PointTransformer_8192point_2layer', 'use_color': True, 'mm_use_point_start_end': True, 'DEFAULT_POINT_PATCH_TOKEN': '<point_patch>', 'DEFAULT_POINT_START_TOKEN': '<point_start>', 'DEFAULT_POINT_END_TOKEN': '<point_end>', 'output_dir': 'epoch6/PointLLM_train_stage1/PointLLM_train_stagece', 'overwrite_output_dir': False, 'do_train': False, 'do_eval': False, 'do_predict': False, 'evaluation_strategy': 'no', 'prediction_loss_only': False, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 4, 'per_gpu_train_batch_size': 'None', 'per_gpu_eval_batch_size': 'None', 'gradient_accumulation_steps': 1, 'eval_accumulation_steps': 'None', 'eval_delay': 0, 'learning_rate': 0.001, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 6.0, 'max_steps': -1, 'lr_scheduler_type': 'cosine', 'warmup_ratio': 0.03, 'warmup_steps': 0, 'log_level': 'info', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': 'epoch6/PointLLM_train_stage1/PointLLM_train_stagece/runs/Oct06_15-06-42_6e49fa911257', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 1, 'logging_nan_inf_filter': True, 'save_strategy': 'steps', 'save_steps': 400, 'save_total_limit': 1, 'save_on_each_node': False, 'no_cuda': False, 'use_mps_device': False, 'seed': 42, 'data_seed': 'None', 'jit_mode_eval': False, 'use_ipex': False, 'bf16': True, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'cuda_amp', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': 'None', 'local_rank': 0, 'xpu_backend': 'None', 'tpu_num_cores': 'None', 'tpu_metrics_debug': False, 'debug': '[]', 'dataloader_drop_last': False, 'eval_steps': 'None', 'dataloader_num_workers': 0, 'past_index': -1, 'run_name': 'PointLLM_train_stagece', 'disable_tqdm': False, 'remove_unused_columns': False, 'label_names': 'None', 'load_best_model_at_end': False, 'metric_for_best_model': 'None', 'greater_is_better': 'None', 'ignore_data_skip': False, 'sharded_ddp': '[]', 'fsdp': '[]', 'fsdp_min_num_params': 0, 'fsdp_config': "{'fsdp_min_num_params': 0, 'xla': False, 'xla_fsdp_grad_ckpt': False}", 'fsdp_transformer_layer_cls_to_wrap': 'None', 'deepspeed': 'None', 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': 'None', 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': "['wandb']", 'ddp_find_unused_parameters': 'None', 'ddp_bucket_cap_mb': 'None', 'dataloader_pin_memory': True, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': 'None', 'hub_model_id': 'None', 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': False, 'gradient_checkpointing': True, 'include_inputs_for_metrics': False, 'fp16_backend': 'auto', 'push_to_hub_model_id': 'None', 'push_to_hub_organization': 'None', 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': 'None', 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': 'None', 'torch_compile_mode': 'None', 'cache_dir': 'None', 'model_max_length': 2048, 'model_debug': False, 'fix_llm': True, 'fix_pointnet': True, 'force_fsdp': False, 'tune_mm_mlp_adapter': True, 'stage_2': False, 'pretrained_mm_mlp_adapter': 'None', 'detatch_point_token': '<DETATCH_POINT_TOKEN>', 'train_batch_size': 16, 'eval_batch_size': 4}
+2025-10-06 15:08:31 - ERROR - stderr -   0%|                                                                                                                     | 0/2088 [00:00<?, ?it/s]
+2025-10-06 15:08:34 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:08:34 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:08:34 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:08:34 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:08:34 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:08:34 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:08:34 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:08:34 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:08:34 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:08:34 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:08:34 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:08:34 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:08:34 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:08:34 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:08:34 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 15:08:34 - ERROR - stderr -   warnings.warn(
+2025-10-06 15:08:38 - ERROR - stderr -   0%|                                                                                                           | 1/2088 [00:06<4:02:11,  6.96s/it]
+2025-10-06 15:08:38 - ERROR - stderr - 
+2025-10-06 15:08:38 - ERROR - stderr - 
+2025-10-06 15:08:38 - INFO - stdout - {'loss': 10.858, 'learning_rate': 1.5873015873015872e-05, 'epoch': 0.0}
+2025-10-06 15:08:38 - ERROR - stderr -   0%|                                                                                                           | 1/2088 [00:06<4:02:11,  6.96s/it]
+2025-10-06 15:08:45 - ERROR - stderr -   0%|                                                                                                           | 2/2088 [00:13<4:03:24,  7.00s/it]
+2025-10-06 15:08:45 - ERROR - stderr - 
+2025-10-06 15:08:45 - ERROR - stderr - 
+2025-10-06 15:08:45 - INFO - stdout - {'loss': 11.0409, 'learning_rate': 3.1746031746031745e-05, 'epoch': 0.01}
+2025-10-06 15:08:45 - ERROR - stderr -   0%|                                                                                                           | 2/2088 [00:14<4:03:24,  7.00s/it]
+2025-10-06 15:08:52 - ERROR - stderr -   0%|▏                                                                                                          | 3/2088 [00:20<4:03:10,  7.00s/it]
+2025-10-06 15:08:52 - ERROR - stderr - 
+2025-10-06 15:08:52 - ERROR - stderr - 
+2025-10-06 15:08:52 - INFO - stdout - {'loss': 10.0276, 'learning_rate': 4.761904761904762e-05, 'epoch': 0.01}
+2025-10-06 15:08:52 - ERROR - stderr -   0%|▏                                                                                                          | 3/2088 [00:20<4:03:10,  7.00s/it]
+2025-10-06 15:08:59 - ERROR - stderr -   0%|▏                                                                                                          | 4/2088 [00:27<4:01:47,  6.96s/it]
+2025-10-06 15:08:59 - ERROR - stderr - 
+2025-10-06 15:08:59 - ERROR - stderr - 
+2025-10-06 15:08:59 - INFO - stdout - {'loss': 9.4209, 'learning_rate': 6.349206349206349e-05, 'epoch': 0.01}
+2025-10-06 15:08:59 - ERROR - stderr -   0%|▏                                                                                                          | 4/2088 [00:27<4:01:47,  6.96s/it]
+2025-10-06 15:09:06 - ERROR - stderr -   0%|▎                                                                                                          | 5/2088 [00:35<4:04:49,  7.05s/it]
+2025-10-06 15:09:06 - ERROR - stderr - 
+2025-10-06 15:09:06 - ERROR - stderr - 
+2025-10-06 15:09:06 - INFO - stdout - {'loss': 9.0528, 'learning_rate': 7.936507936507937e-05, 'epoch': 0.01}
+2025-10-06 15:09:06 - ERROR - stderr -   0%|▎                                                                                                          | 5/2088 [00:35<4:04:49,  7.05s/it]
+2025-10-06 15:09:13 - ERROR - stderr -   0%|▎                                                                                                          | 6/2088 [00:42<4:08:39,  7.17s/it]
+2025-10-06 15:09:14 - ERROR - stderr - 
+2025-10-06 15:09:14 - ERROR - stderr - 
+2025-10-06 15:09:14 - INFO - stdout - {'loss': 9.011, 'learning_rate': 9.523809523809524e-05, 'epoch': 0.02}
+2025-10-06 15:09:14 - ERROR - stderr -   0%|▎                                                                                                          | 6/2088 [00:42<4:08:39,  7.17s/it]
+2025-10-06 15:09:22 - ERROR - stderr -   0%|▎                                                                                                          | 7/2088 [00:50<4:18:38,  7.46s/it]
+2025-10-06 15:09:22 - ERROR - stderr - 
+2025-10-06 15:09:22 - ERROR - stderr - 
+2025-10-06 15:09:22 - INFO - stdout - {'loss': 8.6485, 'learning_rate': 0.0001111111111111111, 'epoch': 0.02}
+2025-10-06 15:09:22 - ERROR - stderr -   0%|▎                                                                                                          | 7/2088 [00:50<4:18:38,  7.46s/it]
+2025-10-06 15:09:30 - ERROR - stderr -   0%|▍                                                                                                          | 8/2088 [00:59<4:33:06,  7.88s/it]
+2025-10-06 15:09:30 - ERROR - stderr - 
+2025-10-06 15:09:30 - ERROR - stderr - 
+2025-10-06 15:09:30 - INFO - stdout - {'loss': 7.7262, 'learning_rate': 0.00012698412698412698, 'epoch': 0.02}
+2025-10-06 15:09:30 - ERROR - stderr -   0%|▍                                                                                                          | 8/2088 [00:59<4:33:06,  7.88s/it]
+2025-10-06 15:09:38 - ERROR - stderr -   0%|▍                                                                                                          | 9/2088 [01:06<4:28:05,  7.74s/it]
+2025-10-06 15:09:38 - ERROR - stderr - 
+2025-10-06 15:09:38 - ERROR - stderr - 
+2025-10-06 15:09:38 - INFO - stdout - {'loss': 7.4301, 'learning_rate': 0.00014285714285714284, 'epoch': 0.03}
+2025-10-06 15:09:38 - ERROR - stderr -   0%|▍                                                                                                          | 9/2088 [01:06<4:28:05,  7.74s/it]
+2025-10-06 15:09:46 - ERROR - stderr -   0%|▌                                                                                                         | 10/2088 [01:14<4:28:03,  7.74s/it]
+2025-10-06 15:09:46 - ERROR - stderr - 
+2025-10-06 15:09:46 - ERROR - stderr - 
+2025-10-06 15:09:46 - INFO - stdout - {'loss': 7.1522, 'learning_rate': 0.00015873015873015873, 'epoch': 0.03}
+2025-10-06 15:09:46 - ERROR - stderr -   0%|▌                                                                                                         | 10/2088 [01:14<4:28:03,  7.74s/it]
+2025-10-06 15:09:53 - ERROR - stderr -   1%|▌                                                                                                         | 11/2088 [01:21<4:23:10,  7.60s/it]
+2025-10-06 15:09:53 - ERROR - stderr - 
+2025-10-06 15:09:53 - ERROR - stderr - 
+2025-10-06 15:09:53 - INFO - stdout - {'loss': 6.6217, 'learning_rate': 0.0001746031746031746, 'epoch': 0.03}
+2025-10-06 15:09:53 - ERROR - stderr -   1%|▌                                                                                                         | 11/2088 [01:21<4:23:10,  7.60s/it]
+2025-10-06 15:10:01 - ERROR - stderr -   1%|▌                                                                                                         | 12/2088 [01:29<4:29:00,  7.77s/it]
+2025-10-06 15:10:01 - ERROR - stderr - 
+2025-10-06 15:10:01 - ERROR - stderr - 
+2025-10-06 15:10:01 - INFO - stdout - {'loss': 5.9846, 'learning_rate': 0.00019047619047619048, 'epoch': 0.03}
+2025-10-06 15:10:01 - ERROR - stderr -   1%|▌                                                                                                         | 12/2088 [01:29<4:29:00,  7.77s/it]
+2025-10-06 15:10:09 - ERROR - stderr -   1%|▋                                                                                                         | 13/2088 [01:37<4:30:00,  7.81s/it]
+2025-10-06 15:10:09 - ERROR - stderr - 
+2025-10-06 15:10:09 - ERROR - stderr - 
+2025-10-06 15:10:09 - INFO - stdout - {'loss': 5.5675, 'learning_rate': 0.00020634920634920634, 'epoch': 0.04}
+2025-10-06 15:10:09 - ERROR - stderr -   1%|▋                                                                                                         | 13/2088 [01:37<4:30:00,  7.81s/it]
+2025-10-06 15:10:17 - ERROR - stderr -   1%|▋                                                                                                         | 14/2088 [01:45<4:31:34,  7.86s/it]
+2025-10-06 15:10:17 - ERROR - stderr - 
+2025-10-06 15:10:17 - ERROR - stderr - 
+2025-10-06 15:10:17 - INFO - stdout - {'loss': 5.0319, 'learning_rate': 0.0002222222222222222, 'epoch': 0.04}
+2025-10-06 15:10:17 - ERROR - stderr -   1%|▋                                                                                                         | 14/2088 [01:45<4:31:34,  7.86s/it]
+2025-10-06 15:10:25 - ERROR - stderr -   1%|▊                                                                                                         | 15/2088 [01:54<4:39:21,  8.09s/it]
+2025-10-06 15:10:25 - ERROR - stderr - 
+2025-10-06 15:10:25 - ERROR - stderr - 
+2025-10-06 15:10:25 - INFO - stdout - {'loss': 4.492, 'learning_rate': 0.0002380952380952381, 'epoch': 0.04}
+2025-10-06 15:10:25 - ERROR - stderr -   1%|▊                                                                                                         | 15/2088 [01:54<4:39:21,  8.09s/it]
+2025-10-06 15:10:33 - ERROR - stderr -   1%|▊                                                                                                         | 16/2088 [02:01<4:31:39,  7.87s/it]
+2025-10-06 15:10:33 - ERROR - stderr - 
+2025-10-06 15:10:33 - ERROR - stderr - 
+2025-10-06 15:10:33 - INFO - stdout - {'loss': 3.9963, 'learning_rate': 0.00025396825396825396, 'epoch': 0.05}
+2025-10-06 15:10:33 - ERROR - stderr -   1%|▊                                                                                                         | 16/2088 [02:01<4:31:39,  7.87s/it]
+2025-10-06 15:10:41 - ERROR - stderr -   1%|▊                                                                                                         | 17/2088 [02:09<4:33:04,  7.91s/it]
+2025-10-06 15:10:41 - ERROR - stderr - 
+2025-10-06 15:10:41 - ERROR - stderr - 
+2025-10-06 15:10:41 - INFO - stdout - {'loss': 3.477, 'learning_rate': 0.0002698412698412698, 'epoch': 0.05}
+2025-10-06 15:10:41 - ERROR - stderr -   1%|▊                                                                                                         | 17/2088 [02:09<4:33:04,  7.91s/it]
+2025-10-06 15:10:49 - ERROR - stderr -   1%|▉                                                                                                         | 18/2088 [02:18<4:37:42,  8.05s/it]
+2025-10-06 15:10:49 - ERROR - stderr - 
+2025-10-06 15:10:49 - ERROR - stderr - 
+2025-10-06 15:10:49 - INFO - stdout - {'loss': 3.0997, 'learning_rate': 0.0002857142857142857, 'epoch': 0.05}
+2025-10-06 15:10:49 - ERROR - stderr -   1%|▉                                                                                                         | 18/2088 [02:18<4:37:42,  8.05s/it]
+2025-10-06 15:10:57 - ERROR - stderr -   1%|▉                                                                                                         | 19/2088 [02:26<4:35:26,  7.99s/it]
+2025-10-06 15:10:57 - ERROR - stderr - 
+2025-10-06 15:10:57 - ERROR - stderr - 
+2025-10-06 15:10:57 - INFO - stdout - {'loss': 2.8757, 'learning_rate': 0.0003015873015873016, 'epoch': 0.05}
+2025-10-06 15:10:57 - ERROR - stderr -   1%|▉                                                                                                         | 19/2088 [02:26<4:35:26,  7.99s/it]
+2025-10-06 15:11:05 - ERROR - stderr -   1%|█                                                                                                         | 20/2088 [02:33<4:35:04,  7.98s/it]
+2025-10-06 15:11:05 - ERROR - stderr - 
+2025-10-06 15:11:05 - ERROR - stderr - 
+2025-10-06 15:11:05 - INFO - stdout - {'loss': 2.7135, 'learning_rate': 0.00031746031746031746, 'epoch': 0.06}
+2025-10-06 15:11:05 - ERROR - stderr -   1%|█                                                                                                         | 20/2088 [02:34<4:35:04,  7.98s/it]
+2025-10-06 15:11:13 - ERROR - stderr -   1%|█                                                                                                         | 21/2088 [02:41<4:34:33,  7.97s/it]
+2025-10-06 15:11:13 - ERROR - stderr - 
+2025-10-06 15:11:13 - ERROR - stderr - 
+2025-10-06 15:11:13 - INFO - stdout - {'loss': 2.5498, 'learning_rate': 0.0003333333333333333, 'epoch': 0.06}
+2025-10-06 15:11:13 - ERROR - stderr -   1%|█                                                                                                         | 21/2088 [02:41<4:34:33,  7.97s/it]
+2025-10-06 15:11:21 - ERROR - stderr -   1%|█                                                                                                         | 22/2088 [02:49<4:30:54,  7.87s/it]
+2025-10-06 15:11:21 - ERROR - stderr - 
+2025-10-06 15:11:21 - ERROR - stderr - 
+2025-10-06 15:11:21 - INFO - stdout - {'loss': 2.4897, 'learning_rate': 0.0003492063492063492, 'epoch': 0.06}
+2025-10-06 15:11:21 - ERROR - stderr -   1%|█                                                                                                         | 22/2088 [02:49<4:30:54,  7.87s/it]
+2025-10-06 15:11:28 - ERROR - stderr -   1%|█▏                                                                                                        | 23/2088 [02:57<4:29:27,  7.83s/it]
+2025-10-06 15:11:28 - ERROR - stderr - 
+2025-10-06 15:11:28 - ERROR - stderr - 
+2025-10-06 15:11:28 - INFO - stdout - {'loss': 2.2522, 'learning_rate': 0.00036507936507936505, 'epoch': 0.07}
+2025-10-06 15:11:28 - ERROR - stderr -   1%|█▏                                                                                                        | 23/2088 [02:57<4:29:27,  7.83s/it]
+2025-10-06 15:11:36 - ERROR - stderr -   1%|█▏                                                                                                        | 24/2088 [03:05<4:30:02,  7.85s/it]
+2025-10-06 15:11:36 - ERROR - stderr - 
+2025-10-06 15:11:36 - ERROR - stderr - 
+2025-10-06 15:11:36 - INFO - stdout - {'loss': 2.1594, 'learning_rate': 0.00038095238095238096, 'epoch': 0.07}
+2025-10-06 15:11:36 - ERROR - stderr -   1%|█▏                                                                                                        | 24/2088 [03:05<4:30:02,  7.85s/it]
+2025-10-06 15:11:45 - ERROR - stderr -   1%|█▎                                                                                                        | 25/2088 [03:13<4:34:38,  7.99s/it]
+2025-10-06 15:11:45 - ERROR - stderr - 
+2025-10-06 15:11:45 - ERROR - stderr - 
+2025-10-06 15:11:45 - INFO - stdout - {'loss': 2.147, 'learning_rate': 0.0003968253968253968, 'epoch': 0.07}
+2025-10-06 15:11:45 - ERROR - stderr -   1%|█▎                                                                                                        | 25/2088 [03:13<4:34:38,  7.99s/it]
+2025-10-06 15:11:52 - ERROR - stderr -   1%|█▎                                                                                                        | 26/2088 [03:20<4:26:44,  7.76s/it]
+2025-10-06 15:11:52 - ERROR - stderr - 
+2025-10-06 15:11:52 - ERROR - stderr - 
+2025-10-06 15:11:52 - INFO - stdout - {'loss': 2.0602, 'learning_rate': 0.0004126984126984127, 'epoch': 0.07}
+2025-10-06 15:11:52 - ERROR - stderr -   1%|█▎                                                                                                        | 26/2088 [03:20<4:26:44,  7.76s/it]
+2025-10-06 15:12:00 - ERROR - stderr -   1%|█▎                                                                                                        | 27/2088 [03:28<4:29:27,  7.84s/it]
+2025-10-06 15:12:00 - ERROR - stderr - 
+2025-10-06 15:12:00 - ERROR - stderr - 
+2025-10-06 15:12:00 - INFO - stdout - {'loss': 2.0704, 'learning_rate': 0.00042857142857142855, 'epoch': 0.08}
+2025-10-06 15:12:00 - ERROR - stderr -   1%|█▎                                                                                                        | 27/2088 [03:28<4:29:27,  7.84s/it]
+2025-10-06 15:12:07 - ERROR - stderr -   1%|█▍                                                                                                        | 28/2088 [03:36<4:23:55,  7.69s/it]
+2025-10-06 15:12:07 - ERROR - stderr - 
+2025-10-06 15:12:07 - ERROR - stderr - 
+2025-10-06 15:12:07 - INFO - stdout - {'loss': 1.9008, 'learning_rate': 0.0004444444444444444, 'epoch': 0.08}
+2025-10-06 15:12:07 - ERROR - stderr -   1%|█▍                                                                                                        | 28/2088 [03:36<4:23:55,  7.69s/it]
+2025-10-06 15:12:15 - ERROR - stderr -   1%|█▍                                                                                                        | 29/2088 [03:43<4:23:27,  7.68s/it]
+2025-10-06 15:12:15 - ERROR - stderr - 
+2025-10-06 15:12:15 - ERROR - stderr - 
+2025-10-06 15:12:15 - INFO - stdout - {'loss': 1.96, 'learning_rate': 0.00046031746031746033, 'epoch': 0.08}
+2025-10-06 15:12:15 - ERROR - stderr -   1%|█▍                                                                                                        | 29/2088 [03:43<4:23:27,  7.68s/it]
+2025-10-06 15:12:23 - ERROR - stderr -   1%|█▌                                                                                                        | 30/2088 [03:52<4:29:33,  7.86s/it]
+2025-10-06 15:12:23 - ERROR - stderr - 
+2025-10-06 15:12:23 - ERROR - stderr - 
+2025-10-06 15:12:23 - INFO - stdout - {'loss': 1.8308, 'learning_rate': 0.0004761904761904762, 'epoch': 0.09}
+2025-10-06 15:12:23 - ERROR - stderr -   1%|█▌                                                                                                        | 30/2088 [03:52<4:29:33,  7.86s/it]
+2025-10-06 15:12:31 - ERROR - stderr -   1%|█▌                                                                                                        | 31/2088 [04:00<4:31:58,  7.93s/it]
+2025-10-06 15:12:31 - ERROR - stderr - 
+2025-10-06 15:12:31 - ERROR - stderr - 
+2025-10-06 15:12:31 - INFO - stdout - {'loss': 2.003, 'learning_rate': 0.000492063492063492, 'epoch': 0.09}
+2025-10-06 15:12:31 - ERROR - stderr -   1%|█▌                                                                                                        | 31/2088 [04:00<4:31:58,  7.93s/it]
+2025-10-06 15:12:39 - ERROR - stderr -   2%|█▌                                                                                                        | 32/2088 [04:07<4:30:43,  7.90s/it]
+2025-10-06 15:12:39 - ERROR - stderr - 
+2025-10-06 15:12:39 - ERROR - stderr - 
+2025-10-06 15:12:39 - INFO - stdout - {'loss': 1.9223, 'learning_rate': 0.0005079365079365079, 'epoch': 0.09}
+2025-10-06 15:12:39 - ERROR - stderr -   2%|█▌                                                                                                        | 32/2088 [04:07<4:30:43,  7.90s/it]
+2025-10-06 15:12:47 - ERROR - stderr -   2%|█▋                                                                                                        | 33/2088 [04:16<4:32:29,  7.96s/it]
+2025-10-06 15:12:47 - ERROR - stderr - 
+2025-10-06 15:12:47 - ERROR - stderr - 
+2025-10-06 15:12:47 - INFO - stdout - {'loss': 1.8372, 'learning_rate': 0.0005238095238095238, 'epoch': 0.09}
+2025-10-06 15:12:47 - ERROR - stderr -   2%|█▋                                                                                                        | 33/2088 [04:16<4:32:29,  7.96s/it]
+2025-10-06 15:12:55 - ERROR - stderr -   2%|█▋                                                                                                        | 34/2088 [04:23<4:30:16,  7.89s/it]
+2025-10-06 15:12:55 - ERROR - stderr - 
+2025-10-06 15:12:55 - ERROR - stderr - 
+2025-10-06 15:12:55 - INFO - stdout - {'loss': 1.9004, 'learning_rate': 0.0005396825396825396, 'epoch': 0.1}
+2025-10-06 15:12:55 - ERROR - stderr -   2%|█▋                                                                                                        | 34/2088 [04:23<4:30:16,  7.89s/it]
+2025-10-06 15:13:03 - ERROR - stderr -   2%|█▊                                                                                                        | 35/2088 [04:31<4:29:02,  7.86s/it]
+2025-10-06 15:13:03 - ERROR - stderr - 
+2025-10-06 15:13:03 - ERROR - stderr - 
+2025-10-06 15:13:03 - INFO - stdout - {'loss': 1.7686, 'learning_rate': 0.0005555555555555556, 'epoch': 0.1}
+2025-10-06 15:13:03 - ERROR - stderr -   2%|█▊                                                                                                        | 35/2088 [04:31<4:29:02,  7.86s/it]
+2025-10-06 15:13:10 - ERROR - stderr -   2%|█▊                                                                                                        | 36/2088 [04:39<4:28:31,  7.85s/it]
+2025-10-06 15:13:10 - ERROR - stderr - 
+2025-10-06 15:13:10 - ERROR - stderr - 
+2025-10-06 15:13:10 - INFO - stdout - {'loss': 1.6898, 'learning_rate': 0.0005714285714285714, 'epoch': 0.1}
+2025-10-06 15:13:10 - ERROR - stderr -   2%|█▊                                                                                                        | 36/2088 [04:39<4:28:31,  7.85s/it]
+2025-10-06 15:13:18 - ERROR - stderr -   2%|█▉                                                                                                        | 37/2088 [04:47<4:29:17,  7.88s/it]
+2025-10-06 15:13:18 - ERROR - stderr - 
+2025-10-06 15:13:18 - ERROR - stderr - 
+2025-10-06 15:13:18 - INFO - stdout - {'loss': 1.768, 'learning_rate': 0.0005873015873015874, 'epoch': 0.11}
+2025-10-06 15:13:18 - ERROR - stderr -   2%|█▉                                                                                                        | 37/2088 [04:47<4:29:17,  7.88s/it]
+2025-10-06 15:13:26 - ERROR - stderr -   2%|█▉                                                                                                        | 38/2088 [04:54<4:26:16,  7.79s/it]
+2025-10-06 15:13:26 - ERROR - stderr - 
+2025-10-06 15:13:26 - ERROR - stderr - 
+2025-10-06 15:13:26 - INFO - stdout - {'loss': 1.734, 'learning_rate': 0.0006031746031746032, 'epoch': 0.11}
+2025-10-06 15:13:26 - ERROR - stderr -   2%|█▉                                                                                                        | 38/2088 [04:54<4:26:16,  7.79s/it]
+2025-10-06 15:13:34 - ERROR - stderr -   2%|█▉                                                                                                        | 39/2088 [05:02<4:26:46,  7.81s/it]
+2025-10-06 15:13:34 - ERROR - stderr - 
+2025-10-06 15:13:34 - ERROR - stderr - 
+2025-10-06 15:13:34 - INFO - stdout - {'loss': 1.8663, 'learning_rate': 0.0006190476190476191, 'epoch': 0.11}
+2025-10-06 15:13:34 - ERROR - stderr -   2%|█▉                                                                                                        | 39/2088 [05:02<4:26:46,  7.81s/it]
+2025-10-06 15:13:41 - ERROR - stderr -   2%|██                                                                                                        | 40/2088 [05:10<4:23:16,  7.71s/it]
+2025-10-06 15:13:41 - ERROR - stderr - 
+2025-10-06 15:13:41 - ERROR - stderr - 
+2025-10-06 15:13:41 - INFO - stdout - {'loss': 1.7024, 'learning_rate': 0.0006349206349206349, 'epoch': 0.11}
+2025-10-06 15:13:41 - ERROR - stderr -   2%|██                                                                                                        | 40/2088 [05:10<4:23:16,  7.71s/it]
+2025-10-06 15:13:49 - ERROR - stderr -   2%|██                                                                                                        | 41/2088 [05:18<4:25:47,  7.79s/it]
+2025-10-06 15:13:49 - ERROR - stderr - 
+2025-10-06 15:13:49 - ERROR - stderr - 
+2025-10-06 15:13:49 - INFO - stdout - {'loss': 1.802, 'learning_rate': 0.0006507936507936508, 'epoch': 0.12}
+2025-10-06 15:13:49 - ERROR - stderr -   2%|██                                                                                                        | 41/2088 [05:18<4:25:47,  7.79s/it]
+2025-10-06 15:13:57 - ERROR - stderr -   2%|██▏                                                                                                       | 42/2088 [05:25<4:20:39,  7.64s/it]
+2025-10-06 15:13:57 - ERROR - stderr - 
+2025-10-06 15:13:57 - ERROR - stderr - 
+2025-10-06 15:13:57 - INFO - stdout - {'loss': 1.7592, 'learning_rate': 0.0006666666666666666, 'epoch': 0.12}
+2025-10-06 15:13:57 - ERROR - stderr -   2%|██▏                                                                                                       | 42/2088 [05:25<4:20:39,  7.64s/it]
+2025-10-06 15:14:04 - ERROR - stderr -   2%|██▏                                                                                                       | 43/2088 [05:33<4:20:25,  7.64s/it]
+2025-10-06 15:14:04 - ERROR - stderr - 
+2025-10-06 15:14:04 - ERROR - stderr - 
+2025-10-06 15:14:04 - INFO - stdout - {'loss': 1.8061, 'learning_rate': 0.0006825396825396826, 'epoch': 0.12}
+2025-10-06 15:14:04 - ERROR - stderr -   2%|██▏                                                                                                       | 43/2088 [05:33<4:20:25,  7.64s/it]
+2025-10-06 15:14:11 - ERROR - stderr -   2%|██▏                                                                                                       | 44/2088 [05:40<4:16:43,  7.54s/it]
+2025-10-06 15:14:11 - ERROR - stderr - 
+2025-10-06 15:14:11 - ERROR - stderr - 
+2025-10-06 15:14:11 - INFO - stdout - {'loss': 1.6674, 'learning_rate': 0.0006984126984126984, 'epoch': 0.13}
+2025-10-06 15:14:11 - ERROR - stderr -   2%|██▏                                                                                                       | 44/2088 [05:40<4:16:43,  7.54s/it]
+2025-10-06 15:14:20 - ERROR - stderr -   2%|██▎                                                                                                       | 45/2088 [05:48<4:22:08,  7.70s/it]
+2025-10-06 15:14:20 - ERROR - stderr - 
+2025-10-06 15:14:20 - ERROR - stderr - 
+2025-10-06 15:14:20 - INFO - stdout - {'loss': 1.7368, 'learning_rate': 0.0007142857142857143, 'epoch': 0.13}
+2025-10-06 15:14:20 - ERROR - stderr -   2%|██▎                                                                                                       | 45/2088 [05:48<4:22:08,  7.70s/it]
+2025-10-06 15:14:28 - ERROR - stderr -   2%|██▎                                                                                                       | 46/2088 [05:56<4:24:55,  7.78s/it]
+2025-10-06 15:14:28 - ERROR - stderr - 
+2025-10-06 15:14:28 - ERROR - stderr - 
+2025-10-06 15:14:28 - INFO - stdout - {'loss': 1.6775, 'learning_rate': 0.0007301587301587301, 'epoch': 0.13}
+2025-10-06 15:14:28 - ERROR - stderr -   2%|██▎                                                                                                       | 46/2088 [05:56<4:24:55,  7.78s/it]
+2025-10-06 15:14:35 - ERROR - stderr -   2%|██▍                                                                                                       | 47/2088 [06:04<4:25:59,  7.82s/it]
+2025-10-06 15:14:35 - ERROR - stderr - 
+2025-10-06 15:14:35 - ERROR - stderr - 
+2025-10-06 15:14:35 - INFO - stdout - {'loss': 1.6514, 'learning_rate': 0.000746031746031746, 'epoch': 0.14}
+2025-10-06 15:14:35 - ERROR - stderr -   2%|██▍                                                                                                       | 47/2088 [06:04<4:25:59,  7.82s/it]
+2025-10-06 15:14:44 - ERROR - stderr -   2%|██▍                                                                                                       | 48/2088 [06:12<4:28:17,  7.89s/it]
+2025-10-06 15:14:44 - ERROR - stderr - 
+2025-10-06 15:14:44 - ERROR - stderr - 
+2025-10-06 15:14:44 - INFO - stdout - {'loss': 1.5911, 'learning_rate': 0.0007619047619047619, 'epoch': 0.14}
+2025-10-06 15:14:44 - ERROR - stderr -   2%|██▍                                                                                                       | 48/2088 [06:12<4:28:17,  7.89s/it]
+2025-10-06 15:14:52 - ERROR - stderr -   2%|██▍                                                                                                       | 49/2088 [06:20<4:30:32,  7.96s/it]
+2025-10-06 15:14:52 - ERROR - stderr - 
+2025-10-06 15:14:52 - ERROR - stderr - 
+2025-10-06 15:14:52 - INFO - stdout - {'loss': 1.6751, 'learning_rate': 0.0007777777777777778, 'epoch': 0.14}
+2025-10-06 15:14:52 - ERROR - stderr -   2%|██▍                                                                                                       | 49/2088 [06:20<4:30:32,  7.96s/it]
+2025-10-06 15:14:59 - ERROR - stderr -   2%|██▌                                                                                                       | 50/2088 [06:28<4:28:47,  7.91s/it]
+2025-10-06 15:14:59 - ERROR - stderr - 
+2025-10-06 15:14:59 - ERROR - stderr - 
+2025-10-06 15:14:59 - INFO - stdout - {'loss': 1.729, 'learning_rate': 0.0007936507936507937, 'epoch': 0.14}
+2025-10-06 15:14:59 - ERROR - stderr -   2%|██▌                                                                                                       | 50/2088 [06:28<4:28:47,  7.91s/it]
+2025-10-06 15:15:08 - ERROR - stderr -   2%|██▌                                                                                                       | 51/2088 [06:36<4:32:45,  8.03s/it]
+2025-10-06 15:15:08 - ERROR - stderr - 
+2025-10-06 15:15:08 - ERROR - stderr - 
+2025-10-06 15:15:08 - INFO - stdout - {'loss': 1.6754, 'learning_rate': 0.0008095238095238096, 'epoch': 0.15}
+2025-10-06 15:15:08 - ERROR - stderr -   2%|██▌                                                                                                       | 51/2088 [06:36<4:32:45,  8.03s/it]
+2025-10-06 15:15:16 - ERROR - stderr -   2%|██▋                                                                                                       | 52/2088 [06:44<4:31:06,  7.99s/it]
+2025-10-06 15:15:16 - ERROR - stderr - 
+2025-10-06 15:15:16 - ERROR - stderr - 
+2025-10-06 15:15:16 - INFO - stdout - {'loss': 1.6405, 'learning_rate': 0.0008253968253968254, 'epoch': 0.15}
+2025-10-06 15:15:16 - ERROR - stderr -   2%|██▋                                                                                                       | 52/2088 [06:44<4:31:06,  7.99s/it]
+2025-10-06 15:15:24 - ERROR - stderr -   3%|██▋                                                                                                       | 53/2088 [06:52<4:34:12,  8.08s/it]
+2025-10-06 15:15:24 - ERROR - stderr - 
+2025-10-06 15:15:24 - ERROR - stderr - 
+2025-10-06 15:15:24 - INFO - stdout - {'loss': 1.6685, 'learning_rate': 0.0008412698412698413, 'epoch': 0.15}
+2025-10-06 15:15:24 - ERROR - stderr -   3%|██▋                                                                                                       | 53/2088 [06:52<4:34:12,  8.08s/it]
+2025-10-06 15:15:31 - ERROR - stderr -   3%|██▋                                                                                                       | 54/2088 [07:00<4:28:02,  7.91s/it]
+2025-10-06 15:15:31 - ERROR - stderr - 
+2025-10-06 15:15:31 - ERROR - stderr - 
+2025-10-06 15:15:31 - INFO - stdout - {'loss': 1.6634, 'learning_rate': 0.0008571428571428571, 'epoch': 0.16}
+2025-10-06 15:15:31 - ERROR - stderr -   3%|██▋                                                                                                       | 54/2088 [07:00<4:28:02,  7.91s/it]
+2025-10-06 15:15:39 - ERROR - stderr -   3%|██▊                                                                                                       | 55/2088 [07:08<4:28:03,  7.91s/it]
+2025-10-06 15:15:39 - ERROR - stderr - 
+2025-10-06 15:15:39 - ERROR - stderr - 
+2025-10-06 15:15:39 - INFO - stdout - {'loss': 1.6521, 'learning_rate': 0.000873015873015873, 'epoch': 0.16}
+2025-10-06 15:15:39 - ERROR - stderr -   3%|██▊                                                                                                       | 55/2088 [07:08<4:28:03,  7.91s/it]
+2025-10-06 15:15:47 - ERROR - stderr -   3%|██▊                                                                                                       | 56/2088 [07:15<4:22:55,  7.76s/it]
+2025-10-06 15:15:47 - ERROR - stderr - 
+2025-10-06 15:15:47 - ERROR - stderr - 
+2025-10-06 15:15:47 - INFO - stdout - {'loss': 1.6919, 'learning_rate': 0.0008888888888888888, 'epoch': 0.16}
+2025-10-06 15:15:47 - ERROR - stderr -   3%|██▊                                                                                                       | 56/2088 [07:15<4:22:55,  7.76s/it]
+2025-10-06 15:15:54 - ERROR - stderr -   3%|██▉                                                                                                       | 57/2088 [07:23<4:18:08,  7.63s/it]
+2025-10-06 15:15:54 - ERROR - stderr - 
+2025-10-06 15:15:54 - ERROR - stderr - 
+2025-10-06 15:15:54 - INFO - stdout - {'loss': 1.617, 'learning_rate': 0.0009047619047619047, 'epoch': 0.16}
+2025-10-06 15:15:54 - ERROR - stderr -   3%|██▉                                                                                                       | 57/2088 [07:23<4:18:08,  7.63s/it]
+2025-10-06 15:16:04 - ERROR - stderr -   3%|██▉                                                                                                       | 58/2088 [07:32<4:37:12,  8.19s/it]
+2025-10-06 15:16:04 - ERROR - stderr - 
+2025-10-06 15:16:04 - ERROR - stderr - 
+2025-10-06 15:16:04 - INFO - stdout - {'loss': 1.5883, 'learning_rate': 0.0009206349206349207, 'epoch': 0.17}
+2025-10-06 15:16:04 - ERROR - stderr -   3%|██▉                                                                                                       | 58/2088 [07:32<4:37:12,  8.19s/it]
+2025-10-06 15:16:13 - ERROR - stderr -   3%|██▉                                                                                                       | 59/2088 [07:42<4:52:26,  8.65s/it]
+2025-10-06 15:16:13 - ERROR - stderr - 
+2025-10-06 15:16:13 - ERROR - stderr - 
+2025-10-06 15:16:13 - INFO - stdout - {'loss': 1.6086, 'learning_rate': 0.0009365079365079366, 'epoch': 0.17}
+2025-10-06 15:16:13 - ERROR - stderr -   3%|██▉                                                                                                       | 59/2088 [07:42<4:52:26,  8.65s/it]
+2025-10-06 15:16:22 - ERROR - stderr -   3%|███                                                                                                       | 60/2088 [07:51<4:56:18,  8.77s/it]
+2025-10-06 15:16:22 - ERROR - stderr - 
+2025-10-06 15:16:22 - ERROR - stderr - 
+2025-10-06 15:16:22 - INFO - stdout - {'loss': 1.667, 'learning_rate': 0.0009523809523809524, 'epoch': 0.17}
+2025-10-06 15:16:22 - ERROR - stderr -   3%|███                                                                                                       | 60/2088 [07:51<4:56:18,  8.77s/it]
+2025-10-06 15:16:30 - ERROR - stderr -   3%|███                                                                                                       | 61/2088 [07:59<4:45:01,  8.44s/it]
+2025-10-06 15:16:30 - ERROR - stderr - 
+2025-10-06 15:16:30 - ERROR - stderr - 
+2025-10-06 15:16:30 - INFO - stdout - {'loss': 1.5496, 'learning_rate': 0.0009682539682539683, 'epoch': 0.18}
+2025-10-06 15:16:30 - ERROR - stderr -   3%|███                                                                                                       | 61/2088 [07:59<4:45:01,  8.44s/it]
+2025-10-06 15:16:38 - ERROR - stderr -   3%|███▏                                                                                                      | 62/2088 [08:07<4:40:52,  8.32s/it]
+2025-10-06 15:16:38 - ERROR - stderr - 
+2025-10-06 15:16:38 - ERROR - stderr - 
+2025-10-06 15:16:38 - INFO - stdout - {'loss': 1.5906, 'learning_rate': 0.000984126984126984, 'epoch': 0.18}
+2025-10-06 15:16:38 - ERROR - stderr -   3%|███▏                                                                                                      | 62/2088 [08:07<4:40:52,  8.32s/it]
+2025-10-06 15:16:46 - ERROR - stderr -   3%|███▏                                                                                                      | 63/2088 [08:14<4:35:51,  8.17s/it]
+2025-10-06 15:16:46 - ERROR - stderr - 
+2025-10-06 15:16:46 - ERROR - stderr - 
+2025-10-06 15:16:46 - INFO - stdout - {'loss': 1.6258, 'learning_rate': 0.001, 'epoch': 0.18}
+2025-10-06 15:16:46 - ERROR - stderr -   3%|███▏                                                                                                      | 63/2088 [08:14<4:35:51,  8.17s/it]
+2025-10-06 15:16:53 - ERROR - stderr -   3%|███▏                                                                                                      | 64/2088 [08:22<4:28:17,  7.95s/it]
+2025-10-06 15:16:53 - ERROR - stderr - 
+2025-10-06 15:16:53 - ERROR - stderr - 
+2025-10-06 15:16:53 - INFO - stdout - {'loss': 1.6176, 'learning_rate': 0.0009999993982866989, 'epoch': 0.18}
+2025-10-06 15:16:53 - ERROR - stderr -   3%|███▏                                                                                                      | 64/2088 [08:22<4:28:17,  7.95s/it]
+2025-10-06 15:17:01 - ERROR - stderr -   3%|███▎                                                                                                      | 65/2088 [08:30<4:28:36,  7.97s/it]
+2025-10-06 15:17:01 - ERROR - stderr - 
+2025-10-06 15:17:01 - ERROR - stderr - 
+2025-10-06 15:17:01 - INFO - stdout - {'loss': 1.6628, 'learning_rate': 0.0009999975931482437, 'epoch': 0.19}
+2025-10-06 15:17:01 - ERROR - stderr -   3%|███▎                                                                                                      | 65/2088 [08:30<4:28:36,  7.97s/it]
+2025-10-06 15:17:09 - ERROR - stderr -   3%|███▎                                                                                                      | 66/2088 [08:38<4:27:51,  7.95s/it]
+2025-10-06 15:17:09 - ERROR - stderr - 
+2025-10-06 15:17:09 - ERROR - stderr - 
+2025-10-06 15:17:09 - INFO - stdout - {'loss': 1.6323, 'learning_rate': 0.0009999945845889794, 'epoch': 0.19}
+2025-10-06 15:17:09 - ERROR - stderr -   3%|███▎                                                                                                      | 66/2088 [08:38<4:27:51,  7.95s/it]
+2025-10-06 15:17:18 - ERROR - stderr -   3%|███▍                                                                                                      | 67/2088 [08:46<4:30:59,  8.05s/it]
+2025-10-06 15:17:18 - ERROR - stderr - 
+2025-10-06 15:17:18 - ERROR - stderr - 
+2025-10-06 15:17:18 - INFO - stdout - {'loss': 1.5887, 'learning_rate': 0.0009999903726161468, 'epoch': 0.19}
+2025-10-06 15:17:18 - ERROR - stderr -   3%|███▍                                                                                                      | 67/2088 [08:46<4:30:59,  8.05s/it]
+2025-10-06 15:17:25 - ERROR - stderr -   3%|███▍                                                                                                      | 68/2088 [08:54<4:26:12,  7.91s/it]
+2025-10-06 15:17:25 - ERROR - stderr - 
+2025-10-06 15:17:25 - ERROR - stderr - 
+2025-10-06 15:17:25 - INFO - stdout - {'loss': 1.6214, 'learning_rate': 0.000999984957239884, 'epoch': 0.2}
+2025-10-06 15:17:25 - ERROR - stderr -   3%|███▍                                                                                                      | 68/2088 [08:54<4:26:12,  7.91s/it]
+2025-10-06 15:17:33 - ERROR - stderr -   3%|███▌                                                                                                      | 69/2088 [09:01<4:23:24,  7.83s/it]
+2025-10-06 15:17:33 - ERROR - stderr - 
+2025-10-06 15:17:33 - ERROR - stderr - 
+2025-10-06 15:17:33 - INFO - stdout - {'loss': 1.6315, 'learning_rate': 0.0009999783384732242, 'epoch': 0.2}
+2025-10-06 15:17:33 - ERROR - stderr -   3%|███▌                                                                                                      | 69/2088 [09:01<4:23:24,  7.83s/it]
+2025-10-06 15:17:40 - ERROR - stderr -   3%|███▌                                                                                                      | 70/2088 [09:09<4:21:47,  7.78s/it]
+2025-10-06 15:17:40 - ERROR - stderr - 
+2025-10-06 15:17:40 - ERROR - stderr - 
+2025-10-06 15:17:40 - INFO - stdout - {'loss': 1.5949, 'learning_rate': 0.0009999705163320986, 'epoch': 0.2}
+2025-10-06 15:17:40 - ERROR - stderr -   3%|███▌                                                                                                      | 70/2088 [09:09<4:21:47,  7.78s/it]
+2025-10-06 15:17:48 - ERROR - stderr -   3%|███▌                                                                                                      | 71/2088 [09:17<4:23:26,  7.84s/it]
+2025-10-06 15:17:48 - ERROR - stderr - 
+2025-10-06 15:17:48 - ERROR - stderr - 
+2025-10-06 15:17:48 - INFO - stdout - {'loss': 1.5244, 'learning_rate': 0.0009999614908353335, 'epoch': 0.2}
+2025-10-06 15:17:48 - ERROR - stderr -   3%|███▌                                                                                                      | 71/2088 [09:17<4:23:26,  7.84s/it]
+2025-10-06 15:17:56 - ERROR - stderr -   3%|███▋                                                                                                      | 72/2088 [09:24<4:16:23,  7.63s/it]
+2025-10-06 15:17:56 - ERROR - stderr - 
+2025-10-06 15:17:56 - ERROR - stderr - 
+2025-10-06 15:17:56 - INFO - stdout - {'loss': 1.5821, 'learning_rate': 0.0009999512620046521, 'epoch': 0.21}
+2025-10-06 15:17:56 - ERROR - stderr -   3%|███▋                                                                                                      | 72/2088 [09:24<4:16:23,  7.63s/it]
+2025-10-06 15:18:03 - ERROR - stderr -   3%|███▋                                                                                                      | 73/2088 [09:32<4:15:47,  7.62s/it]
+2025-10-06 15:18:03 - ERROR - stderr - 
+2025-10-06 15:18:03 - ERROR - stderr - 
+2025-10-06 15:18:03 - INFO - stdout - {'loss': 1.5052, 'learning_rate': 0.0009999398298646738, 'epoch': 0.21}
+2025-10-06 15:18:03 - ERROR - stderr -   3%|███▋                                                                                                      | 73/2088 [09:32<4:15:47,  7.62s/it]
+2025-10-06 15:18:12 - ERROR - stderr -   4%|███▊                                                                                                      | 74/2088 [09:40<4:25:56,  7.92s/it]
+2025-10-06 15:18:12 - ERROR - stderr - 
+2025-10-06 15:18:12 - ERROR - stderr - 
+2025-10-06 15:18:12 - INFO - stdout - {'loss': 1.5884, 'learning_rate': 0.0009999271944429139, 'epoch': 0.21}
+2025-10-06 15:18:12 - ERROR - stderr -   4%|███▊                                                                                                      | 74/2088 [09:40<4:25:56,  7.92s/it]
+2025-10-06 15:18:19 - ERROR - stderr -   4%|███▊                                                                                                      | 75/2088 [09:47<4:18:44,  7.71s/it]
+2025-10-06 15:18:19 - ERROR - stderr - 
+2025-10-06 15:18:19 - ERROR - stderr - 
+2025-10-06 15:18:19 - INFO - stdout - {'loss': 1.5788, 'learning_rate': 0.000999913355769784, 'epoch': 0.22}
+2025-10-06 15:18:19 - ERROR - stderr -   4%|███▊                                                                                                      | 75/2088 [09:47<4:18:44,  7.71s/it]
+2025-10-06 15:18:27 - ERROR - stderr -   4%|███▊                                                                                                      | 76/2088 [09:55<4:20:08,  7.76s/it]
+2025-10-06 15:18:27 - ERROR - stderr - 
+2025-10-06 15:18:27 - ERROR - stderr - 
+2025-10-06 15:18:27 - INFO - stdout - {'loss': 1.5456, 'learning_rate': 0.0009998983138785917, 'epoch': 0.22}
+2025-10-06 15:18:27 - ERROR - stderr -   4%|███▊                                                                                                      | 76/2088 [09:55<4:20:08,  7.76s/it]
+2025-10-06 15:18:35 - ERROR - stderr -   4%|███▉                                                                                                      | 77/2088 [10:03<4:19:44,  7.75s/it]
+2025-10-06 15:18:35 - ERROR - stderr - 
+2025-10-06 15:18:35 - ERROR - stderr - 
+2025-10-06 15:18:35 - INFO - stdout - {'loss': 1.6339, 'learning_rate': 0.0009998820688055408, 'epoch': 0.22}
+2025-10-06 15:18:35 - ERROR - stderr -   4%|███▉                                                                                                      | 77/2088 [10:03<4:19:44,  7.75s/it]
+2025-10-06 15:18:43 - ERROR - stderr -   4%|███▉                                                                                                      | 78/2088 [10:12<4:26:42,  7.96s/it]
+2025-10-06 15:18:43 - ERROR - stderr - 
+2025-10-06 15:18:43 - ERROR - stderr - 
+2025-10-06 15:18:43 - INFO - stdout - {'loss': 1.5465, 'learning_rate': 0.000999864620589731, 'epoch': 0.22}
+2025-10-06 15:18:43 - ERROR - stderr -   4%|███▉                                                                                                      | 78/2088 [10:12<4:26:42,  7.96s/it]
+2025-10-06 15:18:51 - ERROR - stderr -   4%|████                                                                                                      | 79/2088 [10:19<4:26:37,  7.96s/it]
+2025-10-06 15:18:51 - ERROR - stderr - 
+2025-10-06 15:18:51 - ERROR - stderr - 
+2025-10-06 15:18:51 - INFO - stdout - {'loss': 1.5348, 'learning_rate': 0.000999845969273157, 'epoch': 0.23}
+2025-10-06 15:18:51 - ERROR - stderr -   4%|████                                                                                                      | 79/2088 [10:19<4:26:37,  7.96s/it]
+2025-10-06 15:18:59 - ERROR - stderr -   4%|████                                                                                                      | 80/2088 [10:27<4:26:24,  7.96s/it]
+2025-10-06 15:18:59 - ERROR - stderr - 
+2025-10-06 15:18:59 - ERROR - stderr - 
+2025-10-06 15:18:59 - INFO - stdout - {'loss': 1.4573, 'learning_rate': 0.0009998261149007104, 'epoch': 0.23}
+2025-10-06 15:18:59 - ERROR - stderr -   4%|████                                                                                                      | 80/2088 [10:27<4:26:24,  7.96s/it]
+2025-10-06 15:19:06 - ERROR - stderr -   4%|████                                                                                                      | 81/2088 [10:35<4:22:08,  7.84s/it]
+2025-10-06 15:19:07 - ERROR - stderr - 
+2025-10-06 15:19:07 - ERROR - stderr - 
+2025-10-06 15:19:07 - INFO - stdout - {'loss': 1.5221, 'learning_rate': 0.000999805057520177, 'epoch': 0.23}
+2025-10-06 15:19:07 - ERROR - stderr -   4%|████                                                                                                      | 81/2088 [10:35<4:22:08,  7.84s/it]
+2025-10-06 15:19:15 - ERROR - stderr -   4%|████▏                                                                                                     | 82/2088 [10:43<4:28:03,  8.02s/it]
+2025-10-06 15:19:15 - ERROR - stderr - 
+2025-10-06 15:19:15 - ERROR - stderr - 
+2025-10-06 15:19:15 - INFO - stdout - {'loss': 1.5501, 'learning_rate': 0.0009997827971822398, 'epoch': 0.24}
+2025-10-06 15:19:15 - ERROR - stderr -   4%|████▏                                                                                                     | 82/2088 [10:43<4:28:03,  8.02s/it]
+2025-10-06 15:19:23 - ERROR - stderr -   4%|████▏                                                                                                     | 83/2088 [10:51<4:28:00,  8.02s/it]
+2025-10-06 15:19:23 - ERROR - stderr - 
+2025-10-06 15:19:23 - ERROR - stderr - 
+2025-10-06 15:19:23 - INFO - stdout - {'loss': 1.4671, 'learning_rate': 0.0009997593339404756, 'epoch': 0.24}
+2025-10-06 15:19:23 - ERROR - stderr -   4%|████▏                                                                                                     | 83/2088 [10:51<4:28:00,  8.02s/it]
+2025-10-06 15:19:31 - ERROR - stderr -   4%|████▎                                                                                                     | 84/2088 [11:00<4:29:49,  8.08s/it]
+2025-10-06 15:19:31 - ERROR - stderr - 
+2025-10-06 15:19:31 - ERROR - stderr - 
+2025-10-06 15:19:31 - INFO - stdout - {'loss': 1.5013, 'learning_rate': 0.0009997346678513569, 'epoch': 0.24}
+2025-10-06 15:19:31 - ERROR - stderr -   4%|████▎                                                                                                     | 84/2088 [11:00<4:29:49,  8.08s/it]
+2025-10-06 15:19:39 - ERROR - stderr -   4%|████▎                                                                                                     | 85/2088 [11:07<4:24:12,  7.91s/it]
+2025-10-06 15:19:39 - ERROR - stderr - 
+2025-10-06 15:19:39 - ERROR - stderr - 
+2025-10-06 15:19:39 - INFO - stdout - {'loss': 1.4871, 'learning_rate': 0.0009997087989742515, 'epoch': 0.24}
+2025-10-06 15:19:39 - ERROR - stderr -   4%|████▎                                                                                                     | 85/2088 [11:07<4:24:12,  7.91s/it]
+2025-10-06 15:19:47 - ERROR - stderr -   4%|████▎                                                                                                     | 86/2088 [11:15<4:25:35,  7.96s/it]
+2025-10-06 15:19:47 - ERROR - stderr - 
+2025-10-06 15:19:47 - ERROR - stderr - 
+2025-10-06 15:19:47 - INFO - stdout - {'loss': 1.6084, 'learning_rate': 0.000999681727371422, 'epoch': 0.25}
+2025-10-06 15:19:47 - ERROR - stderr -   4%|████▎                                                                                                     | 86/2088 [11:15<4:25:35,  7.96s/it]
+2025-10-06 15:19:54 - ERROR - stderr -   4%|████▍                                                                                                     | 87/2088 [11:23<4:21:39,  7.85s/it]
+2025-10-06 15:19:54 - ERROR - stderr - 
+2025-10-06 15:19:54 - ERROR - stderr - 
+2025-10-06 15:19:54 - INFO - stdout - {'loss': 1.5493, 'learning_rate': 0.000999653453108026, 'epoch': 0.25}
+2025-10-06 15:19:54 - ERROR - stderr -   4%|████▍                                                                                                     | 87/2088 [11:23<4:21:39,  7.85s/it]
+2025-10-06 15:20:02 - ERROR - stderr -   4%|████▍                                                                                                     | 88/2088 [11:31<4:20:44,  7.82s/it]
+2025-10-06 15:20:02 - ERROR - stderr - 
+2025-10-06 15:20:02 - ERROR - stderr - 
+2025-10-06 15:20:02 - INFO - stdout - {'loss': 1.4833, 'learning_rate': 0.000999623976252115, 'epoch': 0.25}
+2025-10-06 15:20:02 - ERROR - stderr -   4%|████▍                                                                                                     | 88/2088 [11:31<4:20:44,  7.82s/it]
+2025-10-06 15:20:10 - ERROR - stderr -   4%|████▌                                                                                                     | 89/2088 [11:39<4:23:23,  7.91s/it]
+2025-10-06 15:20:10 - ERROR - stderr - 
+2025-10-06 15:20:10 - ERROR - stderr - 
+2025-10-06 15:20:10 - INFO - stdout - {'loss': 1.4842, 'learning_rate': 0.000999593296874636, 'epoch': 0.26}
+2025-10-06 15:20:10 - ERROR - stderr -   4%|████▌                                                                                                     | 89/2088 [11:39<4:23:23,  7.91s/it]
+2025-10-06 15:20:18 - ERROR - stderr -   4%|████▌                                                                                                     | 90/2088 [11:47<4:26:56,  8.02s/it]
+2025-10-06 15:20:18 - ERROR - stderr - 
+2025-10-06 15:20:18 - ERROR - stderr - 
+2025-10-06 15:20:18 - INFO - stdout - {'loss': 1.4867, 'learning_rate': 0.0009995614150494292, 'epoch': 0.26}
+2025-10-06 15:20:18 - ERROR - stderr -   4%|████▌                                                                                                     | 90/2088 [11:47<4:26:56,  8.02s/it]
+2025-10-06 15:20:26 - ERROR - stderr -   4%|████▌                                                                                                     | 91/2088 [11:55<4:25:10,  7.97s/it]
+2025-10-06 15:20:26 - ERROR - stderr - 
+2025-10-06 15:20:26 - ERROR - stderr - 
+2025-10-06 15:20:26 - INFO - stdout - {'loss': 1.5356, 'learning_rate': 0.00099952833085323, 'epoch': 0.26}
+2025-10-06 15:20:26 - ERROR - stderr -   4%|████▌                                                                                                     | 91/2088 [11:55<4:25:10,  7.97s/it]
+2025-10-06 15:20:35 - ERROR - stderr -   4%|████▋                                                                                                     | 92/2088 [12:03<4:28:22,  8.07s/it]
+2025-10-06 15:20:35 - ERROR - stderr - 
+2025-10-06 15:20:35 - ERROR - stderr - 
+2025-10-06 15:20:35 - INFO - stdout - {'loss': 1.5109, 'learning_rate': 0.0009994940443656668, 'epoch': 0.26}
+2025-10-06 15:20:35 - ERROR - stderr -   4%|████▋                                                                                                     | 92/2088 [12:03<4:28:22,  8.07s/it]
+2025-10-06 15:20:43 - ERROR - stderr -   4%|████▋                                                                                                     | 93/2088 [12:11<4:30:15,  8.13s/it]
+2025-10-06 15:20:43 - ERROR - stderr - 
+2025-10-06 15:20:43 - ERROR - stderr - 
+2025-10-06 15:20:43 - INFO - stdout - {'loss': 1.5295, 'learning_rate': 0.0009994585556692623, 'epoch': 0.27}
+2025-10-06 15:20:43 - ERROR - stderr -   4%|████▋                                                                                                     | 93/2088 [12:11<4:30:15,  8.13s/it]
+2025-10-06 15:20:51 - ERROR - stderr -   5%|████▊                                                                                                     | 94/2088 [12:19<4:25:33,  7.99s/it]
+2025-10-06 15:20:51 - ERROR - stderr - 
+2025-10-06 15:20:51 - ERROR - stderr - 
+2025-10-06 15:20:51 - INFO - stdout - {'loss': 1.5424, 'learning_rate': 0.0009994218648494326, 'epoch': 0.27}
+2025-10-06 15:20:51 - ERROR - stderr -   5%|████▊                                                                                                     | 94/2088 [12:19<4:25:33,  7.99s/it]
+2025-10-06 15:20:59 - ERROR - stderr -   5%|████▊                                                                                                     | 95/2088 [12:27<4:24:54,  7.97s/it]
+2025-10-06 15:20:59 - ERROR - stderr - 
+2025-10-06 15:20:59 - ERROR - stderr - 
+2025-10-06 15:20:59 - INFO - stdout - {'loss': 1.4976, 'learning_rate': 0.0009993839719944872, 'epoch': 0.27}
+2025-10-06 15:20:59 - ERROR - stderr -   5%|████▊                                                                                                     | 95/2088 [12:27<4:24:54,  7.97s/it]
+2025-10-06 15:21:06 - ERROR - stderr -   5%|████▊                                                                                                     | 96/2088 [12:35<4:22:33,  7.91s/it]
+2025-10-06 15:21:06 - ERROR - stderr - 
+2025-10-06 15:21:06 - ERROR - stderr - 
+2025-10-06 15:21:06 - INFO - stdout - {'loss': 1.4943, 'learning_rate': 0.0009993448771956285, 'epoch': 0.28}
+2025-10-06 15:21:06 - ERROR - stderr -   5%|████▊                                                                                                     | 96/2088 [12:35<4:22:33,  7.91s/it]
+2025-10-06 15:21:14 - ERROR - stderr -   5%|████▉                                                                                                     | 97/2088 [12:42<4:20:26,  7.85s/it]
+2025-10-06 15:21:14 - ERROR - stderr - 
+2025-10-06 15:21:14 - ERROR - stderr - 
+2025-10-06 15:21:14 - INFO - stdout - {'loss': 1.5548, 'learning_rate': 0.000999304580546952, 'epoch': 0.28}
+2025-10-06 15:21:14 - ERROR - stderr -   5%|████▉                                                                                                     | 97/2088 [12:42<4:20:26,  7.85s/it]
+2025-10-06 15:21:22 - ERROR - stderr -   5%|████▉                                                                                                     | 98/2088 [12:51<4:23:31,  7.95s/it]
+2025-10-06 15:21:22 - ERROR - stderr - 
+2025-10-06 15:21:22 - ERROR - stderr - 
+2025-10-06 15:21:22 - INFO - stdout - {'loss': 1.4616, 'learning_rate': 0.0009992630821454458, 'epoch': 0.28}
+2025-10-06 15:21:22 - ERROR - stderr -   5%|████▉                                                                                                     | 98/2088 [12:51<4:23:31,  7.95s/it]
+2025-10-06 15:21:30 - ERROR - stderr -   5%|█████                                                                                                     | 99/2088 [12:59<4:22:44,  7.93s/it]
+2025-10-06 15:21:30 - ERROR - stderr - 
+2025-10-06 15:21:30 - ERROR - stderr - 
+2025-10-06 15:21:30 - INFO - stdout - {'loss': 1.5114, 'learning_rate': 0.0009992203820909905, 'epoch': 0.28}
+2025-10-06 15:21:30 - ERROR - stderr -   5%|█████                                                                                                     | 99/2088 [12:59<4:22:44,  7.93s/it]
+2025-10-06 15:21:38 - ERROR - stderr -   5%|█████                                                                                                    | 100/2088 [13:06<4:20:29,  7.86s/it]
+2025-10-06 15:21:38 - ERROR - stderr - 
+2025-10-06 15:21:38 - ERROR - stderr - 
+2025-10-06 15:21:38 - INFO - stdout - {'loss': 1.4019, 'learning_rate': 0.0009991764804863589, 'epoch': 0.29}
+2025-10-06 15:21:38 - ERROR - stderr -   5%|█████                                                                                                    | 100/2088 [13:06<4:20:29,  7.86s/it]
+2025-10-06 15:21:46 - ERROR - stderr -   5%|█████                                                                                                    | 101/2088 [13:14<4:20:13,  7.86s/it]
+2025-10-06 15:21:46 - ERROR - stderr - 
+2025-10-06 15:21:46 - ERROR - stderr - 
+2025-10-06 15:21:46 - INFO - stdout - {'loss': 1.4938, 'learning_rate': 0.0009991313774372155, 'epoch': 0.29}
+2025-10-06 15:21:46 - ERROR - stderr -   5%|█████                                                                                                    | 101/2088 [13:14<4:20:13,  7.86s/it]
+2025-10-06 15:21:53 - ERROR - stderr -   5%|█████▏                                                                                                   | 102/2088 [13:22<4:16:31,  7.75s/it]
+2025-10-06 15:21:53 - ERROR - stderr - 
+2025-10-06 15:21:53 - ERROR - stderr - 
+2025-10-06 15:21:53 - INFO - stdout - {'loss': 1.5183, 'learning_rate': 0.000999085073052117, 'epoch': 0.29}
+2025-10-06 15:21:53 - ERROR - stderr -   5%|█████▏                                                                                                   | 102/2088 [13:22<4:16:31,  7.75s/it]
+2025-10-06 15:22:01 - ERROR - stderr -   5%|█████▏                                                                                                   | 103/2088 [13:30<4:19:06,  7.83s/it]
+2025-10-06 15:22:01 - ERROR - stderr - 
+2025-10-06 15:22:01 - ERROR - stderr - 
+2025-10-06 15:22:01 - INFO - stdout - {'loss': 1.5439, 'learning_rate': 0.0009990375674425109, 'epoch': 0.3}
+2025-10-06 15:22:01 - ERROR - stderr -   5%|█████▏                                                                                                   | 103/2088 [13:30<4:19:06,  7.83s/it]
+2025-10-06 15:22:09 - ERROR - stderr -   5%|█████▏                                                                                                   | 104/2088 [13:38<4:22:05,  7.93s/it]
+2025-10-06 15:22:09 - ERROR - stderr - 
+2025-10-06 15:22:09 - ERROR - stderr - 
+2025-10-06 15:22:09 - INFO - stdout - {'loss': 1.6146, 'learning_rate': 0.0009989888607227367, 'epoch': 0.3}
+2025-10-06 15:22:09 - ERROR - stderr -   5%|█████▏                                                                                                   | 104/2088 [13:38<4:22:05,  7.93s/it]
+2025-10-06 15:22:18 - ERROR - stderr -   5%|█████▎                                                                                                   | 105/2088 [13:46<4:29:55,  8.17s/it]
+2025-10-06 15:22:18 - ERROR - stderr - 
+2025-10-06 15:22:18 - ERROR - stderr - 
+2025-10-06 15:22:18 - INFO - stdout - {'loss': 1.4827, 'learning_rate': 0.000998938953010024, 'epoch': 0.3}
+2025-10-06 15:22:18 - ERROR - stderr -   5%|█████▎                                                                                                   | 105/2088 [13:47<4:29:55,  8.17s/it]
+2025-10-06 15:22:25 - ERROR - stderr -   5%|█████▎                                                                                                   | 106/2088 [13:54<4:23:07,  7.97s/it]
+2025-10-06 15:22:25 - ERROR - stderr - 
+2025-10-06 15:22:25 - ERROR - stderr - 
+2025-10-06 15:22:25 - INFO - stdout - {'loss': 1.5365, 'learning_rate': 0.0009988878444244936, 'epoch': 0.3}
+2025-10-06 15:22:25 - ERROR - stderr -   5%|█████▎                                                                                                   | 106/2088 [13:54<4:23:07,  7.97s/it]
+2025-10-06 15:22:34 - ERROR - stderr -   5%|█████▍                                                                                                   | 107/2088 [14:03<4:31:04,  8.21s/it]
+2025-10-06 15:22:34 - ERROR - stderr - 
+2025-10-06 15:22:34 - ERROR - stderr - 
+2025-10-06 15:22:34 - INFO - stdout - {'loss': 1.5265, 'learning_rate': 0.0009988355350891557, 'epoch': 0.31}
+2025-10-06 15:22:34 - ERROR - stderr -   5%|█████▍                                                                                                   | 107/2088 [14:03<4:31:04,  8.21s/it]
+2025-10-06 15:22:42 - ERROR - stderr -   5%|█████▍                                                                                                   | 108/2088 [14:10<4:24:22,  8.01s/it]
+2025-10-06 15:22:42 - ERROR - stderr - 
+2025-10-06 15:22:42 - ERROR - stderr - 
+2025-10-06 15:22:42 - INFO - stdout - {'loss': 1.4903, 'learning_rate': 0.0009987820251299122, 'epoch': 0.31}
+2025-10-06 15:22:42 - ERROR - stderr -   5%|█████▍                                                                                                   | 108/2088 [14:10<4:24:22,  8.01s/it]
+2025-10-06 15:22:49 - ERROR - stderr -   5%|█████▍                                                                                                   | 109/2088 [14:18<4:20:19,  7.89s/it]
+2025-10-06 15:22:49 - ERROR - stderr - 
+2025-10-06 15:22:49 - ERROR - stderr - 
+2025-10-06 15:22:49 - INFO - stdout - {'loss': 1.4756, 'learning_rate': 0.0009987273146755528, 'epoch': 0.31}
+2025-10-06 15:22:49 - ERROR - stderr -   5%|█████▍                                                                                                   | 109/2088 [14:18<4:20:19,  7.89s/it]
+2025-10-06 15:22:57 - ERROR - stderr -   5%|█████▌                                                                                                   | 110/2088 [14:26<4:17:32,  7.81s/it]
+2025-10-06 15:22:57 - ERROR - stderr - 
+2025-10-06 15:22:57 - ERROR - stderr - 
+2025-10-06 15:22:57 - INFO - stdout - {'loss': 1.5931, 'learning_rate': 0.0009986714038577582, 'epoch': 0.32}
+2025-10-06 15:22:57 - ERROR - stderr -   5%|█████▌                                                                                                   | 110/2088 [14:26<4:17:32,  7.81s/it]
+2025-10-06 15:23:06 - ERROR - stderr -   5%|█████▌                                                                                                   | 111/2088 [14:34<4:27:25,  8.12s/it]
+2025-10-06 15:23:06 - ERROR - stderr - 
+2025-10-06 15:23:06 - ERROR - stderr - 
+2025-10-06 15:23:06 - INFO - stdout - {'loss': 1.524, 'learning_rate': 0.000998614292811097, 'epoch': 0.32}
+2025-10-06 15:23:06 - ERROR - stderr -   5%|█████▌                                                                                                   | 111/2088 [14:34<4:27:25,  8.12s/it]
+2025-10-06 15:23:14 - ERROR - stderr -   5%|█████▋                                                                                                   | 112/2088 [14:42<4:26:34,  8.09s/it]
+2025-10-06 15:23:14 - ERROR - stderr - 
+2025-10-06 15:23:14 - ERROR - stderr - 
+2025-10-06 15:23:14 - INFO - stdout - {'loss': 1.5054, 'learning_rate': 0.0009985559816730277, 'epoch': 0.32}
+2025-10-06 15:23:14 - ERROR - stderr -   5%|█████▋                                                                                                   | 112/2088 [14:42<4:26:34,  8.09s/it]
+2025-10-06 15:23:22 - ERROR - stderr -   5%|█████▋                                                                                                   | 113/2088 [14:50<4:23:31,  8.01s/it]
+2025-10-06 15:23:22 - ERROR - stderr - 
+2025-10-06 15:23:22 - ERROR - stderr - 
+2025-10-06 15:23:22 - INFO - stdout - {'loss': 1.3419, 'learning_rate': 0.000998496470583896, 'epoch': 0.32}
+2025-10-06 15:23:22 - ERROR - stderr -   5%|█████▋                                                                                                   | 113/2088 [14:50<4:23:31,  8.01s/it]
+2025-10-06 15:23:30 - ERROR - stderr -   5%|█████▋                                                                                                   | 114/2088 [14:58<4:22:08,  7.97s/it]
+2025-10-06 15:23:30 - ERROR - stderr - 
+2025-10-06 15:23:30 - ERROR - stderr - 
+2025-10-06 15:23:30 - INFO - stdout - {'loss': 1.5558, 'learning_rate': 0.0009984357596869368, 'epoch': 0.33}
+2025-10-06 15:23:30 - ERROR - stderr -   5%|█████▋                                                                                                   | 114/2088 [14:58<4:22:08,  7.97s/it]
+2025-10-06 15:23:38 - ERROR - stderr -   6%|█████▊                                                                                                   | 115/2088 [15:07<4:27:24,  8.13s/it]
+2025-10-06 15:23:38 - ERROR - stderr - 
+2025-10-06 15:23:38 - ERROR - stderr - 
+2025-10-06 15:23:38 - INFO - stdout - {'loss': 1.5496, 'learning_rate': 0.0009983738491282721, 'epoch': 0.33}
+2025-10-06 15:23:38 - ERROR - stderr -   6%|█████▊                                                                                                   | 115/2088 [15:07<4:27:24,  8.13s/it]
+2025-10-06 15:23:46 - ERROR - stderr -   6%|█████▊                                                                                                   | 116/2088 [15:14<4:22:47,  8.00s/it]
+2025-10-06 15:23:46 - ERROR - stderr - 
+2025-10-06 15:23:46 - ERROR - stderr - 
+2025-10-06 15:23:46 - INFO - stdout - {'loss': 1.4731, 'learning_rate': 0.0009983107390569117, 'epoch': 0.33}
+2025-10-06 15:23:46 - ERROR - stderr -   6%|█████▊                                                                                                   | 116/2088 [15:14<4:22:47,  8.00s/it]
+2025-10-06 15:23:54 - ERROR - stderr -   6%|█████▉                                                                                                   | 117/2088 [15:23<4:26:20,  8.11s/it]
+2025-10-06 15:23:54 - ERROR - stderr - 
+2025-10-06 15:23:54 - ERROR - stderr - 
+2025-10-06 15:23:54 - INFO - stdout - {'loss': 1.4511, 'learning_rate': 0.0009982464296247522, 'epoch': 0.34}
+2025-10-06 15:23:54 - ERROR - stderr -   6%|█████▉                                                                                                   | 117/2088 [15:23<4:26:20,  8.11s/it]
+2025-10-06 15:24:02 - ERROR - stderr -   6%|█████▉                                                                                                   | 118/2088 [15:31<4:25:14,  8.08s/it]
+2025-10-06 15:24:02 - ERROR - stderr - 
+2025-10-06 15:24:02 - ERROR - stderr - 
+2025-10-06 15:24:02 - INFO - stdout - {'loss': 1.4041, 'learning_rate': 0.000998180920986577, 'epoch': 0.34}
+2025-10-06 15:24:02 - ERROR - stderr -   6%|█████▉                                                                                                   | 118/2088 [15:31<4:25:14,  8.08s/it]
+2025-10-06 15:24:10 - ERROR - stderr -   6%|█████▉                                                                                                   | 119/2088 [15:38<4:21:27,  7.97s/it]
+2025-10-06 15:24:10 - ERROR - stderr - 
+2025-10-06 15:24:10 - ERROR - stderr - 
+2025-10-06 15:24:10 - INFO - stdout - {'loss': 1.5442, 'learning_rate': 0.0009981142133000556, 'epoch': 0.34}
+2025-10-06 15:24:10 - ERROR - stderr -   6%|█████▉                                                                                                   | 119/2088 [15:38<4:21:27,  7.97s/it]
+2025-10-06 15:24:19 - ERROR - stderr -   6%|██████                                                                                                   | 120/2088 [15:47<4:31:08,  8.27s/it]
+2025-10-06 15:24:19 - ERROR - stderr - 
+2025-10-06 15:24:19 - ERROR - stderr - 
+2025-10-06 15:24:19 - INFO - stdout - {'loss': 1.4804, 'learning_rate': 0.0009980463067257438, 'epoch': 0.34}
+2025-10-06 15:24:19 - ERROR - stderr -   6%|██████                                                                                                   | 120/2088 [15:47<4:31:08,  8.27s/it]
+2025-10-06 15:24:27 - ERROR - stderr -   6%|██████                                                                                                   | 121/2088 [15:56<4:34:04,  8.36s/it]
+2025-10-06 15:24:27 - ERROR - stderr - 
+2025-10-06 15:24:27 - ERROR - stderr - 
+2025-10-06 15:24:27 - INFO - stdout - {'loss': 1.4939, 'learning_rate': 0.0009979772014270824, 'epoch': 0.35}
+2025-10-06 15:24:27 - ERROR - stderr -   6%|██████                                                                                                   | 121/2088 [15:56<4:34:04,  8.36s/it]
+2025-10-06 15:24:36 - ERROR - stderr -   6%|██████▏                                                                                                  | 122/2088 [16:05<4:40:47,  8.57s/it]
+2025-10-06 15:24:36 - ERROR - stderr - 
+2025-10-06 15:24:36 - ERROR - stderr - 
+2025-10-06 15:24:36 - INFO - stdout - {'loss': 1.4178, 'learning_rate': 0.0009979068975703982, 'epoch': 0.35}
+2025-10-06 15:24:36 - ERROR - stderr -   6%|██████▏                                                                                                  | 122/2088 [16:05<4:40:47,  8.57s/it]
+2025-10-06 15:24:44 - ERROR - stderr -   6%|██████▏                                                                                                  | 123/2088 [16:13<4:32:48,  8.33s/it]
+2025-10-06 15:24:44 - ERROR - stderr - 
+2025-10-06 15:24:44 - ERROR - stderr - 
+2025-10-06 15:24:44 - INFO - stdout - {'loss': 1.4467, 'learning_rate': 0.0009978353953249022, 'epoch': 0.35}
+2025-10-06 15:24:44 - ERROR - stderr -   6%|██████▏                                                                                                  | 123/2088 [16:13<4:32:48,  8.33s/it]
+2025-10-06 15:24:54 - ERROR - stderr -   6%|██████▏                                                                                                  | 124/2088 [16:23<4:47:46,  8.79s/it]
+2025-10-06 15:24:54 - ERROR - stderr - 
+2025-10-06 15:24:54 - ERROR - stderr - 
+2025-10-06 15:24:54 - INFO - stdout - {'loss': 1.4355, 'learning_rate': 0.0009977626948626897, 'epoch': 0.36}
+2025-10-06 15:24:54 - ERROR - stderr -   6%|██████▏                                                                                                  | 124/2088 [16:23<4:47:46,  8.79s/it]
+2025-10-06 15:25:06 - ERROR - stderr -   6%|██████▎                                                                                                  | 125/2088 [16:35<5:19:40,  9.77s/it]
+2025-10-06 15:25:06 - ERROR - stderr - 
+2025-10-06 15:25:06 - ERROR - stderr - 
+2025-10-06 15:25:06 - INFO - stdout - {'loss': 1.4709, 'learning_rate': 0.0009976887963587398, 'epoch': 0.36}
+2025-10-06 15:25:06 - ERROR - stderr -   6%|██████▎                                                                                                  | 125/2088 [16:35<5:19:40,  9.77s/it]
+2025-10-06 15:25:14 - ERROR - stderr -   6%|██████▎                                                                                                  | 126/2088 [16:43<5:03:58,  9.30s/it]
+2025-10-06 15:25:14 - ERROR - stderr - 
+2025-10-06 15:25:14 - ERROR - stderr - 
+2025-10-06 15:25:14 - INFO - stdout - {'loss': 1.4561, 'learning_rate': 0.0009976136999909156, 'epoch': 0.36}
+2025-10-06 15:25:14 - ERROR - stderr -   6%|██████▎                                                                                                  | 126/2088 [16:43<5:03:58,  9.30s/it]
+2025-10-06 15:25:23 - ERROR - stderr -   6%|██████▍                                                                                                  | 127/2088 [16:51<4:55:16,  9.03s/it]
+2025-10-06 15:25:23 - ERROR - stderr - 
+2025-10-06 15:25:23 - ERROR - stderr - 
+2025-10-06 15:25:23 - INFO - stdout - {'loss': 1.4689, 'learning_rate': 0.000997537405939963, 'epoch': 0.36}
+2025-10-06 15:25:23 - ERROR - stderr -   6%|██████▍                                                                                                  | 127/2088 [16:51<4:55:16,  9.03s/it]
+2025-10-06 15:25:32 - ERROR - stderr -   6%|██████▍                                                                                                  | 128/2088 [17:00<4:52:17,  8.95s/it]
+2025-10-06 15:25:32 - ERROR - stderr - 
+2025-10-06 15:25:32 - ERROR - stderr - 
+2025-10-06 15:25:32 - INFO - stdout - {'loss': 1.4292, 'learning_rate': 0.0009974599143895107, 'epoch': 0.37}
+2025-10-06 15:25:32 - ERROR - stderr -   6%|██████▍                                                                                                  | 128/2088 [17:00<4:52:17,  8.95s/it]
+2025-10-06 15:25:40 - ERROR - stderr -   6%|██████▍                                                                                                  | 129/2088 [17:09<4:52:05,  8.95s/it]
+2025-10-06 15:25:40 - ERROR - stderr - 
+2025-10-06 15:25:40 - ERROR - stderr - 
+2025-10-06 15:25:40 - INFO - stdout - {'loss': 1.4712, 'learning_rate': 0.0009973812255260693, 'epoch': 0.37}
+2025-10-06 15:25:40 - ERROR - stderr -   6%|██████▍                                                                                                  | 129/2088 [17:09<4:52:05,  8.95s/it]
+2025-10-06 15:25:49 - ERROR - stderr -   6%|██████▌                                                                                                  | 130/2088 [17:18<4:50:29,  8.90s/it]
+2025-10-06 15:25:49 - ERROR - stderr - 
+2025-10-06 15:25:49 - ERROR - stderr - 
+2025-10-06 15:25:49 - INFO - stdout - {'loss': 1.4202, 'learning_rate': 0.0009973013395390314, 'epoch': 0.37}
+2025-10-06 15:25:49 - ERROR - stderr -   6%|██████▌                                                                                                  | 130/2088 [17:18<4:50:29,  8.90s/it]
+2025-10-06 15:25:57 - ERROR - stderr -   6%|██████▌                                                                                                  | 131/2088 [17:26<4:38:56,  8.55s/it]
+2025-10-06 15:25:57 - ERROR - stderr - 
+2025-10-06 15:25:57 - ERROR - stderr - 
+2025-10-06 15:25:57 - INFO - stdout - {'loss': 1.4553, 'learning_rate': 0.0009972202566206707, 'epoch': 0.38}
+2025-10-06 15:25:57 - ERROR - stderr -   6%|██████▌                                                                                                  | 131/2088 [17:26<4:38:56,  8.55s/it]
+2025-10-06 15:26:06 - ERROR - stderr -   6%|██████▋                                                                                                  | 132/2088 [17:34<4:40:16,  8.60s/it]
+2025-10-06 15:26:06 - ERROR - stderr - 
+2025-10-06 15:26:06 - ERROR - stderr - 
+2025-10-06 15:26:06 - INFO - stdout - {'loss': 1.4914, 'learning_rate': 0.0009971379769661423, 'epoch': 0.38}
+2025-10-06 15:26:06 - ERROR - stderr -   6%|██████▋                                                                                                  | 132/2088 [17:34<4:40:16,  8.60s/it]
+2025-10-06 15:26:14 - ERROR - stderr -   6%|██████▋                                                                                                  | 133/2088 [17:43<4:39:43,  8.58s/it]
+2025-10-06 15:26:14 - ERROR - stderr - 
+2025-10-06 15:26:14 - ERROR - stderr - 
+2025-10-06 15:26:14 - INFO - stdout - {'loss': 1.5284, 'learning_rate': 0.0009970545007734807, 'epoch': 0.38}
+2025-10-06 15:26:14 - ERROR - stderr -   6%|██████▋                                                                                                  | 133/2088 [17:43<4:39:43,  8.58s/it]
+2025-10-06 15:26:22 - ERROR - stderr -   6%|██████▋                                                                                                  | 134/2088 [17:50<4:30:34,  8.31s/it]
+2025-10-06 15:26:22 - ERROR - stderr - 
+2025-10-06 15:26:22 - ERROR - stderr - 
+2025-10-06 15:26:22 - INFO - stdout - {'loss': 1.3419, 'learning_rate': 0.0009969698282436012, 'epoch': 0.39}
+2025-10-06 15:26:22 - ERROR - stderr -   6%|██████▋                                                                                                  | 134/2088 [17:50<4:30:34,  8.31s/it]
+2025-10-06 15:26:30 - ERROR - stderr -   6%|██████▊                                                                                                  | 135/2088 [17:59<4:28:22,  8.24s/it]
+2025-10-06 15:26:30 - ERROR - stderr - 
+2025-10-06 15:26:30 - ERROR - stderr - 
+2025-10-06 15:26:30 - INFO - stdout - {'loss': 1.4314, 'learning_rate': 0.0009968839595802983, 'epoch': 0.39}
+2025-10-06 15:26:30 - ERROR - stderr -   6%|██████▊                                                                                                  | 135/2088 [17:59<4:28:22,  8.24s/it]
+2025-10-06 15:26:39 - ERROR - stderr -   7%|██████▊                                                                                                  | 136/2088 [18:07<4:31:45,  8.35s/it]
+2025-10-06 15:26:39 - ERROR - stderr - 
+2025-10-06 15:26:39 - ERROR - stderr - 
+2025-10-06 15:26:39 - INFO - stdout - {'loss': 1.4597, 'learning_rate': 0.0009967968949902448, 'epoch': 0.39}
+2025-10-06 15:26:39 - ERROR - stderr -   7%|██████▊                                                                                                  | 136/2088 [18:07<4:31:45,  8.35s/it]
+2025-10-06 15:26:47 - ERROR - stderr -   7%|██████▉                                                                                                  | 137/2088 [18:15<4:30:44,  8.33s/it]
+2025-10-06 15:26:47 - ERROR - stderr - 
+2025-10-06 15:26:47 - ERROR - stderr - 
+2025-10-06 15:26:47 - INFO - stdout - {'loss': 1.4891, 'learning_rate': 0.0009967086346829926, 'epoch': 0.39}
+2025-10-06 15:26:47 - ERROR - stderr -   7%|██████▉                                                                                                  | 137/2088 [18:15<4:30:44,  8.33s/it]
+2025-10-06 15:26:54 - ERROR - stderr -   7%|██████▉                                                                                                  | 138/2088 [18:23<4:22:20,  8.07s/it]
+2025-10-06 15:26:54 - ERROR - stderr - 
+2025-10-06 15:26:54 - ERROR - stderr - 
+2025-10-06 15:26:54 - INFO - stdout - {'loss': 1.4204, 'learning_rate': 0.0009966191788709714, 'epoch': 0.4}
+2025-10-06 15:26:54 - ERROR - stderr -   7%|██████▉                                                                                                  | 138/2088 [18:23<4:22:20,  8.07s/it]
+2025-10-06 15:27:03 - ERROR - stderr -   7%|██████▉                                                                                                  | 139/2088 [18:31<4:25:05,  8.16s/it]
+2025-10-06 15:27:03 - ERROR - stderr - 
+2025-10-06 15:27:03 - ERROR - stderr - 
+2025-10-06 15:27:03 - INFO - stdout - {'loss': 1.3908, 'learning_rate': 0.0009965285277694883, 'epoch': 0.4}
+2025-10-06 15:27:03 - ERROR - stderr -   7%|██████▉                                                                                                  | 139/2088 [18:31<4:25:05,  8.16s/it]
+2025-10-06 15:27:11 - ERROR - stderr -   7%|███████                                                                                                  | 140/2088 [18:40<4:29:10,  8.29s/it]
+2025-10-06 15:27:11 - ERROR - stderr - 
+2025-10-06 15:27:11 - ERROR - stderr - 
+2025-10-06 15:27:11 - INFO - stdout - {'loss': 1.3788, 'learning_rate': 0.000996436681596727, 'epoch': 0.4}
+2025-10-06 15:27:11 - ERROR - stderr -   7%|███████                                                                                                  | 140/2088 [18:40<4:29:10,  8.29s/it]
+2025-10-06 15:27:19 - ERROR - stderr -   7%|███████                                                                                                  | 141/2088 [18:48<4:26:44,  8.22s/it]
+2025-10-06 15:27:19 - ERROR - stderr - 
+2025-10-06 15:27:19 - ERROR - stderr - 
+2025-10-06 15:27:19 - INFO - stdout - {'loss': 1.4607, 'learning_rate': 0.0009963436405737477, 'epoch': 0.41}
+2025-10-06 15:27:19 - ERROR - stderr -   7%|███████                                                                                                  | 141/2088 [18:48<4:26:44,  8.22s/it]
+2025-10-06 15:27:27 - ERROR - stderr -   7%|███████▏                                                                                                 | 142/2088 [18:56<4:24:51,  8.17s/it]
+2025-10-06 15:27:27 - ERROR - stderr - 
+2025-10-06 15:27:27 - ERROR - stderr - 
+2025-10-06 15:27:27 - INFO - stdout - {'loss': 1.4215, 'learning_rate': 0.0009962494049244864, 'epoch': 0.41}
+2025-10-06 15:27:27 - ERROR - stderr -   7%|███████▏                                                                                                 | 142/2088 [18:56<4:24:51,  8.17s/it]
+2025-10-06 15:27:36 - ERROR - stderr -   7%|███████▏                                                                                                 | 143/2088 [19:04<4:27:55,  8.27s/it]
+2025-10-06 15:27:36 - ERROR - stderr - 
+2025-10-06 15:27:36 - ERROR - stderr - 
+2025-10-06 15:27:36 - INFO - stdout - {'loss': 1.4706, 'learning_rate': 0.0009961539748757548, 'epoch': 0.41}
+2025-10-06 15:27:36 - ERROR - stderr -   7%|███████▏                                                                                                 | 143/2088 [19:04<4:27:55,  8.27s/it]
+2025-10-06 15:27:45 - ERROR - stderr -   7%|███████▏                                                                                                 | 144/2088 [19:13<4:33:09,  8.43s/it]
+2025-10-06 15:27:45 - ERROR - stderr - 
+2025-10-06 15:27:45 - ERROR - stderr - 
+2025-10-06 15:27:45 - INFO - stdout - {'loss': 1.4528, 'learning_rate': 0.000996057350657239, 'epoch': 0.41}
+2025-10-06 15:27:45 - ERROR - stderr -   7%|███████▏                                                                                                 | 144/2088 [19:13<4:33:09,  8.43s/it]
+2025-10-06 15:27:52 - ERROR - stderr -   7%|███████▎                                                                                                 | 145/2088 [19:21<4:26:22,  8.23s/it]
+2025-10-06 15:27:53 - ERROR - stderr - 
+2025-10-06 15:27:53 - ERROR - stderr - 
+2025-10-06 15:27:53 - INFO - stdout - {'loss': 1.4364, 'learning_rate': 0.0009959595325014989, 'epoch': 0.42}
+2025-10-06 15:27:53 - ERROR - stderr -   7%|███████▎                                                                                                 | 145/2088 [19:21<4:26:22,  8.23s/it]
+2025-10-06 15:28:01 - ERROR - stderr -   7%|███████▎                                                                                                 | 146/2088 [19:29<4:27:56,  8.28s/it]
+2025-10-06 15:28:01 - ERROR - stderr - 
+2025-10-06 15:28:01 - ERROR - stderr - 
+2025-10-06 15:28:01 - INFO - stdout - {'loss': 1.4469, 'learning_rate': 0.000995860520643969, 'epoch': 0.42}
+2025-10-06 15:28:01 - ERROR - stderr -   7%|███████▎                                                                                                 | 146/2088 [19:29<4:27:56,  8.28s/it]
+2025-10-06 15:28:09 - ERROR - stderr -   7%|███████▍                                                                                                 | 147/2088 [19:37<4:23:32,  8.15s/it]
+2025-10-06 15:28:09 - ERROR - stderr - 
+2025-10-06 15:28:09 - ERROR - stderr - 
+2025-10-06 15:28:09 - INFO - stdout - {'loss': 1.4317, 'learning_rate': 0.000995760315322956, 'epoch': 0.42}
+2025-10-06 15:28:09 - ERROR - stderr -   7%|███████▍                                                                                                 | 147/2088 [19:37<4:23:32,  8.15s/it]
+2025-10-06 15:28:16 - ERROR - stderr -   7%|███████▍                                                                                                 | 148/2088 [19:45<4:19:26,  8.02s/it]
+2025-10-06 15:28:16 - ERROR - stderr - 
+2025-10-06 15:28:16 - ERROR - stderr - 
+2025-10-06 15:28:16 - INFO - stdout - {'loss': 1.4125, 'learning_rate': 0.0009956589167796391, 'epoch': 0.43}
+2025-10-06 15:28:16 - ERROR - stderr -   7%|███████▍                                                                                                 | 148/2088 [19:45<4:19:26,  8.02s/it]
+2025-10-06 15:28:24 - ERROR - stderr -   7%|███████▍                                                                                                 | 149/2088 [19:53<4:15:53,  7.92s/it]
+2025-10-06 15:28:24 - ERROR - stderr - 
+2025-10-06 15:28:24 - ERROR - stderr - 
+2025-10-06 15:28:24 - INFO - stdout - {'loss': 1.4262, 'learning_rate': 0.0009955563252580703, 'epoch': 0.43}
+2025-10-06 15:28:24 - ERROR - stderr -   7%|███████▍                                                                                                 | 149/2088 [19:53<4:15:53,  7.92s/it]
+2025-10-06 15:28:32 - ERROR - stderr -   7%|███████▌                                                                                                 | 150/2088 [20:01<4:19:06,  8.02s/it]
+2025-10-06 15:28:32 - ERROR - stderr - 
+2025-10-06 15:28:32 - ERROR - stderr - 
+2025-10-06 15:28:32 - INFO - stdout - {'loss': 1.3844, 'learning_rate': 0.000995452541005172, 'epoch': 0.43}
+2025-10-06 15:28:32 - ERROR - stderr -   7%|███████▌                                                                                                 | 150/2088 [20:01<4:19:06,  8.02s/it]
+2025-10-06 15:28:41 - ERROR - stderr -   7%|███████▌                                                                                                 | 151/2088 [20:09<4:23:29,  8.16s/it]
+2025-10-06 15:28:41 - ERROR - stderr - 
+2025-10-06 15:28:41 - ERROR - stderr - 
+2025-10-06 15:28:41 - INFO - stdout - {'loss': 1.361, 'learning_rate': 0.0009953475642707377, 'epoch': 0.43}
+2025-10-06 15:28:41 - ERROR - stderr -   7%|███████▌                                                                                                 | 151/2088 [20:09<4:23:29,  8.16s/it]
+2025-10-06 15:28:49 - ERROR - stderr -   7%|███████▋                                                                                                 | 152/2088 [20:17<4:19:22,  8.04s/it]
+2025-10-06 15:28:49 - ERROR - stderr - 
+2025-10-06 15:28:49 - ERROR - stderr - 
+2025-10-06 15:28:49 - INFO - stdout - {'loss': 1.4443, 'learning_rate': 0.0009952413953074311, 'epoch': 0.44}
+2025-10-06 15:28:49 - ERROR - stderr -   7%|███████▋                                                                                                 | 152/2088 [20:17<4:19:22,  8.04s/it]
+2025-10-06 15:28:57 - ERROR - stderr -   7%|███████▋                                                                                                 | 153/2088 [20:26<4:22:46,  8.15s/it]
+2025-10-06 15:28:57 - ERROR - stderr - 
+2025-10-06 15:28:57 - ERROR - stderr - 
+2025-10-06 15:28:57 - INFO - stdout - {'loss': 1.4266, 'learning_rate': 0.0009951340343707852, 'epoch': 0.44}
+2025-10-06 15:28:57 - ERROR - stderr -   7%|███████▋                                                                                                 | 153/2088 [20:26<4:22:46,  8.15s/it]
+2025-10-06 15:29:06 - ERROR - stderr -   7%|███████▋                                                                                                 | 154/2088 [20:34<4:27:16,  8.29s/it]
+2025-10-06 15:29:06 - ERROR - stderr - 
+2025-10-06 15:29:06 - ERROR - stderr - 
+2025-10-06 15:29:06 - INFO - stdout - {'loss': 1.4816, 'learning_rate': 0.000995025481719202, 'epoch': 0.44}
+2025-10-06 15:29:06 - ERROR - stderr -   7%|███████▋                                                                                                 | 154/2088 [20:34<4:27:16,  8.29s/it]
+2025-10-06 15:29:13 - ERROR - stderr -   7%|███████▊                                                                                                 | 155/2088 [20:42<4:22:06,  8.14s/it]
+2025-10-06 15:29:13 - ERROR - stderr - 
+2025-10-06 15:29:13 - ERROR - stderr - 
+2025-10-06 15:29:13 - INFO - stdout - {'loss': 1.4021, 'learning_rate': 0.0009949157376139518, 'epoch': 0.45}
+2025-10-06 15:29:13 - ERROR - stderr -   7%|███████▊                                                                                                 | 155/2088 [20:42<4:22:06,  8.14s/it]
+2025-10-06 15:29:22 - ERROR - stderr -   7%|███████▊                                                                                                 | 156/2088 [20:50<4:21:13,  8.11s/it]
+2025-10-06 15:29:22 - ERROR - stderr - 
+2025-10-06 15:29:22 - ERROR - stderr - 
+2025-10-06 15:29:22 - INFO - stdout - {'loss': 1.4975, 'learning_rate': 0.0009948048023191726, 'epoch': 0.45}
+2025-10-06 15:29:22 - ERROR - stderr -   7%|███████▊                                                                                                 | 156/2088 [20:50<4:21:13,  8.11s/it]
+2025-10-06 15:29:29 - ERROR - stderr -   8%|███████▉                                                                                                 | 157/2088 [20:58<4:18:51,  8.04s/it]
+2025-10-06 15:29:29 - ERROR - stderr - 
+2025-10-06 15:29:29 - ERROR - stderr - 
+2025-10-06 15:29:29 - INFO - stdout - {'loss': 1.5046, 'learning_rate': 0.0009946926761018695, 'epoch': 0.45}
+2025-10-06 15:29:29 - ERROR - stderr -   8%|███████▉                                                                                                 | 157/2088 [20:58<4:18:51,  8.04s/it]
+2025-10-06 15:29:38 - ERROR - stderr -   8%|███████▉                                                                                                 | 158/2088 [21:06<4:22:42,  8.17s/it]
+2025-10-06 15:29:38 - ERROR - stderr - 
+2025-10-06 15:29:38 - ERROR - stderr - 
+2025-10-06 15:29:38 - INFO - stdout - {'loss': 1.5169, 'learning_rate': 0.0009945793592319135, 'epoch': 0.45}
+2025-10-06 15:29:38 - ERROR - stderr -   8%|███████▉                                                                                                 | 158/2088 [21:06<4:22:42,  8.17s/it]
+2025-10-06 15:29:46 - ERROR - stderr -   8%|███████▉                                                                                                 | 159/2088 [21:15<4:22:51,  8.18s/it]
+2025-10-06 15:29:46 - ERROR - stderr - 
+2025-10-06 15:29:46 - ERROR - stderr - 
+2025-10-06 15:29:46 - INFO - stdout - {'loss': 1.4054, 'learning_rate': 0.000994464851982042, 'epoch': 0.46}
+2025-10-06 15:29:46 - ERROR - stderr -   8%|███████▉                                                                                                 | 159/2088 [21:15<4:22:51,  8.18s/it]
+2025-10-06 15:29:54 - ERROR - stderr -   8%|████████                                                                                                 | 160/2088 [21:22<4:18:28,  8.04s/it]
+2025-10-06 15:29:54 - ERROR - stderr - 
+2025-10-06 15:29:54 - ERROR - stderr - 
+2025-10-06 15:29:54 - INFO - stdout - {'loss': 1.4676, 'learning_rate': 0.000994349154627857, 'epoch': 0.46}
+2025-10-06 15:29:54 - ERROR - stderr -   8%|████████                                                                                                 | 160/2088 [21:22<4:18:28,  8.04s/it]
+2025-10-06 15:30:02 - ERROR - stderr -   8%|████████                                                                                                 | 161/2088 [21:31<4:20:49,  8.12s/it]
+2025-10-06 15:30:02 - ERROR - stderr - 
+2025-10-06 15:30:02 - ERROR - stderr - 
+2025-10-06 15:30:02 - INFO - stdout - {'loss': 1.3813, 'learning_rate': 0.000994232267447825, 'epoch': 0.46}
+2025-10-06 15:30:02 - ERROR - stderr -   8%|████████                                                                                                 | 161/2088 [21:31<4:20:49,  8.12s/it]
+2025-10-06 15:30:10 - ERROR - stderr -   8%|████████▏                                                                                                | 162/2088 [21:38<4:16:12,  7.98s/it]
+2025-10-06 15:30:10 - ERROR - stderr - 
+2025-10-06 15:30:10 - ERROR - stderr - 
+2025-10-06 15:30:10 - INFO - stdout - {'loss': 1.437, 'learning_rate': 0.0009941141907232765, 'epoch': 0.47}
+2025-10-06 15:30:10 - ERROR - stderr -   8%|████████▏                                                                                                | 162/2088 [21:38<4:16:12,  7.98s/it]
+2025-10-06 15:30:18 - ERROR - stderr -   8%|████████▏                                                                                                | 163/2088 [21:46<4:18:29,  8.06s/it]
+2025-10-06 15:30:18 - ERROR - stderr - 
+2025-10-06 15:30:18 - ERROR - stderr - 
+2025-10-06 15:30:18 - INFO - stdout - {'loss': 1.4665, 'learning_rate': 0.0009939949247384046, 'epoch': 0.47}
+2025-10-06 15:30:18 - ERROR - stderr -   8%|████████▏                                                                                                | 163/2088 [21:46<4:18:29,  8.06s/it]
+2025-10-06 15:30:25 - ERROR - stderr -   8%|████████▏                                                                                                | 164/2088 [21:54<4:12:46,  7.88s/it]
+2025-10-06 15:30:25 - ERROR - stderr - 
+2025-10-06 15:30:25 - ERROR - stderr - 
+2025-10-06 15:30:25 - INFO - stdout - {'loss': 1.4689, 'learning_rate': 0.000993874469780265, 'epoch': 0.47}
+2025-10-06 15:30:25 - ERROR - stderr -   8%|████████▏                                                                                                | 164/2088 [21:54<4:12:46,  7.88s/it]
+2025-10-06 15:30:33 - ERROR - stderr -   8%|████████▎                                                                                                | 165/2088 [22:02<4:12:27,  7.88s/it]
+2025-10-06 15:30:33 - ERROR - stderr - 
+2025-10-06 15:30:33 - ERROR - stderr - 
+2025-10-06 15:30:33 - INFO - stdout - {'loss': 1.483, 'learning_rate': 0.0009937528261387753, 'epoch': 0.47}
+2025-10-06 15:30:33 - ERROR - stderr -   8%|████████▎                                                                                                | 165/2088 [22:02<4:12:27,  7.88s/it]
+2025-10-06 15:30:41 - ERROR - stderr -   8%|████████▎                                                                                                | 166/2088 [22:10<4:15:08,  7.96s/it]
+2025-10-06 15:30:41 - ERROR - stderr - 
+2025-10-06 15:30:41 - ERROR - stderr - 
+2025-10-06 15:30:41 - INFO - stdout - {'loss': 1.4469, 'learning_rate': 0.0009936299941067138, 'epoch': 0.48}
+2025-10-06 15:30:41 - ERROR - stderr -   8%|████████▎                                                                                                | 166/2088 [22:10<4:15:08,  7.96s/it]
+2025-10-06 15:30:49 - ERROR - stderr -   8%|████████▍                                                                                                | 167/2088 [22:18<4:12:48,  7.90s/it]
+2025-10-06 15:30:49 - ERROR - stderr - 
+2025-10-06 15:30:49 - ERROR - stderr - 
+2025-10-06 15:30:49 - INFO - stdout - {'loss': 1.4709, 'learning_rate': 0.0009935059739797191, 'epoch': 0.48}
+2025-10-06 15:30:49 - ERROR - stderr -   8%|████████▍                                                                                                | 167/2088 [22:18<4:12:48,  7.90s/it]
+2025-10-06 15:30:57 - ERROR - stderr -   8%|████████▍                                                                                                | 168/2088 [22:26<4:13:23,  7.92s/it]
+2025-10-06 15:30:57 - ERROR - stderr - 
+2025-10-06 15:30:57 - ERROR - stderr - 
+2025-10-06 15:30:57 - INFO - stdout - {'loss': 1.4012, 'learning_rate': 0.0009933807660562897, 'epoch': 0.48}
+2025-10-06 15:30:57 - ERROR - stderr -   8%|████████▍                                                                                                | 168/2088 [22:26<4:13:23,  7.92s/it]
+2025-10-06 15:31:06 - ERROR - stderr -   8%|████████▍                                                                                                | 169/2088 [22:34<4:17:21,  8.05s/it]
+2025-10-06 15:31:06 - ERROR - stderr - 
+2025-10-06 15:31:06 - ERROR - stderr - 
+2025-10-06 15:31:06 - INFO - stdout - {'loss': 1.4211, 'learning_rate': 0.0009932543706377822, 'epoch': 0.49}
+2025-10-06 15:31:06 - ERROR - stderr -   8%|████████▍                                                                                                | 169/2088 [22:34<4:17:21,  8.05s/it]
+2025-10-06 15:31:14 - ERROR - stderr -   8%|████████▌                                                                                                | 170/2088 [22:42<4:18:34,  8.09s/it]
+2025-10-06 15:31:14 - ERROR - stderr - 
+2025-10-06 15:31:14 - ERROR - stderr - 
+2025-10-06 15:31:14 - INFO - stdout - {'loss': 1.4526, 'learning_rate': 0.0009931267880284125, 'epoch': 0.49}
+2025-10-06 15:31:14 - ERROR - stderr -   8%|████████▌                                                                                                | 170/2088 [22:42<4:18:34,  8.09s/it]
+2025-10-06 15:31:21 - ERROR - stderr -   8%|████████▌                                                                                                | 171/2088 [22:50<4:13:14,  7.93s/it]
+2025-10-06 15:31:21 - ERROR - stderr - 
+2025-10-06 15:31:21 - ERROR - stderr - 
+2025-10-06 15:31:21 - INFO - stdout - {'loss': 1.4187, 'learning_rate': 0.0009929980185352525, 'epoch': 0.49}
+2025-10-06 15:31:21 - ERROR - stderr -   8%|████████▌                                                                                                | 171/2088 [22:50<4:13:14,  7.93s/it]
+2025-10-06 15:31:29 - ERROR - stderr -   8%|████████▋                                                                                                | 172/2088 [22:58<4:14:59,  7.99s/it]
+2025-10-06 15:31:29 - ERROR - stderr - 
+2025-10-06 15:31:29 - ERROR - stderr - 
+2025-10-06 15:31:29 - INFO - stdout - {'loss': 1.3645, 'learning_rate': 0.0009928680624682318, 'epoch': 0.49}
+2025-10-06 15:31:29 - ERROR - stderr -   8%|████████▋                                                                                                | 172/2088 [22:58<4:14:59,  7.99s/it]
+2025-10-06 15:31:39 - ERROR - stderr -   8%|████████▋                                                                                                | 173/2088 [23:07<4:29:17,  8.44s/it]
+2025-10-06 15:31:39 - ERROR - stderr - 
+2025-10-06 15:31:39 - ERROR - stderr - 
+2025-10-06 15:31:39 - INFO - stdout - {'loss': 1.4388, 'learning_rate': 0.0009927369201401357, 'epoch': 0.5}
+2025-10-06 15:31:39 - ERROR - stderr -   8%|████████▋                                                                                                | 173/2088 [23:07<4:29:17,  8.44s/it]
+2025-10-06 15:31:47 - ERROR - stderr -   8%|████████▊                                                                                                | 174/2088 [23:15<4:25:48,  8.33s/it]
+2025-10-06 15:31:47 - ERROR - stderr - 
+2025-10-06 15:31:47 - ERROR - stderr - 
+2025-10-06 15:31:47 - INFO - stdout - {'loss': 1.407, 'learning_rate': 0.0009926045918666044, 'epoch': 0.5}
+2025-10-06 15:31:47 - ERROR - stderr -   8%|████████▊                                                                                                | 174/2088 [23:15<4:25:48,  8.33s/it]
+2025-10-06 15:31:56 - ERROR - stderr -   8%|████████▊                                                                                                | 175/2088 [23:24<4:28:35,  8.42s/it]
+2025-10-06 15:31:56 - ERROR - stderr - 
+2025-10-06 15:31:56 - ERROR - stderr - 
+2025-10-06 15:31:56 - INFO - stdout - {'loss': 1.3987, 'learning_rate': 0.0009924710779661327, 'epoch': 0.5}
+2025-10-06 15:31:56 - ERROR - stderr -   8%|████████▊                                                                                                | 175/2088 [23:24<4:28:35,  8.42s/it]
+2025-10-06 15:32:03 - ERROR - stderr -   8%|████████▊                                                                                                | 176/2088 [23:32<4:22:36,  8.24s/it]
+2025-10-06 15:32:03 - ERROR - stderr - 
+2025-10-06 15:32:03 - ERROR - stderr - 
+2025-10-06 15:32:03 - INFO - stdout - {'loss': 1.4674, 'learning_rate': 0.0009923363787600688, 'epoch': 0.51}
+2025-10-06 15:32:03 - ERROR - stderr -   8%|████████▊                                                                                                | 176/2088 [23:32<4:22:36,  8.24s/it]
+2025-10-06 15:32:12 - ERROR - stderr -   8%|████████▉                                                                                                | 177/2088 [23:41<4:30:07,  8.48s/it]
+2025-10-06 15:32:12 - ERROR - stderr - 
+2025-10-06 15:32:12 - ERROR - stderr - 
+2025-10-06 15:32:12 - INFO - stdout - {'loss': 1.3855, 'learning_rate': 0.000992200494572614, 'epoch': 0.51}
+2025-10-06 15:32:12 - ERROR - stderr -   8%|████████▉                                                                                                | 177/2088 [23:41<4:30:07,  8.48s/it]
+2025-10-06 15:32:20 - ERROR - stderr -   9%|████████▉                                                                                                | 178/2088 [23:48<4:19:39,  8.16s/it]
+2025-10-06 15:32:20 - ERROR - stderr - 
+2025-10-06 15:32:20 - ERROR - stderr - 
+2025-10-06 15:32:20 - INFO - stdout - {'loss': 1.4326, 'learning_rate': 0.0009920634257308217, 'epoch': 0.51}
+2025-10-06 15:32:20 - ERROR - stderr -   9%|████████▉                                                                                                | 178/2088 [23:48<4:19:39,  8.16s/it]
+2025-10-06 15:32:27 - ERROR - stderr -   9%|█████████                                                                                                | 179/2088 [23:56<4:13:31,  7.97s/it]
+2025-10-06 15:32:27 - ERROR - stderr - 
+2025-10-06 15:32:27 - ERROR - stderr - 
+2025-10-06 15:32:27 - INFO - stdout - {'loss': 1.4156, 'learning_rate': 0.0009919251725645963, 'epoch': 0.51}
+2025-10-06 15:32:27 - ERROR - stderr -   9%|█████████                                                                                                | 179/2088 [23:56<4:13:31,  7.97s/it]
+2025-10-06 15:32:35 - ERROR - stderr -   9%|█████████                                                                                                | 180/2088 [24:04<4:12:10,  7.93s/it]
+2025-10-06 15:32:35 - ERROR - stderr - 
+2025-10-06 15:32:35 - ERROR - stderr - 
+2025-10-06 15:32:35 - INFO - stdout - {'loss': 1.4109, 'learning_rate': 0.000991785735406693, 'epoch': 0.52}
+2025-10-06 15:32:35 - ERROR - stderr -   9%|█████████                                                                                                | 180/2088 [24:04<4:12:10,  7.93s/it]
+2025-10-06 15:32:43 - ERROR - stderr -   9%|█████████                                                                                                | 181/2088 [24:11<4:09:42,  7.86s/it]
+2025-10-06 15:32:43 - ERROR - stderr - 
+2025-10-06 15:32:43 - ERROR - stderr - 
+2025-10-06 15:32:43 - INFO - stdout - {'loss': 1.489, 'learning_rate': 0.0009916451145927164, 'epoch': 0.52}
+2025-10-06 15:32:43 - ERROR - stderr -   9%|█████████                                                                                                | 181/2088 [24:11<4:09:42,  7.86s/it]
+2025-10-06 15:32:51 - ERROR - stderr -   9%|█████████▏                                                                                               | 182/2088 [24:19<4:07:23,  7.79s/it]
+2025-10-06 15:32:51 - ERROR - stderr - 
+2025-10-06 15:32:51 - ERROR - stderr - 
+2025-10-06 15:32:51 - INFO - stdout - {'loss': 1.407, 'learning_rate': 0.0009915033104611205, 'epoch': 0.52}
+2025-10-06 15:32:51 - ERROR - stderr -   9%|█████████▏                                                                                               | 182/2088 [24:19<4:07:23,  7.79s/it]
+2025-10-06 15:32:58 - ERROR - stderr -   9%|█████████▏                                                                                               | 183/2088 [24:27<4:04:09,  7.69s/it]
+2025-10-06 15:32:58 - ERROR - stderr - 
+2025-10-06 15:32:58 - ERROR - stderr - 
+2025-10-06 15:32:58 - INFO - stdout - {'loss': 1.3062, 'learning_rate': 0.0009913603233532068, 'epoch': 0.53}
+2025-10-06 15:32:58 - ERROR - stderr -   9%|█████████▏                                                                                               | 183/2088 [24:27<4:04:09,  7.69s/it]
+2025-10-06 15:33:06 - ERROR - stderr -   9%|█████████▎                                                                                               | 184/2088 [24:35<4:08:49,  7.84s/it]
+2025-10-06 15:33:06 - ERROR - stderr - 
+2025-10-06 15:33:06 - ERROR - stderr - 
+2025-10-06 15:33:06 - INFO - stdout - {'loss': 1.2807, 'learning_rate': 0.000991216153613124, 'epoch': 0.53}
+2025-10-06 15:33:06 - ERROR - stderr -   9%|█████████▎                                                                                               | 184/2088 [24:35<4:08:49,  7.84s/it]
+2025-10-06 15:33:14 - ERROR - stderr -   9%|█████████▎                                                                                               | 185/2088 [24:43<4:12:47,  7.97s/it]
+2025-10-06 15:33:14 - ERROR - stderr - 
+2025-10-06 15:33:14 - ERROR - stderr - 
+2025-10-06 15:33:14 - INFO - stdout - {'loss': 1.427, 'learning_rate': 0.000991070801587868, 'epoch': 0.53}
+2025-10-06 15:33:14 - ERROR - stderr -   9%|█████████▎                                                                                               | 185/2088 [24:43<4:12:47,  7.97s/it]
+2025-10-06 15:33:22 - ERROR - stderr -   9%|█████████▎                                                                                               | 186/2088 [24:50<4:07:08,  7.80s/it]
+2025-10-06 15:33:22 - ERROR - stderr - 
+2025-10-06 15:33:22 - ERROR - stderr - 
+2025-10-06 15:33:22 - INFO - stdout - {'loss': 1.3424, 'learning_rate': 0.0009909242676272795, 'epoch': 0.53}
+2025-10-06 15:33:22 - ERROR - stderr -   9%|█████████▎                                                                                               | 186/2088 [24:50<4:07:08,  7.80s/it]
+2025-10-06 15:33:30 - ERROR - stderr -   9%|█████████▍                                                                                               | 187/2088 [24:59<4:10:45,  7.91s/it]
+2025-10-06 15:33:30 - ERROR - stderr - 
+2025-10-06 15:33:30 - ERROR - stderr - 
+2025-10-06 15:33:30 - INFO - stdout - {'loss': 1.4024, 'learning_rate': 0.0009907765520840446, 'epoch': 0.54}
+2025-10-06 15:33:30 - ERROR - stderr -   9%|█████████▍                                                                                               | 187/2088 [24:59<4:10:45,  7.91s/it]
+2025-10-06 15:33:39 - ERROR - stderr -   9%|█████████▍                                                                                               | 188/2088 [25:08<4:21:32,  8.26s/it]
+2025-10-06 15:33:39 - ERROR - stderr - 
+2025-10-06 15:33:39 - ERROR - stderr - 
+2025-10-06 15:33:39 - INFO - stdout - {'loss': 1.353, 'learning_rate': 0.0009906276553136924, 'epoch': 0.54}
+2025-10-06 15:33:39 - ERROR - stderr -   9%|█████████▍                                                                                               | 188/2088 [25:08<4:21:32,  8.26s/it]
+2025-10-06 15:33:47 - ERROR - stderr -   9%|█████████▌                                                                                               | 189/2088 [25:15<4:17:38,  8.14s/it]
+2025-10-06 15:33:47 - ERROR - stderr - 
+2025-10-06 15:33:47 - ERROR - stderr - 
+2025-10-06 15:33:47 - INFO - stdout - {'loss': 1.4293, 'learning_rate': 0.0009904775776745957, 'epoch': 0.54}
+2025-10-06 15:33:47 - ERROR - stderr -   9%|█████████▌                                                                                               | 189/2088 [25:15<4:17:38,  8.14s/it]
+2025-10-06 15:33:55 - ERROR - stderr -   9%|█████████▌                                                                                               | 190/2088 [25:23<4:14:53,  8.06s/it]
+2025-10-06 15:33:55 - ERROR - stderr - 
+2025-10-06 15:33:55 - ERROR - stderr - 
+2025-10-06 15:33:55 - INFO - stdout - {'loss': 1.4562, 'learning_rate': 0.0009903263195279698, 'epoch': 0.55}
+2025-10-06 15:33:55 - ERROR - stderr -   9%|█████████▌                                                                                               | 190/2088 [25:23<4:14:53,  8.06s/it]
+2025-10-06 15:34:06 - ERROR - stderr -   9%|█████████▌                                                                                               | 191/2088 [25:35<4:45:20,  9.02s/it]
+2025-10-06 15:34:06 - ERROR - stderr - 
+2025-10-06 15:34:06 - ERROR - stderr - 
+2025-10-06 15:34:06 - INFO - stdout - {'loss': 1.3866, 'learning_rate': 0.0009901738812378702, 'epoch': 0.55}
+2025-10-06 15:34:06 - ERROR - stderr -   9%|█████████▌                                                                                               | 191/2088 [25:35<4:45:20,  9.02s/it]
+2025-10-06 15:34:19 - ERROR - stderr -   9%|█████████▋                                                                                               | 192/2088 [25:48<5:23:20, 10.23s/it]
+2025-10-06 15:34:19 - ERROR - stderr - 
+2025-10-06 15:34:19 - ERROR - stderr - 
+2025-10-06 15:34:19 - INFO - stdout - {'loss': 1.4124, 'learning_rate': 0.000990020263171194, 'epoch': 0.55}
+2025-10-06 15:34:19 - ERROR - stderr -   9%|█████████▋                                                                                               | 192/2088 [25:48<5:23:20, 10.23s/it]
+2025-10-06 15:34:27 - ERROR - stderr -   9%|█████████▋                                                                                               | 193/2088 [25:56<5:01:46,  9.55s/it]
+2025-10-06 15:34:27 - ERROR - stderr - 
+2025-10-06 15:34:27 - ERROR - stderr - 
+2025-10-06 15:34:27 - INFO - stdout - {'loss': 1.4368, 'learning_rate': 0.000989865465697677, 'epoch': 0.55}
+2025-10-06 15:34:27 - ERROR - stderr -   9%|█████████▋                                                                                               | 193/2088 [25:56<5:01:46,  9.55s/it]
+2025-10-06 15:34:34 - ERROR - stderr -   9%|█████████▊                                                                                               | 194/2088 [26:03<4:40:30,  8.89s/it]
+2025-10-06 15:34:34 - ERROR - stderr - 
+2025-10-06 15:34:34 - ERROR - stderr - 
+2025-10-06 15:34:34 - INFO - stdout - {'loss': 1.426, 'learning_rate': 0.0009897094891898942, 'epoch': 0.56}
+2025-10-06 15:34:34 - ERROR - stderr -   9%|█████████▊                                                                                               | 194/2088 [26:03<4:40:30,  8.89s/it]
+2025-10-06 15:34:43 - ERROR - stderr -   9%|█████████▊                                                                                               | 195/2088 [26:11<4:34:32,  8.70s/it]
+2025-10-06 15:34:43 - ERROR - stderr - 
+2025-10-06 15:34:43 - ERROR - stderr - 
+2025-10-06 15:34:43 - INFO - stdout - {'loss': 1.3765, 'learning_rate': 0.0009895523340232582, 'epoch': 0.56}
+2025-10-06 15:34:43 - ERROR - stderr -   9%|█████████▊                                                                                               | 195/2088 [26:11<4:34:32,  8.70s/it]
+2025-10-06 15:34:52 - ERROR - stderr -   9%|█████████▊                                                                                               | 196/2088 [26:20<4:37:07,  8.79s/it]
+2025-10-06 15:34:52 - ERROR - stderr - 
+2025-10-06 15:34:52 - ERROR - stderr - 
+2025-10-06 15:34:52 - INFO - stdout - {'loss': 1.4103, 'learning_rate': 0.000989394000576018, 'epoch': 0.56}
+2025-10-06 15:34:52 - ERROR - stderr -   9%|█████████▊                                                                                               | 196/2088 [26:20<4:37:07,  8.79s/it]
+2025-10-06 15:34:52 - INFO - stdout - [Warning] Zero or NaN encountered in pc_norm! pc_id: 87e8e5a7-0aae-571e-882e-0f8e926169d6
+2025-10-06 15:34:52 - INFO - stdout - m: [[0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]
+2025-10-06 15:34:52 - INFO - stdout -  [0.]]
+2025-10-06 15:35:00 - ERROR - stderr -   9%|█████████▉                                                                                               | 197/2088 [26:28<4:31:44,  8.62s/it]
+2025-10-06 15:35:00 - ERROR - stderr - 
+2025-10-06 15:35:00 - ERROR - stderr - 
+2025-10-06 15:35:00 - INFO - stdout - {'loss': 1.4581, 'learning_rate': 0.0009892344892292596, 'epoch': 0.57}
+2025-10-06 15:35:00 - ERROR - stderr -   9%|█████████▉                                                                                               | 197/2088 [26:28<4:31:44,  8.62s/it]
+2025-10-06 15:35:08 - ERROR - stderr -   9%|█████████▉                                                                                               | 198/2088 [26:36<4:25:13,  8.42s/it]
+2025-10-06 15:35:08 - ERROR - stderr - 
+2025-10-06 15:35:08 - ERROR - stderr - 
+2025-10-06 15:35:08 - INFO - stdout - {'loss': 1.4795, 'learning_rate': 0.0009890738003669028, 'epoch': 0.57}
+2025-10-06 15:35:08 - ERROR - stderr -   9%|█████████▉                                                                                               | 198/2088 [26:36<4:25:13,  8.42s/it]
+2025-10-06 15:35:16 - ERROR - stderr -  10%|██████████                                                                                               | 199/2088 [26:45<4:23:42,  8.38s/it]
+2025-10-06 15:35:16 - ERROR - stderr - 
+2025-10-06 15:35:16 - ERROR - stderr - 
+2025-10-06 15:35:16 - INFO - stdout - {'loss': 1.4765, 'learning_rate': 0.0009889119343757025, 'epoch': 0.57}
+2025-10-06 15:35:16 - ERROR - stderr -  10%|██████████                                                                                               | 199/2088 [26:45<4:23:42,  8.38s/it]
+2025-10-06 15:35:25 - ERROR - stderr -  10%|██████████                                                                                               | 200/2088 [26:53<4:27:13,  8.49s/it]
+2025-10-06 15:35:25 - ERROR - stderr - 
+2025-10-06 15:35:25 - ERROR - stderr - 
+2025-10-06 15:35:25 - INFO - stdout - {'loss': 1.3762, 'learning_rate': 0.0009887488916452464, 'epoch': 0.57}
+2025-10-06 15:35:25 - ERROR - stderr -  10%|██████████                                                                                               | 200/2088 [26:53<4:27:13,  8.49s/it]
+2025-10-06 15:35:33 - ERROR - stderr -  10%|██████████                                                                                               | 201/2088 [27:01<4:22:32,  8.35s/it]
+2025-10-06 15:35:33 - ERROR - stderr - 
+2025-10-06 15:35:33 - ERROR - stderr - 
+2025-10-06 15:35:33 - INFO - stdout - {'loss': 1.4633, 'learning_rate': 0.0009885846725679538, 'epoch': 0.58}
+2025-10-06 15:35:33 - ERROR - stderr -  10%|██████████                                                                                               | 201/2088 [27:01<4:22:32,  8.35s/it]
+2025-10-06 15:35:41 - ERROR - stderr -  10%|██████████▏                                                                                              | 202/2088 [27:09<4:16:34,  8.16s/it]
+2025-10-06 15:35:41 - ERROR - stderr - 
+2025-10-06 15:35:41 - ERROR - stderr - 
+2025-10-06 15:35:41 - INFO - stdout - {'loss': 1.3823, 'learning_rate': 0.000988419277539077, 'epoch': 0.58}
+2025-10-06 15:35:41 - ERROR - stderr -  10%|██████████▏                                                                                              | 202/2088 [27:09<4:16:34,  8.16s/it]
+2025-10-06 15:35:49 - ERROR - stderr -  10%|██████████▏                                                                                              | 203/2088 [27:18<4:22:22,  8.35s/it]
+2025-10-06 15:35:50 - ERROR - stderr - 
+2025-10-06 15:35:50 - ERROR - stderr - 
+2025-10-06 15:35:50 - INFO - stdout - {'loss': 1.4494, 'learning_rate': 0.0009882527069566965, 'epoch': 0.58}
+2025-10-06 15:35:50 - ERROR - stderr -  10%|██████████▏                                                                                              | 203/2088 [27:18<4:22:22,  8.35s/it]
+2025-10-06 15:35:58 - ERROR - stderr -  10%|██████████▎                                                                                              | 204/2088 [27:26<4:21:25,  8.33s/it]
+2025-10-06 15:35:58 - ERROR - stderr - 
+2025-10-06 15:35:58 - ERROR - stderr - 
+2025-10-06 15:35:58 - INFO - stdout - {'loss': 1.3239, 'learning_rate': 0.0009880849612217237, 'epoch': 0.59}
+2025-10-06 15:35:58 - ERROR - stderr -  10%|██████████▎                                                                                              | 204/2088 [27:26<4:21:25,  8.33s/it]
+2025-10-06 15:36:06 - ERROR - stderr -  10%|██████████▎                                                                                              | 205/2088 [27:35<4:23:03,  8.38s/it]
+2025-10-06 15:36:06 - ERROR - stderr - 
+2025-10-06 15:36:06 - ERROR - stderr - 
+2025-10-06 15:36:06 - INFO - stdout - {'loss': 1.3756, 'learning_rate': 0.0009879160407378982, 'epoch': 0.59}
+2025-10-06 15:36:06 - ERROR - stderr -  10%|██████████▎                                                                                              | 205/2088 [27:35<4:23:03,  8.38s/it]
+2025-10-06 15:36:14 - ERROR - stderr -  10%|██████████▎                                                                                              | 206/2088 [27:43<4:18:01,  8.23s/it]
+2025-10-06 15:36:14 - ERROR - stderr - 
+2025-10-06 15:36:14 - ERROR - stderr - 
+2025-10-06 15:36:14 - INFO - stdout - {'loss': 1.411, 'learning_rate': 0.0009877459459117863, 'epoch': 0.59}
+2025-10-06 15:36:14 - ERROR - stderr -  10%|██████████▎                                                                                              | 206/2088 [27:43<4:18:01,  8.23s/it]
+2025-10-06 15:36:22 - ERROR - stderr -  10%|██████████▍                                                                                              | 207/2088 [27:51<4:17:43,  8.22s/it]
+2025-10-06 15:36:22 - ERROR - stderr - 
+2025-10-06 15:36:22 - ERROR - stderr - 
+2025-10-06 15:36:22 - INFO - stdout - {'loss': 1.3943, 'learning_rate': 0.0009875746771527815, 'epoch': 0.59}
+2025-10-06 15:36:22 - ERROR - stderr -  10%|██████████▍                                                                                              | 207/2088 [27:51<4:17:43,  8.22s/it]
+2025-10-06 15:36:30 - ERROR - stderr -  10%|██████████▍                                                                                              | 208/2088 [27:58<4:11:57,  8.04s/it]
+2025-10-06 15:36:30 - ERROR - stderr - 
+2025-10-06 15:36:30 - ERROR - stderr - 
+2025-10-06 15:36:30 - INFO - stdout - {'loss': 1.4134, 'learning_rate': 0.0009874022348731028, 'epoch': 0.6}
+2025-10-06 15:36:30 - ERROR - stderr -  10%|██████████▍                                                                                              | 208/2088 [27:58<4:11:57,  8.04s/it]
+2025-10-06 15:36:39 - ERROR - stderr -  10%|██████████▌                                                                                              | 209/2088 [28:07<4:16:41,  8.20s/it]
+2025-10-06 15:36:39 - ERROR - stderr - 
+2025-10-06 15:36:39 - ERROR - stderr - 
+2025-10-06 15:36:39 - INFO - stdout - {'loss': 1.3435, 'learning_rate': 0.000987228619487793, 'epoch': 0.6}
+2025-10-06 15:36:39 - ERROR - stderr -  10%|██████████▌                                                                                              | 209/2088 [28:07<4:16:41,  8.20s/it]
+2025-10-06 15:36:47 - ERROR - stderr -  10%|██████████▌                                                                                              | 210/2088 [28:16<4:23:19,  8.41s/it]
+2025-10-06 15:36:47 - ERROR - stderr - 
+2025-10-06 15:36:47 - ERROR - stderr - 
+2025-10-06 15:36:47 - INFO - stdout - {'loss': 1.3784, 'learning_rate': 0.0009870538314147193, 'epoch': 0.6}
+2025-10-06 15:36:47 - ERROR - stderr -  10%|██████████▌                                                                                              | 210/2088 [28:16<4:23:19,  8.41s/it]
+2025-10-06 15:36:56 - ERROR - stderr -  10%|██████████▌                                                                                              | 211/2088 [28:24<4:21:42,  8.37s/it]
+2025-10-06 15:36:56 - ERROR - stderr - 
+2025-10-06 15:36:56 - ERROR - stderr - 
+2025-10-06 15:36:56 - INFO - stdout - {'loss': 1.4834, 'learning_rate': 0.0009868778710745707, 'epoch': 0.61}
+2025-10-06 15:36:56 - ERROR - stderr -  10%|██████████▌                                                                                              | 211/2088 [28:24<4:21:42,  8.37s/it]
+2025-10-06 15:37:04 - ERROR - stderr -  10%|██████████▋                                                                                              | 212/2088 [28:32<4:18:27,  8.27s/it]
+2025-10-06 15:37:04 - ERROR - stderr - 
+2025-10-06 15:37:04 - ERROR - stderr - 
+2025-10-06 15:37:04 - INFO - stdout - {'loss': 1.3204, 'learning_rate': 0.0009867007388908579, 'epoch': 0.61}
+2025-10-06 15:37:04 - ERROR - stderr -  10%|██████████▋                                                                                              | 212/2088 [28:32<4:18:27,  8.27s/it]
+2025-10-06 15:37:12 - ERROR - stderr -  10%|██████████▋                                                                                              | 213/2088 [28:41<4:22:43,  8.41s/it]
+2025-10-06 15:37:12 - ERROR - stderr - 
+2025-10-06 15:37:12 - ERROR - stderr - 
+2025-10-06 15:37:12 - INFO - stdout - {'loss': 1.4958, 'learning_rate': 0.0009865224352899118, 'epoch': 0.61}
+2025-10-06 15:37:12 - ERROR - stderr -  10%|██████████▋                                                                                              | 213/2088 [28:41<4:22:43,  8.41s/it]
+2025-10-06 15:37:20 - ERROR - stderr -  10%|██████████▊                                                                                              | 214/2088 [28:49<4:16:05,  8.20s/it]
+2025-10-06 15:37:20 - ERROR - stderr - 
+2025-10-06 15:37:20 - ERROR - stderr - 
+2025-10-06 15:37:20 - INFO - stdout - {'loss': 1.3921, 'learning_rate': 0.0009863429607008835, 'epoch': 0.61}
+2025-10-06 15:37:20 - ERROR - stderr -  10%|██████████▊                                                                                              | 214/2088 [28:49<4:16:05,  8.20s/it]
+2025-10-06 15:37:28 - ERROR - stderr -  10%|██████████▊                                                                                              | 215/2088 [28:56<4:08:28,  7.96s/it]
+2025-10-06 15:37:28 - ERROR - stderr - 
+2025-10-06 15:37:28 - ERROR - stderr - 
+2025-10-06 15:37:28 - INFO - stdout - {'loss': 1.3797, 'learning_rate': 0.000986162315555742, 'epoch': 0.62}
+2025-10-06 15:37:28 - ERROR - stderr -  10%|██████████▊                                                                                              | 215/2088 [28:56<4:08:28,  7.96s/it]
+2025-10-06 15:37:35 - ERROR - stderr -  10%|██████████▊                                                                                              | 216/2088 [29:04<4:07:10,  7.92s/it]
+2025-10-06 15:37:35 - ERROR - stderr - 
+2025-10-06 15:37:35 - ERROR - stderr - 
+2025-10-06 15:37:35 - INFO - stdout - {'loss': 1.3843, 'learning_rate': 0.0009859805002892731, 'epoch': 0.62}
+2025-10-06 15:37:35 - ERROR - stderr -  10%|██████████▊                                                                                              | 216/2088 [29:04<4:07:10,  7.92s/it]
+2025-10-06 15:37:44 - ERROR - stderr -  10%|██████████▉                                                                                              | 217/2088 [29:12<4:09:03,  7.99s/it]
+2025-10-06 15:37:44 - ERROR - stderr - 
+2025-10-06 15:37:44 - ERROR - stderr - 
+2025-10-06 15:37:44 - INFO - stdout - {'loss': 1.3499, 'learning_rate': 0.0009857975153390798, 'epoch': 0.62}
+2025-10-06 15:37:44 - ERROR - stderr -  10%|██████████▉                                                                                              | 217/2088 [29:12<4:09:03,  7.99s/it]
+2025-10-06 15:37:52 - ERROR - stderr -  10%|██████████▉                                                                                              | 218/2088 [29:20<4:09:24,  8.00s/it]
+2025-10-06 15:37:52 - ERROR - stderr - 
+2025-10-06 15:37:52 - ERROR - stderr - 
+2025-10-06 15:37:52 - INFO - stdout - {'loss': 1.3883, 'learning_rate': 0.0009856133611455802, 'epoch': 0.63}
+2025-10-06 15:37:52 - ERROR - stderr -  10%|██████████▉                                                                                              | 218/2088 [29:20<4:09:24,  8.00s/it]
+2025-10-06 15:38:00 - ERROR - stderr -  10%|███████████                                                                                              | 219/2088 [29:28<4:11:01,  8.06s/it]
+2025-10-06 15:38:00 - ERROR - stderr - 
+2025-10-06 15:38:00 - ERROR - stderr - 
+2025-10-06 15:38:00 - INFO - stdout - {'loss': 1.3232, 'learning_rate': 0.000985428038152006, 'epoch': 0.63}
+2025-10-06 15:38:00 - ERROR - stderr -  10%|███████████                                                                                              | 219/2088 [29:28<4:11:01,  8.06s/it]
+2025-10-06 15:38:08 - ERROR - stderr -  11%|███████████                                                                                              | 220/2088 [29:37<4:13:36,  8.15s/it]
+2025-10-06 15:38:08 - ERROR - stderr - 
+2025-10-06 15:38:08 - ERROR - stderr - 
+2025-10-06 15:38:08 - INFO - stdout - {'loss': 1.2649, 'learning_rate': 0.0009852415468044027, 'epoch': 0.63}
+2025-10-06 15:38:08 - ERROR - stderr -  11%|███████████                                                                                              | 220/2088 [29:37<4:13:36,  8.15s/it]
+2025-10-06 15:38:16 - ERROR - stderr -  11%|███████████                                                                                              | 221/2088 [29:45<4:14:07,  8.17s/it]
+2025-10-06 15:38:16 - ERROR - stderr - 
+2025-10-06 15:38:16 - ERROR - stderr - 
+2025-10-06 15:38:16 - INFO - stdout - {'loss': 1.464, 'learning_rate': 0.0009850538875516275, 'epoch': 0.64}
+2025-10-06 15:38:16 - ERROR - stderr -  11%|███████████                                                                                              | 221/2088 [29:45<4:14:07,  8.17s/it]
+2025-10-06 15:38:24 - ERROR - stderr -  11%|███████████▏                                                                                             | 222/2088 [29:53<4:12:35,  8.12s/it]
+2025-10-06 15:38:24 - ERROR - stderr - 
+2025-10-06 15:38:24 - ERROR - stderr - 
+2025-10-06 15:38:24 - INFO - stdout - {'loss': 1.4095, 'learning_rate': 0.0009848650608453489, 'epoch': 0.64}
+2025-10-06 15:38:24 - ERROR - stderr -  11%|███████████▏                                                                                             | 222/2088 [29:53<4:12:35,  8.12s/it]
+2025-10-06 15:38:33 - ERROR - stderr -  11%|███████████▏                                                                                             | 223/2088 [30:01<4:15:16,  8.21s/it]
+2025-10-06 15:38:33 - ERROR - stderr - 
+2025-10-06 15:38:33 - ERROR - stderr - 
+2025-10-06 15:38:33 - INFO - stdout - {'loss': 1.3725, 'learning_rate': 0.0009846750671400446, 'epoch': 0.64}
+2025-10-06 15:38:33 - ERROR - stderr -  11%|███████████▏                                                                                             | 223/2088 [30:01<4:15:16,  8.21s/it]
+2025-10-06 15:38:40 - ERROR - stderr -  11%|███████████▎                                                                                             | 224/2088 [30:09<4:07:23,  7.96s/it]
+2025-10-06 15:38:40 - ERROR - stderr - 
+2025-10-06 15:38:40 - ERROR - stderr - 
+2025-10-06 15:38:40 - INFO - stdout - {'loss': 1.4044, 'learning_rate': 0.000984483906893002, 'epoch': 0.64}
+2025-10-06 15:38:40 - ERROR - stderr -  11%|███████████▎                                                                                             | 224/2088 [30:09<4:07:23,  7.96s/it]
+2025-10-06 15:38:48 - ERROR - stderr -  11%|███████████▎                                                                                             | 225/2088 [30:16<4:05:02,  7.89s/it]
+2025-10-06 15:38:48 - ERROR - stderr - 
+2025-10-06 15:38:48 - ERROR - stderr - 
+2025-10-06 15:38:48 - INFO - stdout - {'loss': 1.4382, 'learning_rate': 0.0009842915805643156, 'epoch': 0.65}
+2025-10-06 15:38:48 - ERROR - stderr -  11%|███████████▎                                                                                             | 225/2088 [30:16<4:05:02,  7.89s/it]
+2025-10-06 15:38:56 - ERROR - stderr -  11%|███████████▎                                                                                             | 226/2088 [30:25<4:10:05,  8.06s/it]
+2025-10-06 15:38:56 - ERROR - stderr - 
+2025-10-06 15:38:56 - ERROR - stderr - 
+2025-10-06 15:38:56 - INFO - stdout - {'loss': 1.4694, 'learning_rate': 0.0009840980886168865, 'epoch': 0.65}
+2025-10-06 15:38:56 - ERROR - stderr -  11%|███████████▎                                                                                             | 226/2088 [30:25<4:10:05,  8.06s/it]
+2025-10-06 15:39:05 - ERROR - stderr -  11%|███████████▍                                                                                             | 227/2088 [30:33<4:13:53,  8.19s/it]
+2025-10-06 15:39:05 - ERROR - stderr - 
+2025-10-06 15:39:05 - ERROR - stderr - 
+2025-10-06 15:39:05 - INFO - stdout - {'loss': 1.3952, 'learning_rate': 0.0009839034315164217, 'epoch': 0.65}
+2025-10-06 15:39:05 - ERROR - stderr -  11%|███████████▍                                                                                             | 227/2088 [30:33<4:13:53,  8.19s/it]
+2025-10-06 15:39:12 - ERROR - stderr -  11%|███████████▍                                                                                             | 228/2088 [30:41<4:06:30,  7.95s/it]
+2025-10-06 15:39:12 - ERROR - stderr - 
+2025-10-06 15:39:12 - ERROR - stderr - 
+2025-10-06 15:39:12 - INFO - stdout - {'loss': 1.4813, 'learning_rate': 0.000983707609731432, 'epoch': 0.66}
+2025-10-06 15:39:12 - ERROR - stderr -  11%|███████████▍                                                                                             | 228/2088 [30:41<4:06:30,  7.95s/it]
+2025-10-06 15:39:21 - ERROR - stderr -  11%|███████████▌                                                                                             | 229/2088 [30:49<4:11:54,  8.13s/it]
+2025-10-06 15:39:21 - ERROR - stderr - 
+2025-10-06 15:39:21 - ERROR - stderr - 
+2025-10-06 15:39:21 - INFO - stdout - {'loss': 1.2885, 'learning_rate': 0.0009835106237332319, 'epoch': 0.66}
+2025-10-06 15:39:21 - ERROR - stderr -  11%|███████████▌                                                                                             | 229/2088 [30:49<4:11:54,  8.13s/it]
+2025-10-06 15:39:29 - ERROR - stderr -  11%|███████████▌                                                                                             | 230/2088 [30:57<4:10:22,  8.09s/it]
+2025-10-06 15:39:29 - ERROR - stderr - 
+2025-10-06 15:39:29 - ERROR - stderr - 
+2025-10-06 15:39:29 - INFO - stdout - {'loss': 1.2921, 'learning_rate': 0.0009833124739959374, 'epoch': 0.66}
+2025-10-06 15:39:29 - ERROR - stderr -  11%|███████████▌                                                                                             | 230/2088 [30:57<4:10:22,  8.09s/it]
+2025-10-06 15:39:37 - ERROR - stderr -  11%|███████████▌                                                                                             | 231/2088 [31:05<4:08:21,  8.02s/it]
+2025-10-06 15:39:37 - ERROR - stderr - 
+2025-10-06 15:39:37 - ERROR - stderr - 
+2025-10-06 15:39:37 - INFO - stdout - {'loss': 1.3938, 'learning_rate': 0.0009831131609964665, 'epoch': 0.66}
+2025-10-06 15:39:37 - ERROR - stderr -  11%|███████████▌                                                                                             | 231/2088 [31:05<4:08:21,  8.02s/it]
+2025-10-06 15:39:45 - ERROR - stderr -  11%|███████████▋                                                                                             | 232/2088 [31:13<4:07:19,  8.00s/it]
+2025-10-06 15:39:45 - ERROR - stderr - 
+2025-10-06 15:39:45 - ERROR - stderr - 
+2025-10-06 15:39:45 - INFO - stdout - {'loss': 1.3763, 'learning_rate': 0.0009829126852145356, 'epoch': 0.67}
+2025-10-06 15:39:45 - ERROR - stderr -  11%|███████████▋                                                                                             | 232/2088 [31:13<4:07:19,  8.00s/it]
+2025-10-06 15:39:52 - ERROR - stderr -  11%|███████████▋                                                                                             | 233/2088 [31:21<4:05:50,  7.95s/it]
+2025-10-06 15:39:52 - ERROR - stderr - 
+2025-10-06 15:39:52 - ERROR - stderr - 
+2025-10-06 15:39:52 - INFO - stdout - {'loss': 1.3415, 'learning_rate': 0.000982711047132661, 'epoch': 0.67}
+2025-10-06 15:39:52 - ERROR - stderr -  11%|███████████▋                                                                                             | 233/2088 [31:21<4:05:50,  7.95s/it]
+2025-10-06 15:40:00 - ERROR - stderr -  11%|███████████▊                                                                                             | 234/2088 [31:29<4:05:25,  7.94s/it]
+2025-10-06 15:40:00 - ERROR - stderr - 
+2025-10-06 15:40:00 - ERROR - stderr - 
+2025-10-06 15:40:00 - INFO - stdout - {'loss': 1.3092, 'learning_rate': 0.0009825082472361558, 'epoch': 0.67}
+2025-10-06 15:40:00 - ERROR - stderr -  11%|███████████▊                                                                                             | 234/2088 [31:29<4:05:25,  7.94s/it]
+2025-10-06 15:40:08 - ERROR - stderr -  11%|███████████▊                                                                                             | 235/2088 [31:36<4:02:31,  7.85s/it]
+2025-10-06 15:40:08 - ERROR - stderr - 
+2025-10-06 15:40:08 - ERROR - stderr - 
+2025-10-06 15:40:08 - INFO - stdout - {'loss': 1.3952, 'learning_rate': 0.0009823042860131294, 'epoch': 0.68}
+2025-10-06 15:40:08 - ERROR - stderr -  11%|███████████▊                                                                                             | 235/2088 [31:36<4:02:31,  7.85s/it]
+2025-10-06 15:40:16 - ERROR - stderr -  11%|███████████▊                                                                                             | 236/2088 [31:45<4:06:33,  7.99s/it]
+2025-10-06 15:40:16 - ERROR - stderr - 
+2025-10-06 15:40:16 - ERROR - stderr - 
+2025-10-06 15:40:16 - INFO - stdout - {'loss': 1.3381, 'learning_rate': 0.0009820991639544869, 'epoch': 0.68}
+2025-10-06 15:40:16 - ERROR - stderr -  11%|███████████▊                                                                                             | 236/2088 [31:45<4:06:33,  7.99s/it]
+2025-10-06 15:40:24 - ERROR - stderr -  11%|███████████▉                                                                                             | 237/2088 [31:53<4:04:47,  7.93s/it]
+2025-10-06 15:40:24 - ERROR - stderr - 
+2025-10-06 15:40:24 - ERROR - stderr - 
+2025-10-06 15:40:24 - INFO - stdout - {'loss': 1.3368, 'learning_rate': 0.0009818928815539265, 'epoch': 0.68}
+2025-10-06 15:40:24 - ERROR - stderr -  11%|███████████▉                                                                                             | 237/2088 [31:53<4:04:47,  7.93s/it]
+2025-10-06 15:40:32 - ERROR - stderr -  11%|███████████▉                                                                                             | 238/2088 [32:01<4:06:45,  8.00s/it]
+2025-10-06 15:40:32 - ERROR - stderr - 
+2025-10-06 15:40:32 - ERROR - stderr - 
+2025-10-06 15:40:32 - INFO - stdout - {'loss': 1.3213, 'learning_rate': 0.0009816854393079402, 'epoch': 0.68}
+2025-10-06 15:40:32 - ERROR - stderr -  11%|███████████▉                                                                                             | 238/2088 [32:01<4:06:45,  8.00s/it]
+2025-10-06 15:40:40 - ERROR - stderr -  11%|████████████                                                                                             | 239/2088 [32:08<4:02:25,  7.87s/it]
+2025-10-06 15:40:40 - ERROR - stderr - 
+2025-10-06 15:40:40 - ERROR - stderr - 
+2025-10-06 15:40:40 - INFO - stdout - {'loss': 1.3887, 'learning_rate': 0.0009814768377158106, 'epoch': 0.69}
+2025-10-06 15:40:40 - ERROR - stderr -  11%|████████████                                                                                             | 239/2088 [32:08<4:02:25,  7.87s/it]
+2025-10-06 15:40:49 - ERROR - stderr -  11%|████████████                                                                                             | 240/2088 [32:17<4:11:04,  8.15s/it]
+2025-10-06 15:40:49 - ERROR - stderr - 
+2025-10-06 15:40:49 - ERROR - stderr - 
+2025-10-06 15:40:49 - INFO - stdout - {'loss': 1.3018, 'learning_rate': 0.0009812670772796114, 'epoch': 0.69}
+2025-10-06 15:40:49 - ERROR - stderr -  11%|████████████                                                                                             | 240/2088 [32:17<4:11:04,  8.15s/it]
+2025-10-06 15:40:57 - ERROR - stderr -  12%|████████████                                                                                             | 241/2088 [32:25<4:12:26,  8.20s/it]
+2025-10-06 15:40:57 - ERROR - stderr - 
+2025-10-06 15:40:57 - ERROR - stderr - 
+2025-10-06 15:40:57 - INFO - stdout - {'loss': 1.3719, 'learning_rate': 0.0009810561585042049, 'epoch': 0.69}
+2025-10-06 15:40:57 - ERROR - stderr -  12%|████████████                                                                                             | 241/2088 [32:25<4:12:26,  8.20s/it]
+2025-10-06 15:41:05 - ERROR - stderr -  12%|████████████▏                                                                                            | 242/2088 [32:34<4:13:33,  8.24s/it]
+2025-10-06 15:41:05 - ERROR - stderr - 
+2025-10-06 15:41:05 - ERROR - stderr - 
+2025-10-06 15:41:05 - INFO - stdout - {'loss': 1.4556, 'learning_rate': 0.0009808440818972418, 'epoch': 0.7}
+2025-10-06 15:41:05 - ERROR - stderr -  12%|████████████▏                                                                                            | 242/2088 [32:34<4:13:33,  8.24s/it]
+2025-10-06 15:41:14 - ERROR - stderr -  12%|████████████▏                                                                                            | 243/2088 [32:42<4:14:32,  8.28s/it]
+2025-10-06 15:41:14 - ERROR - stderr - 
+2025-10-06 15:41:14 - ERROR - stderr - 
+2025-10-06 15:41:14 - INFO - stdout - {'loss': 1.3795, 'learning_rate': 0.0009806308479691594, 'epoch': 0.7}
+2025-10-06 15:41:14 - ERROR - stderr -  12%|████████████▏                                                                                            | 243/2088 [32:42<4:14:32,  8.28s/it]
+2025-10-06 15:41:22 - ERROR - stderr -  12%|████████████▎                                                                                            | 244/2088 [32:50<4:11:00,  8.17s/it]
+2025-10-06 15:41:22 - ERROR - stderr - 
+2025-10-06 15:41:22 - ERROR - stderr - 
+2025-10-06 15:41:22 - INFO - stdout - {'loss': 1.3805, 'learning_rate': 0.0009804164572331804, 'epoch': 0.7}
+2025-10-06 15:41:22 - ERROR - stderr -  12%|████████████▎                                                                                            | 244/2088 [32:50<4:11:00,  8.17s/it]
+2025-10-06 15:41:29 - ERROR - stderr -  12%|████████████▎                                                                                            | 245/2088 [32:58<4:04:30,  7.96s/it]
+2025-10-06 15:41:29 - ERROR - stderr - 
+2025-10-06 15:41:29 - ERROR - stderr - 
+2025-10-06 15:41:29 - INFO - stdout - {'loss': 1.4197, 'learning_rate': 0.0009802009102053118, 'epoch': 0.7}
+2025-10-06 15:41:29 - ERROR - stderr -  12%|████████████▎                                                                                            | 245/2088 [32:58<4:04:30,  7.96s/it]
+2025-10-06 15:41:37 - ERROR - stderr -  12%|████████████▎                                                                                            | 246/2088 [33:06<4:06:27,  8.03s/it]
+2025-10-06 15:41:37 - ERROR - stderr - 
+2025-10-06 15:41:37 - ERROR - stderr - 
+2025-10-06 15:41:37 - INFO - stdout - {'loss': 1.3661, 'learning_rate': 0.0009799842074043438, 'epoch': 0.71}
+2025-10-06 15:41:37 - ERROR - stderr -  12%|████████████▎                                                                                            | 246/2088 [33:06<4:06:27,  8.03s/it]
+2025-10-06 15:41:46 - ERROR - stderr -  12%|████████████▍                                                                                            | 247/2088 [33:14<4:09:24,  8.13s/it]
+2025-10-06 15:41:46 - ERROR - stderr - 
+2025-10-06 15:41:46 - ERROR - stderr - 
+2025-10-06 15:41:46 - INFO - stdout - {'loss': 1.4526, 'learning_rate': 0.000979766349351848, 'epoch': 0.71}
+2025-10-06 15:41:46 - ERROR - stderr -  12%|████████████▍                                                                                            | 247/2088 [33:14<4:09:24,  8.13s/it]
+2025-10-06 15:41:54 - ERROR - stderr -  12%|████████████▍                                                                                            | 248/2088 [33:23<4:13:50,  8.28s/it]
+2025-10-06 15:41:54 - ERROR - stderr - 
+2025-10-06 15:41:54 - ERROR - stderr - 
+2025-10-06 15:41:54 - INFO - stdout - {'loss': 1.3615, 'learning_rate': 0.000979547336572177, 'epoch': 0.71}
+2025-10-06 15:41:54 - ERROR - stderr -  12%|████████████▍                                                                                            | 248/2088 [33:23<4:13:50,  8.28s/it]
+2025-10-06 15:42:02 - ERROR - stderr -  12%|████████████▌                                                                                            | 249/2088 [33:31<4:13:34,  8.27s/it]
+2025-10-06 15:42:02 - ERROR - stderr - 
+2025-10-06 15:42:02 - ERROR - stderr - 
+2025-10-06 15:42:02 - INFO - stdout - {'loss': 1.4038, 'learning_rate': 0.0009793271695924621, 'epoch': 0.72}
+2025-10-06 15:42:02 - ERROR - stderr -  12%|████████████▌                                                                                            | 249/2088 [33:31<4:13:34,  8.27s/it]
+2025-10-06 15:42:10 - ERROR - stderr -  12%|████████████▌                                                                                            | 250/2088 [33:38<4:03:45,  7.96s/it]
+2025-10-06 15:42:10 - ERROR - stderr - 
+2025-10-06 15:42:10 - ERROR - stderr - 
+2025-10-06 15:42:10 - INFO - stdout - {'loss': 1.3945, 'learning_rate': 0.0009791058489426133, 'epoch': 0.72}
+2025-10-06 15:42:10 - ERROR - stderr -  12%|████████████▌                                                                                            | 250/2088 [33:38<4:03:45,  7.96s/it]
+2025-10-06 15:42:18 - ERROR - stderr -  12%|████████████▌                                                                                            | 251/2088 [33:46<4:02:29,  7.92s/it]
+2025-10-06 15:42:18 - ERROR - stderr - 
+2025-10-06 15:42:18 - ERROR - stderr - 
+2025-10-06 15:42:18 - INFO - stdout - {'loss': 1.4041, 'learning_rate': 0.0009788833751553164, 'epoch': 0.72}
+2025-10-06 15:42:18 - ERROR - stderr -  12%|████████████▌                                                                                            | 251/2088 [33:46<4:02:29,  7.92s/it]
+2025-10-06 15:42:26 - ERROR - stderr -  12%|████████████▋                                                                                            | 252/2088 [33:54<4:03:03,  7.94s/it]
+2025-10-06 15:42:26 - ERROR - stderr - 
+2025-10-06 15:42:26 - ERROR - stderr - 
+2025-10-06 15:42:26 - INFO - stdout - {'loss': 1.4274, 'learning_rate': 0.0009786597487660335, 'epoch': 0.72}
+2025-10-06 15:42:26 - ERROR - stderr -  12%|████████████▋                                                                                            | 252/2088 [33:54<4:03:03,  7.94s/it]
+2025-10-06 15:42:33 - ERROR - stderr -  12%|████████████▋                                                                                            | 253/2088 [34:02<4:03:10,  7.95s/it]
+2025-10-06 15:42:33 - ERROR - stderr - 
+2025-10-06 15:42:33 - ERROR - stderr - 
+2025-10-06 15:42:33 - INFO - stdout - {'loss': 1.4079, 'learning_rate': 0.0009784349703130008, 'epoch': 0.73}
+2025-10-06 15:42:33 - ERROR - stderr -  12%|████████████▋                                                                                            | 253/2088 [34:02<4:03:10,  7.95s/it]
+2025-10-06 15:42:41 - ERROR - stderr -  12%|████████████▊                                                                                            | 254/2088 [34:10<4:01:01,  7.89s/it]
+2025-10-06 15:42:41 - ERROR - stderr - 
+2025-10-06 15:42:41 - ERROR - stderr - 
+2025-10-06 15:42:41 - INFO - stdout - {'loss': 1.3579, 'learning_rate': 0.0009782090403372262, 'epoch': 0.73}
+2025-10-06 15:42:41 - ERROR - stderr -  12%|████████████▊                                                                                            | 254/2088 [34:10<4:01:01,  7.89s/it]
+2025-10-06 15:42:49 - ERROR - stderr -  12%|████████████▊                                                                                            | 255/2088 [34:18<4:02:27,  7.94s/it]
+2025-10-06 15:42:49 - ERROR - stderr - 
+2025-10-06 15:42:49 - ERROR - stderr - 
+2025-10-06 15:42:49 - INFO - stdout - {'loss': 1.3967, 'learning_rate': 0.0009779819593824907, 'epoch': 0.73}
+2025-10-06 15:42:49 - ERROR - stderr -  12%|████████████▊                                                                                            | 255/2088 [34:18<4:02:27,  7.94s/it]
+2025-10-06 15:42:57 - ERROR - stderr -  12%|████████████▊                                                                                            | 256/2088 [34:26<4:02:30,  7.94s/it]
+2025-10-06 15:42:57 - ERROR - stderr - 
+2025-10-06 15:42:57 - ERROR - stderr - 
+2025-10-06 15:42:57 - INFO - stdout - {'loss': 1.4134, 'learning_rate': 0.0009777537279953446, 'epoch': 0.74}
+2025-10-06 15:42:57 - ERROR - stderr -  12%|████████████▊                                                                                            | 256/2088 [34:26<4:02:30,  7.94s/it]
+2025-10-06 15:43:08 - ERROR - stderr -  12%|████████████▉                                                                                            | 257/2088 [34:37<4:32:23,  8.93s/it]
+2025-10-06 15:43:08 - ERROR - stderr - 
+2025-10-06 15:43:08 - ERROR - stderr - 
+2025-10-06 15:43:08 - INFO - stdout - {'loss': 1.3772, 'learning_rate': 0.0009775243467251074, 'epoch': 0.74}
+2025-10-06 15:43:08 - ERROR - stderr -  12%|████████████▉                                                                                            | 257/2088 [34:37<4:32:23,  8.93s/it]
+2025-10-06 15:43:16 - ERROR - stderr -  12%|████████████▉                                                                                            | 258/2088 [34:45<4:22:57,  8.62s/it]
+2025-10-06 15:43:16 - ERROR - stderr - 
+2025-10-06 15:43:16 - ERROR - stderr - 
+2025-10-06 15:43:16 - INFO - stdout - {'loss': 1.3835, 'learning_rate': 0.000977293816123866, 'epoch': 0.74}
+2025-10-06 15:43:16 - ERROR - stderr -  12%|████████████▉                                                                                            | 258/2088 [34:45<4:22:57,  8.62s/it]
+2025-10-06 15:43:25 - ERROR - stderr -  12%|█████████████                                                                                            | 259/2088 [34:53<4:20:08,  8.53s/it]
+2025-10-06 15:43:25 - ERROR - stderr - 
+2025-10-06 15:43:25 - ERROR - stderr - 
+2025-10-06 15:43:25 - INFO - stdout - {'loss': 1.3109, 'learning_rate': 0.0009770621367464738, 'epoch': 0.74}
+2025-10-06 15:43:25 - ERROR - stderr -  12%|█████████████                                                                                            | 259/2088 [34:53<4:20:08,  8.53s/it]
+2025-10-06 15:43:33 - ERROR - stderr -  12%|█████████████                                                                                            | 260/2088 [35:01<4:13:30,  8.32s/it]
+2025-10-06 15:43:33 - ERROR - stderr - 
+2025-10-06 15:43:33 - ERROR - stderr - 
+2025-10-06 15:43:33 - INFO - stdout - {'loss': 1.3386, 'learning_rate': 0.000976829309150549, 'epoch': 0.75}
+2025-10-06 15:43:33 - ERROR - stderr -  12%|█████████████                                                                                            | 260/2088 [35:01<4:13:30,  8.32s/it]
+2025-10-06 15:43:43 - ERROR - stderr -  12%|█████████████▏                                                                                           | 261/2088 [35:11<4:29:24,  8.85s/it]
+2025-10-06 15:43:43 - ERROR - stderr - 
+2025-10-06 15:43:43 - ERROR - stderr - 
+2025-10-06 15:43:43 - INFO - stdout - {'loss': 1.3822, 'learning_rate': 0.0009765953338964734, 'epoch': 0.75}
+2025-10-06 15:43:43 - ERROR - stderr -  12%|█████████████▏                                                                                           | 261/2088 [35:11<4:29:24,  8.85s/it]
+2025-10-06 15:43:55 - ERROR - stderr -  13%|█████████████▏                                                                                           | 262/2088 [35:23<4:57:26,  9.77s/it]
+2025-10-06 15:43:55 - ERROR - stderr - 
+2025-10-06 15:43:55 - ERROR - stderr - 
+2025-10-06 15:43:55 - INFO - stdout - {'loss': 1.3712, 'learning_rate': 0.0009763602115473914, 'epoch': 0.75}
+2025-10-06 15:43:55 - ERROR - stderr -  13%|█████████████▏                                                                                           | 262/2088 [35:23<4:57:26,  9.77s/it]
+2025-10-06 15:44:04 - ERROR - stderr -  13%|█████████████▏                                                                                           | 263/2088 [35:32<4:53:25,  9.65s/it]
+2025-10-06 15:44:04 - ERROR - stderr - 
+2025-10-06 15:44:04 - ERROR - stderr - 
+2025-10-06 15:44:04 - INFO - stdout - {'loss': 1.4224, 'learning_rate': 0.0009761239426692076, 'epoch': 0.76}
+2025-10-06 15:44:04 - ERROR - stderr -  13%|█████████████▏                                                                                           | 263/2088 [35:32<4:53:25,  9.65s/it]
+2025-10-06 15:44:12 - ERROR - stderr -  13%|█████████████▎                                                                                           | 264/2088 [35:41<4:39:43,  9.20s/it]
+2025-10-06 15:44:12 - ERROR - stderr - 
+2025-10-06 15:44:12 - ERROR - stderr - 
+2025-10-06 15:44:12 - INFO - stdout - {'loss': 1.3868, 'learning_rate': 0.0009758865278305869, 'epoch': 0.76}
+2025-10-06 15:44:12 - ERROR - stderr -  13%|█████████████▎                                                                                           | 264/2088 [35:41<4:39:43,  9.20s/it]
+2025-10-06 15:44:24 - ERROR - stderr -  13%|█████████████▎                                                                                           | 265/2088 [35:53<5:08:07, 10.14s/it]
+2025-10-06 15:44:24 - ERROR - stderr - 
+2025-10-06 15:44:24 - ERROR - stderr - 
+2025-10-06 15:44:24 - INFO - stdout - {'loss': 1.3193, 'learning_rate': 0.0009756479676029515, 'epoch': 0.76}
+2025-10-06 15:44:24 - ERROR - stderr -  13%|█████████████▎                                                                                           | 265/2088 [35:53<5:08:07, 10.14s/it]
+2025-10-06 15:44:38 - ERROR - stderr -  13%|█████████████▍                                                                                           | 266/2088 [36:07<5:40:53, 11.23s/it]
+2025-10-06 15:44:38 - ERROR - stderr - 
+2025-10-06 15:44:38 - ERROR - stderr - 
+2025-10-06 15:44:38 - INFO - stdout - {'loss': 1.345, 'learning_rate': 0.000975408262560481, 'epoch': 0.76}
+2025-10-06 15:44:38 - ERROR - stderr -  13%|█████████████▍                                                                                           | 266/2088 [36:07<5:40:53, 11.23s/it]
+2025-10-06 15:44:47 - ERROR - stderr -  13%|█████████████▍                                                                                           | 267/2088 [36:15<5:15:11, 10.38s/it]
+2025-10-06 15:44:47 - ERROR - stderr - 
+2025-10-06 15:44:47 - ERROR - stderr - 
+2025-10-06 15:44:47 - INFO - stdout - {'loss': 1.4077, 'learning_rate': 0.0009751674132801106, 'epoch': 0.77}
+2025-10-06 15:44:47 - ERROR - stderr -  13%|█████████████▍                                                                                           | 267/2088 [36:15<5:15:11, 10.38s/it]
+2025-10-06 15:44:54 - ERROR - stderr -  13%|█████████████▍                                                                                           | 268/2088 [36:23<4:51:44,  9.62s/it]
+2025-10-06 15:44:54 - ERROR - stderr - 
+2025-10-06 15:44:54 - ERROR - stderr - 
+2025-10-06 15:44:54 - INFO - stdout - {'loss': 1.313, 'learning_rate': 0.0009749254203415288, 'epoch': 0.77}
+2025-10-06 15:44:54 - ERROR - stderr -  13%|█████████████▍                                                                                           | 268/2088 [36:23<4:51:44,  9.62s/it]
+2025-10-06 15:45:02 - ERROR - stderr -  13%|█████████████▌                                                                                           | 269/2088 [36:31<4:36:42,  9.13s/it]
+2025-10-06 15:45:02 - ERROR - stderr - 
+2025-10-06 15:45:02 - ERROR - stderr - 
+2025-10-06 15:45:02 - INFO - stdout - {'loss': 1.3724, 'learning_rate': 0.0009746822843271771, 'epoch': 0.77}
+2025-10-06 15:45:02 - ERROR - stderr -  13%|█████████████▌                                                                                           | 269/2088 [36:31<4:36:42,  9.13s/it]
+2025-10-06 15:45:10 - ERROR - stderr -  13%|█████████████▌                                                                                           | 270/2088 [36:38<4:21:15,  8.62s/it]
+2025-10-06 15:45:10 - ERROR - stderr - 
+2025-10-06 15:45:10 - ERROR - stderr - 
+2025-10-06 15:45:10 - INFO - stdout - {'loss': 1.4058, 'learning_rate': 0.0009744380058222483, 'epoch': 0.78}
+2025-10-06 15:45:10 - ERROR - stderr -  13%|█████████████▌                                                                                           | 270/2088 [36:38<4:21:15,  8.62s/it]
+2025-10-06 15:45:18 - ERROR - stderr -  13%|█████████████▋                                                                                           | 271/2088 [36:46<4:15:50,  8.45s/it]
+2025-10-06 15:45:18 - ERROR - stderr - 
+2025-10-06 15:45:18 - ERROR - stderr - 
+2025-10-06 15:45:18 - INFO - stdout - {'loss': 1.4076, 'learning_rate': 0.000974192585414685, 'epoch': 0.78}
+2025-10-06 15:45:18 - ERROR - stderr -  13%|█████████████▋                                                                                           | 271/2088 [36:46<4:15:50,  8.45s/it]
+2025-10-06 15:45:26 - ERROR - stderr -  13%|█████████████▋                                                                                           | 272/2088 [36:55<4:13:59,  8.39s/it]
+2025-10-06 15:45:26 - ERROR - stderr - 
+2025-10-06 15:45:26 - ERROR - stderr - 
+2025-10-06 15:45:26 - INFO - stdout - {'loss': 1.3888, 'learning_rate': 0.0009739460236951777, 'epoch': 0.78}
+2025-10-06 15:45:26 - ERROR - stderr -  13%|█████████████▋                                                                                           | 272/2088 [36:55<4:13:59,  8.39s/it]
+2025-10-06 15:45:34 - ERROR - stderr -  13%|█████████████▋                                                                                           | 273/2088 [37:02<4:06:55,  8.16s/it]
+2025-10-06 15:45:34 - ERROR - stderr - 
+2025-10-06 15:45:34 - ERROR - stderr - 
+2025-10-06 15:45:34 - INFO - stdout - {'loss': 1.2439, 'learning_rate': 0.0009736983212571646, 'epoch': 0.78}
+2025-10-06 15:45:34 - ERROR - stderr -  13%|█████████████▋                                                                                           | 273/2088 [37:02<4:06:55,  8.16s/it]
+2025-10-06 15:45:41 - ERROR - stderr -  13%|█████████████▊                                                                                           | 274/2088 [37:10<4:02:31,  8.02s/it]
+2025-10-06 15:45:41 - ERROR - stderr - 
+2025-10-06 15:45:41 - ERROR - stderr - 
+2025-10-06 15:45:41 - INFO - stdout - {'loss': 1.306, 'learning_rate': 0.0009734494786968292, 'epoch': 0.79}
+2025-10-06 15:45:41 - ERROR - stderr -  13%|█████████████▊                                                                                           | 274/2088 [37:10<4:02:31,  8.02s/it]
+2025-10-06 15:45:49 - ERROR - stderr -  13%|█████████████▊                                                                                           | 275/2088 [37:17<3:57:51,  7.87s/it]
+2025-10-06 15:45:49 - ERROR - stderr - 
+2025-10-06 15:45:49 - ERROR - stderr - 
+2025-10-06 15:45:49 - INFO - stdout - {'loss': 1.3795, 'learning_rate': 0.0009731994966130988, 'epoch': 0.79}
+2025-10-06 15:45:49 - ERROR - stderr -  13%|█████████████▊                                                                                           | 275/2088 [37:17<3:57:51,  7.87s/it]
+2025-10-06 15:45:58 - ERROR - stderr -  13%|█████████████▉                                                                                           | 276/2088 [37:26<4:06:01,  8.15s/it]
+2025-10-06 15:45:58 - ERROR - stderr - 
+2025-10-06 15:45:58 - ERROR - stderr - 
+2025-10-06 15:45:58 - INFO - stdout - {'loss': 1.4211, 'learning_rate': 0.0009729483756076435, 'epoch': 0.79}
+2025-10-06 15:45:58 - ERROR - stderr -  13%|█████████████▉                                                                                           | 276/2088 [37:26<4:06:01,  8.15s/it]
+2025-10-06 15:46:06 - ERROR - stderr -  13%|█████████████▉                                                                                           | 277/2088 [37:35<4:11:12,  8.32s/it]
+2025-10-06 15:46:06 - ERROR - stderr - 
+2025-10-06 15:46:06 - ERROR - stderr - 
+2025-10-06 15:46:06 - INFO - stdout - {'loss': 1.3797, 'learning_rate': 0.0009726961162848748, 'epoch': 0.8}
+2025-10-06 15:46:06 - ERROR - stderr -  13%|█████████████▉                                                                                           | 277/2088 [37:35<4:11:12,  8.32s/it]
+2025-10-06 15:46:14 - ERROR - stderr -  13%|█████████████▉                                                                                           | 278/2088 [37:42<4:03:30,  8.07s/it]
+2025-10-06 15:46:14 - ERROR - stderr - 
+2025-10-06 15:46:14 - ERROR - stderr - 
+2025-10-06 15:46:14 - INFO - stdout - {'loss': 1.3158, 'learning_rate': 0.000972442719251944, 'epoch': 0.8}
+2025-10-06 15:46:14 - ERROR - stderr -  13%|█████████████▉                                                                                           | 278/2088 [37:42<4:03:30,  8.07s/it]
+2025-10-06 15:46:22 - ERROR - stderr -  13%|██████████████                                                                                           | 279/2088 [37:51<4:04:27,  8.11s/it]
+2025-10-06 15:46:22 - ERROR - stderr - 
+2025-10-06 15:46:22 - ERROR - stderr - 
+2025-10-06 15:46:22 - INFO - stdout - {'loss': 1.2975, 'learning_rate': 0.0009721881851187406, 'epoch': 0.8}
+2025-10-06 15:46:22 - ERROR - stderr -  13%|██████████████                                                                                           | 279/2088 [37:51<4:04:27,  8.11s/it]
+2025-10-06 15:46:30 - ERROR - stderr -  13%|██████████████                                                                                           | 280/2088 [37:59<4:06:32,  8.18s/it]
+2025-10-06 15:46:31 - ERROR - stderr - 
+2025-10-06 15:46:31 - ERROR - stderr - 
+2025-10-06 15:46:31 - INFO - stdout - {'loss': 1.3552, 'learning_rate': 0.0009719325144978906, 'epoch': 0.8}
+2025-10-06 15:46:31 - ERROR - stderr -  13%|██████████���███                                                                                           | 280/2088 [37:59<4:06:32,  8.18s/it]
+2025-10-06 15:46:40 - ERROR - stderr -  13%|██████████████▏                                                                                          | 281/2088 [38:08<4:17:31,  8.55s/it]
+2025-10-06 15:46:40 - ERROR - stderr - 
+2025-10-06 15:46:40 - ERROR - stderr - 
+2025-10-06 15:46:40 - INFO - stdout - {'loss': 1.4167, 'learning_rate': 0.0009716757080047557, 'epoch': 0.81}
+2025-10-06 15:46:40 - ERROR - stderr -  13%|██████████████▏                                                                                          | 281/2088 [38:08<4:17:31,  8.55s/it]
+2025-10-06 15:46:48 - ERROR - stderr -  14%|██████████████▏                                                                                          | 282/2088 [38:17<4:14:14,  8.45s/it]
+2025-10-06 15:46:48 - ERROR - stderr - 
+2025-10-06 15:46:48 - ERROR - stderr - 
+2025-10-06 15:46:48 - INFO - stdout - {'loss': 1.3506, 'learning_rate': 0.0009714177662574317, 'epoch': 0.81}
+2025-10-06 15:46:48 - ERROR - stderr -  14%|██████████████▏                                                                                          | 282/2088 [38:17<4:14:14,  8.45s/it]
+2025-10-06 15:46:56 - ERROR - stderr -  14%|██████████████▏                                                                                          | 283/2088 [38:24<4:05:45,  8.17s/it]
+2025-10-06 15:46:56 - ERROR - stderr - 
+2025-10-06 15:46:56 - ERROR - stderr - 
+2025-10-06 15:46:56 - INFO - stdout - {'loss': 1.261, 'learning_rate': 0.0009711586898767462, 'epoch': 0.81}
+2025-10-06 15:46:56 - ERROR - stderr -  14%|██████████████▏                                                                                          | 283/2088 [38:24<4:05:45,  8.17s/it]
+2025-10-06 15:47:04 - ERROR - stderr -  14%|██████████████▎                                                                                          | 284/2088 [38:32<4:03:53,  8.11s/it]
+2025-10-06 15:47:04 - ERROR - stderr - 
+2025-10-06 15:47:04 - ERROR - stderr - 
+2025-10-06 15:47:04 - INFO - stdout - {'loss': 1.3075, 'learning_rate': 0.0009708984794862581, 'epoch': 0.82}
+2025-10-06 15:47:04 - ERROR - stderr -  14%|██████████████▎                                                                                          | 284/2088 [38:32<4:03:53,  8.11s/it]
+2025-10-06 15:47:11 - ERROR - stderr -  14%|██████████████▎                                                                                          | 285/2088 [38:40<3:59:39,  7.98s/it]
+2025-10-06 15:47:11 - ERROR - stderr - 
+2025-10-06 15:47:11 - ERROR - stderr - 
+2025-10-06 15:47:11 - INFO - stdout - {'loss': 1.4306, 'learning_rate': 0.0009706371357122559, 'epoch': 0.82}
+2025-10-06 15:47:11 - ERROR - stderr -  14%|██████████████▎                                                                                          | 285/2088 [38:40<3:59:39,  7.98s/it]
+2025-10-06 15:47:19 - ERROR - stderr -  14%|██████████████▍                                                                                          | 286/2088 [38:48<3:58:12,  7.93s/it]
+2025-10-06 15:47:19 - ERROR - stderr - 
+2025-10-06 15:47:19 - ERROR - stderr - 
+2025-10-06 15:47:19 - INFO - stdout - {'loss': 1.3797, 'learning_rate': 0.0009703746591837552, 'epoch': 0.82}
+2025-10-06 15:47:19 - ERROR - stderr -  14%|██████████████▍                                                                                          | 286/2088 [38:48<3:58:12,  7.93s/it]
+2025-10-06 15:47:27 - ERROR - stderr -  14%|██████████████▍                                                                                          | 287/2088 [38:56<4:01:31,  8.05s/it]
+2025-10-06 15:47:27 - ERROR - stderr - 
+2025-10-06 15:47:27 - ERROR - stderr - 
+2025-10-06 15:47:27 - INFO - stdout - {'loss': 1.3526, 'learning_rate': 0.0009701110505324989, 'epoch': 0.82}
+2025-10-06 15:47:27 - ERROR - stderr -  14%|██████████████▍                                                                                          | 287/2088 [38:56<4:01:31,  8.05s/it]
+2025-10-06 15:47:35 - ERROR - stderr -  14%|██████████████▍                                                                                          | 288/2088 [39:04<3:57:34,  7.92s/it]
+2025-10-06 15:47:35 - ERROR - stderr - 
+2025-10-06 15:47:35 - ERROR - stderr - 
+2025-10-06 15:47:35 - INFO - stdout - {'loss': 1.3251, 'learning_rate': 0.0009698463103929542, 'epoch': 0.83}
+2025-10-06 15:47:35 - ERROR - stderr -  14%|██████████████▍                                                                                          | 288/2088 [39:04<3:57:34,  7.92s/it]
+2025-10-06 15:47:43 - ERROR - stderr -  14%|██████████████▌                                                                                          | 289/2088 [39:11<3:54:29,  7.82s/it]
+2025-10-06 15:47:43 - ERROR - stderr - 
+2025-10-06 15:47:43 - ERROR - stderr - 
+2025-10-06 15:47:43 - INFO - stdout - {'loss': 1.3114, 'learning_rate': 0.0009695804394023118, 'epoch': 0.83}
+2025-10-06 15:47:43 - ERROR - stderr -  14%|██████████████▌                                                                                          | 289/2088 [39:11<3:54:29,  7.82s/it]
+2025-10-06 15:47:50 - ERROR - stderr -  14%|██████████████▌                                                                                          | 290/2088 [39:19<3:54:25,  7.82s/it]
+2025-10-06 15:47:50 - ERROR - stderr - 
+2025-10-06 15:47:50 - ERROR - stderr - 
+2025-10-06 15:47:50 - INFO - stdout - {'loss': 1.308, 'learning_rate': 0.0009693134382004839, 'epoch': 0.83}
+2025-10-06 15:47:50 - ERROR - stderr -  14%|██████████████▌                                                                                          | 290/2088 [39:19<3:54:25,  7.82s/it]
+2025-10-06 15:47:58 - ERROR - stderr -  14%|██████████████▋                                                                                          | 291/2088 [39:27<3:55:40,  7.87s/it]
+2025-10-06 15:47:58 - ERROR - stderr - 
+2025-10-06 15:47:58 - ERROR - stderr - 
+2025-10-06 15:47:58 - INFO - stdout - {'loss': 1.3964, 'learning_rate': 0.0009690453074301035, 'epoch': 0.84}
+2025-10-06 15:47:58 - ERROR - stderr -  14%|██████████████▋                                                                                          | 291/2088 [39:27<3:55:40,  7.87s/it]
+2025-10-06 15:48:06 - ERROR - stderr -  14%|██████████████▋                                                                                          | 292/2088 [39:34<3:48:26,  7.63s/it]
+2025-10-06 15:48:06 - ERROR - stderr - 
+2025-10-06 15:48:06 - ERROR - stderr - 
+2025-10-06 15:48:06 - INFO - stdout - {'loss': 1.3318, 'learning_rate': 0.0009687760477365217, 'epoch': 0.84}
+2025-10-06 15:48:06 - ERROR - stderr -  14%|██████████████▋                                                                                          | 292/2088 [39:34<3:48:26,  7.63s/it]
+2025-10-06 15:48:14 - ERROR - stderr -  14%|██████████████▋                                                                                          | 293/2088 [39:43<3:56:59,  7.92s/it]
+2025-10-06 15:48:14 - ERROR - stderr - 
+2025-10-06 15:48:14 - ERROR - stderr - 
+2025-10-06 15:48:14 - INFO - stdout - {'loss': 1.3355, 'learning_rate': 0.0009685056597678075, 'epoch': 0.84}
+2025-10-06 15:48:14 - ERROR - stderr -  14%|██████████████▋                                                                                          | 293/2088 [39:43<3:56:59,  7.92s/it]
+2025-10-06 15:48:22 - ERROR - stderr -  14%|██████████████▊                                                                                          | 294/2088 [39:50<3:54:55,  7.86s/it]
+2025-10-06 15:48:22 - ERROR - stderr - 
+2025-10-06 15:48:22 - ERROR - stderr - 
+2025-10-06 15:48:22 - INFO - stdout - {'loss': 1.3281, 'learning_rate': 0.0009682341441747445, 'epoch': 0.84}
+2025-10-06 15:48:22 - ERROR - stderr -  14%|██████████████▊                                                                                          | 294/2088 [39:50<3:54:55,  7.86s/it]
+2025-10-06 15:48:30 - ERROR - stderr -  14%|██████████████▊                                                                                          | 295/2088 [39:59<3:58:30,  7.98s/it]
+2025-10-06 15:48:30 - ERROR - stderr - 
+2025-10-06 15:48:30 - ERROR - stderr - 
+2025-10-06 15:48:30 - INFO - stdout - {'loss': 1.3453, 'learning_rate': 0.0009679615016108313, 'epoch': 0.85}
+2025-10-06 15:48:30 - ERROR - stderr -  14%|██████████████▊                                                                                          | 295/2088 [39:59<3:58:30,  7.98s/it]
+2025-10-06 15:48:38 - ERROR - stderr -  14%|██████████████▉                                                                                          | 296/2088 [40:07<3:59:39,  8.02s/it]
+2025-10-06 15:48:38 - ERROR - stderr - 
+2025-10-06 15:48:38 - ERROR - stderr - 
+2025-10-06 15:48:38 - INFO - stdout - {'loss': 1.3556, 'learning_rate': 0.0009676877327322783, 'epoch': 0.85}
+2025-10-06 15:48:38 - ERROR - stderr -  14%|██████████████▉                                                                                          | 296/2088 [40:07<3:59:39,  8.02s/it]
+2025-10-06 15:48:46 - ERROR - stderr -  14%|██████████████▉                                                                                          | 297/2088 [40:14<3:54:26,  7.85s/it]
+2025-10-06 15:48:46 - ERROR - stderr - 
+2025-10-06 15:48:46 - ERROR - stderr - 
+2025-10-06 15:48:46 - INFO - stdout - {'loss': 1.3232, 'learning_rate': 0.0009674128381980072, 'epoch': 0.85}
+2025-10-06 15:48:46 - ERROR - stderr -  14%|██████████████▉                                                                                          | 297/2088 [40:14<3:54:26,  7.85s/it]
+2025-10-06 15:48:54 - ERROR - stderr -  14%|██████████████▉                                                                                          | 298/2088 [40:22<3:57:52,  7.97s/it]
+2025-10-06 15:48:54 - ERROR - stderr - 
+2025-10-06 15:48:54 - ERROR - stderr - 
+2025-10-06 15:48:54 - INFO - stdout - {'loss': 1.355, 'learning_rate': 0.0009671368186696487, 'epoch': 0.86}
+2025-10-06 15:48:54 - ERROR - stderr -  14%|██████████████▉                                                                                          | 298/2088 [40:22<3:57:52,  7.97s/it]
+2025-10-06 15:49:02 - ERROR - stderr -  14%|███████████████                                                                                          | 299/2088 [40:31<4:01:02,  8.08s/it]
+2025-10-06 15:49:02 - ERROR - stderr - 
+2025-10-06 15:49:02 - ERROR - stderr - 
+2025-10-06 15:49:02 - INFO - stdout - {'loss': 1.4265, 'learning_rate': 0.0009668596748115412, 'epoch': 0.86}
+2025-10-06 15:49:02 - ERROR - stderr -  14%|███████████████                                                                                          | 299/2088 [40:31<4:01:02,  8.08s/it]
+2025-10-06 15:49:10 - ERROR - stderr -  14%|███████████████                                                                                          | 300/2088 [40:39<4:00:08,  8.06s/it]
+2025-10-06 15:49:10 - ERROR - stderr - 
+2025-10-06 15:49:10 - ERROR - stderr - 
+2025-10-06 15:49:10 - INFO - stdout - {'loss': 1.3281, 'learning_rate': 0.0009665814072907293, 'epoch': 0.86}
+2025-10-06 15:49:10 - ERROR - stderr -  14%|███████████████                                                                                          | 300/2088 [40:39<4:00:08,  8.06s/it]
+2025-10-06 15:49:18 - ERROR - stderr -  14%|███████████████▏                                                                                         | 301/2088 [40:47<4:00:58,  8.09s/it]
+2025-10-06 15:49:18 - ERROR - stderr - 
+2025-10-06 15:49:18 - ERROR - stderr - 
+2025-10-06 15:49:18 - INFO - stdout - {'loss': 1.3375, 'learning_rate': 0.0009663020167769622, 'epoch': 0.86}
+2025-10-06 15:49:18 - ERROR - stderr -  14%|███████████████▏                                                                                         | 301/2088 [40:47<4:00:58,  8.09s/it]
+2025-10-06 15:49:27 - ERROR - stderr -  14%|███████████████▏                                                                                         | 302/2088 [40:56<4:07:21,  8.31s/it]
+2025-10-06 15:49:27 - ERROR - stderr - 
+2025-10-06 15:49:27 - ERROR - stderr - 
+2025-10-06 15:49:27 - INFO - stdout - {'loss': 1.3823, 'learning_rate': 0.0009660215039426918, 'epoch': 0.87}
+2025-10-06 15:49:27 - ERROR - stderr -  14%|███████████████▏                                                                                         | 302/2088 [40:56<4:07:21,  8.31s/it]
+2025-10-06 15:49:35 - ERROR - stderr -  15%|███████████████▏                                                                                         | 303/2088 [41:04<4:05:04,  8.24s/it]
+2025-10-06 15:49:35 - ERROR - stderr - 
+2025-10-06 15:49:35 - ERROR - stderr - 
+2025-10-06 15:49:35 - INFO - stdout - {'loss': 1.2811, 'learning_rate': 0.0009657398694630713, 'epoch': 0.87}
+2025-10-06 15:49:35 - ERROR - stderr -  15%|███████████████▏                                                                                         | 303/2088 [41:04<4:05:04,  8.24s/it]
+2025-10-06 15:49:44 - ERROR - stderr -  15%|███████████████▎                                                                                         | 304/2088 [41:13<4:10:44,  8.43s/it]
+2025-10-06 15:49:44 - ERROR - stderr - 
+2025-10-06 15:49:44 - ERROR - stderr - 
+2025-10-06 15:49:44 - INFO - stdout - {'loss': 1.333, 'learning_rate': 0.0009654571140159533, 'epoch': 0.87}
+2025-10-06 15:49:44 - ERROR - stderr -  15%|███████████████▎                                                                                         | 304/2088 [41:13<4:10:44,  8.43s/it]
+2025-10-06 15:49:53 - ERROR - stderr -  15%|███████████████▎                                                                                         | 305/2088 [41:22<4:15:34,  8.60s/it]
+2025-10-06 15:49:53 - ERROR - stderr - 
+2025-10-06 15:49:53 - ERROR - stderr - 
+2025-10-06 15:49:53 - INFO - stdout - {'loss': 1.2948, 'learning_rate': 0.0009651732382818892, 'epoch': 0.88}
+2025-10-06 15:49:53 - ERROR - stderr -  15%|███████████████▎                                                                                         | 305/2088 [41:22<4:15:34,  8.60s/it]
+2025-10-06 15:50:02 - ERROR - stderr -  15%|███████████████▍                                                                                         | 306/2088 [41:31<4:20:55,  8.79s/it]
+2025-10-06 15:50:02 - ERROR - stderr - 
+2025-10-06 15:50:02 - ERROR - stderr - 
+2025-10-06 15:50:02 - INFO - stdout - {'loss': 1.3909, 'learning_rate': 0.0009648882429441257, 'epoch': 0.88}
+2025-10-06 15:50:02 - ERROR - stderr -  15%|███████████████▍                                                                                         | 306/2088 [41:31<4:20:55,  8.79s/it]
+2025-10-06 15:50:12 - ERROR - stderr -  15%|███████████████▍                                                                                         | 307/2088 [41:40<4:23:37,  8.88s/it]
+2025-10-06 15:50:12 - ERROR - stderr - 
+2025-10-06 15:50:12 - ERROR - stderr - 
+2025-10-06 15:50:12 - INFO - stdout - {'loss': 1.3878, 'learning_rate': 0.0009646021286886051, 'epoch': 0.88}
+2025-10-06 15:50:12 - ERROR - stderr -  15%|███████████████▍                                                                                         | 307/2088 [41:40<4:23:37,  8.88s/it]
+2025-10-06 15:50:20 - ERROR - stderr -  15%|███████████████▍                                                                                         | 308/2088 [41:49<4:23:46,  8.89s/it]
+2025-10-06 15:50:20 - ERROR - stderr - 
+2025-10-06 15:50:20 - ERROR - stderr - 
+2025-10-06 15:50:20 - INFO - stdout - {'loss': 1.2793, 'learning_rate': 0.0009643148962039621, 'epoch': 0.89}
+2025-10-06 15:50:20 - ERROR - stderr -  15%|███████████████▍                                                                                         | 308/2088 [41:49<4:23:46,  8.89s/it]
+2025-10-06 15:50:30 - ERROR - stderr -  15%|███████████████▌                                                                                         | 309/2088 [41:58<4:28:07,  9.04s/it]
+2025-10-06 15:50:30 - ERROR - stderr - 
+2025-10-06 15:50:30 - ERROR - stderr - 
+2025-10-06 15:50:30 - INFO - stdout - {'loss': 1.3911, 'learning_rate': 0.0009640265461815234, 'epoch': 0.89}
+2025-10-06 15:50:30 - ERROR - stderr -  15%|███████████████▌                                                                                         | 309/2088 [41:58<4:28:07,  9.04s/it]
+2025-10-06 15:50:40 - ERROR - stderr -  15%|███████████████▌                                                                                         | 310/2088 [42:08<4:34:27,  9.26s/it]
+2025-10-06 15:50:40 - ERROR - stderr - 
+2025-10-06 15:50:40 - ERROR - stderr - 
+2025-10-06 15:50:40 - INFO - stdout - {'loss': 1.3576, 'learning_rate': 0.0009637370793153051, 'epoch': 0.89}
+2025-10-06 15:50:40 - ERROR - stderr -  15%|███████████████▌                                                                                         | 310/2088 [42:08<4:34:27,  9.26s/it]
+2025-10-06 15:50:47 - ERROR - stderr -  15%|███████████████▋                                                                                         | 311/2088 [42:15<4:14:08,  8.58s/it]
+2025-10-06 15:50:47 - ERROR - stderr - 
+2025-10-06 15:50:47 - ERROR - stderr - 
+2025-10-06 15:50:47 - INFO - stdout - {'loss': 1.3697, 'learning_rate': 0.0009634464963020114, 'epoch': 0.89}
+2025-10-06 15:50:47 - ERROR - stderr -  15%|███████████████▋                                                                                         | 311/2088 [42:15<4:14:08,  8.58s/it]
+2025-10-06 15:50:54 - ERROR - stderr -  15%|███████████████▋                                                                                         | 312/2088 [42:23<4:06:02,  8.31s/it]
+2025-10-06 15:50:54 - ERROR - stderr - 
+2025-10-06 15:50:54 - ERROR - stderr - 
+2025-10-06 15:50:54 - INFO - stdout - {'loss': 1.34, 'learning_rate': 0.000963154797841033, 'epoch': 0.9}
+2025-10-06 15:50:54 - ERROR - stderr -  15%|███████████████▋                                                                                         | 312/2088 [42:23<4:06:02,  8.31s/it]
+2025-10-06 15:51:02 - ERROR - stderr -  15%|███████████████▋                                                                                         | 313/2088 [42:31<4:04:52,  8.28s/it]
+2025-10-06 15:51:02 - ERROR - stderr - 
+2025-10-06 15:51:02 - ERROR - stderr - 
+2025-10-06 15:51:02 - INFO - stdout - {'loss': 1.3676, 'learning_rate': 0.0009628619846344453, 'epoch': 0.9}
+2025-10-06 15:51:02 - ERROR - stderr -  15%|███████████████▋                                                                                         | 313/2088 [42:31<4:04:52,  8.28s/it]
+2025-10-06 15:51:10 - ERROR - stderr -  15%|███████████████▊                                                                                         | 314/2088 [42:38<3:57:14,  8.02s/it]
+2025-10-06 15:51:10 - ERROR - stderr - 
+2025-10-06 15:51:10 - ERROR - stderr - 
+2025-10-06 15:51:10 - INFO - stdout - {'loss': 1.3792, 'learning_rate': 0.0009625680573870066, 'epoch': 0.9}
+2025-10-06 15:51:10 - ERROR - stderr -  15%|███████████████▊                                                                                         | 314/2088 [42:38<3:57:14,  8.02s/it]
+2025-10-06 15:51:18 - ERROR - stderr -  15%|███████████████▊                                                                                         | 315/2088 [42:46<3:54:56,  7.95s/it]
+2025-10-06 15:51:18 - ERROR - stderr - 
+2025-10-06 15:51:18 - ERROR - stderr - 
+2025-10-06 15:51:18 - INFO - stdout - {'loss': 1.3444, 'learning_rate': 0.0009622730168061567, 'epoch': 0.91}
+2025-10-06 15:51:18 - ERROR - stderr -  15%|███████████████▊                                                                                         | 315/2088 [42:46<3:54:56,  7.95s/it]
+2025-10-06 15:51:26 - ERROR - stderr -  15%|███████████████▉                                                                                         | 316/2088 [42:55<3:58:13,  8.07s/it]
+2025-10-06 15:51:26 - ERROR - stderr - 
+2025-10-06 15:51:26 - ERROR - stderr - 
+2025-10-06 15:51:26 - INFO - stdout - {'loss': 1.3018, 'learning_rate': 0.0009619768636020149, 'epoch': 0.91}
+2025-10-06 15:51:26 - ERROR - stderr -  15%|███████████████▉                                                                                         | 316/2088 [42:55<3:58:13,  8.07s/it]
+2025-10-06 15:51:33 - ERROR - stderr -  15%|███████████████▉                                                                                         | 317/2088 [43:02<3:52:05,  7.86s/it]
+2025-10-06 15:51:33 - ERROR - stderr - 
+2025-10-06 15:51:33 - ERROR - stderr - 
+2025-10-06 15:51:33 - INFO - stdout - {'loss': 1.3287, 'learning_rate': 0.0009616795984873785, 'epoch': 0.91}
+2025-10-06 15:51:33 - ERROR - stderr -  15%|███████████████▉                                                                                         | 317/2088 [43:02<3:52:05,  7.86s/it]
+2025-10-06 15:51:41 - ERROR - stderr -  15%|███████████████▉                                                                                         | 318/2088 [43:09<3:47:21,  7.71s/it]
+2025-10-06 15:51:41 - ERROR - stderr - 
+2025-10-06 15:51:41 - ERROR - stderr - 
+2025-10-06 15:51:41 - INFO - stdout - {'loss': 1.3368, 'learning_rate': 0.0009613812221777212, 'epoch': 0.91}
+2025-10-06 15:51:41 - ERROR - stderr -  15%|███████████████▉                                                                                         | 318/2088 [43:09<3:47:21,  7.71s/it]
+2025-10-06 15:51:48 - ERROR - stderr -  15%|████████████████                                                                                         | 319/2088 [43:17<3:43:11,  7.57s/it]
+2025-10-06 15:51:48 - ERROR - stderr - 
+2025-10-06 15:51:48 - ERROR - stderr - 
+2025-10-06 15:51:48 - INFO - stdout - {'loss': 1.3967, 'learning_rate': 0.0009610817353911907, 'epoch': 0.92}
+2025-10-06 15:51:48 - ERROR - stderr -  15%|████████████████                                                                                         | 319/2088 [43:17<3:43:11,  7.57s/it]
+2025-10-06 15:51:57 - ERROR - stderr -  15%|████████████████                                                                                         | 320/2088 [43:25<3:54:57,  7.97s/it]
+2025-10-06 15:51:57 - ERROR - stderr - 
+2025-10-06 15:51:57 - ERROR - stderr - 
+2025-10-06 15:51:57 - INFO - stdout - {'loss': 1.349, 'learning_rate': 0.000960781138848608, 'epoch': 0.92}
+2025-10-06 15:51:57 - ERROR - stderr -  15%|████████████████                                                                                         | 320/2088 [43:25<3:54:57,  7.97s/it]
+2025-10-06 15:52:06 - ERROR - stderr -  15%|████████████████▏                                                                                        | 321/2088 [43:34<4:02:41,  8.24s/it]
+2025-10-06 15:52:06 - ERROR - stderr - 
+2025-10-06 15:52:06 - ERROR - stderr - 
+2025-10-06 15:52:06 - INFO - stdout - {'loss': 1.4192, 'learning_rate': 0.0009604794332734646, 'epoch': 0.92}
+2025-10-06 15:52:06 - ERROR - stderr -  15%|████████████████▏                                                                                        | 321/2088 [43:34<4:02:41,  8.24s/it]
+2025-10-06 15:52:13 - ERROR - stderr -  15%|████████████████▏                                                                                        | 322/2088 [43:42<3:53:45,  7.94s/it]
+2025-10-06 15:52:13 - ERROR - stderr - 
+2025-10-06 15:52:13 - ERROR - stderr - 
+2025-10-06 15:52:13 - INFO - stdout - {'loss': 1.4963, 'learning_rate': 0.0009601766193919217, 'epoch': 0.93}
+2025-10-06 15:52:13 - ERROR - stderr -  15%|████████████████▏                                                                                        | 322/2088 [43:42<3:53:45,  7.94s/it]
+2025-10-06 15:52:21 - ERROR - stderr -  15%|████████████████▏                                                                                        | 323/2088 [43:49<3:50:06,  7.82s/it]
+2025-10-06 15:52:21 - ERROR - stderr - 
+2025-10-06 15:52:21 - ERROR - stderr - 
+2025-10-06 15:52:21 - INFO - stdout - {'loss': 1.3626, 'learning_rate': 0.0009598726979328079, 'epoch': 0.93}
+2025-10-06 15:52:21 - ERROR - stderr -  15%|████████████████▏                                                                                        | 323/2088 [43:49<3:50:06,  7.82s/it]
+2025-10-06 15:52:28 - ERROR - stderr -  16%|████████████████▎                                                                                        | 324/2088 [43:57<3:48:26,  7.77s/it]
+2025-10-06 15:52:28 - ERROR - stderr - 
+2025-10-06 15:52:28 - ERROR - stderr - 
+2025-10-06 15:52:28 - INFO - stdout - {'loss': 1.3039, 'learning_rate': 0.0009595676696276172, 'epoch': 0.93}
+2025-10-06 15:52:28 - ERROR - stderr -  16%|████████████████▎                                                                                        | 324/2088 [43:57<3:48:26,  7.77s/it]
+2025-10-06 15:52:36 - ERROR - stderr -  16%|████████████████▎                                                                                        | 325/2088 [44:04<3:47:25,  7.74s/it]
+2025-10-06 15:52:36 - ERROR - stderr - 
+2025-10-06 15:52:36 - ERROR - stderr - 
+2025-10-06 15:52:36 - INFO - stdout - {'loss': 1.3544, 'learning_rate': 0.0009592615352105083, 'epoch': 0.93}
+2025-10-06 15:52:36 - ERROR - stderr -  16%|████████████████▎                                                                                        | 325/2088 [44:04<3:47:25,  7.74s/it]
+2025-10-06 15:52:43 - ERROR - stderr -  16%|████████████████▍                                                                                        | 326/2088 [44:12<3:44:25,  7.64s/it]
+2025-10-06 15:52:43 - ERROR - stderr - 
+2025-10-06 15:52:43 - ERROR - stderr - 
+2025-10-06 15:52:43 - INFO - stdout - {'loss': 1.3263, 'learning_rate': 0.0009589542954183017, 'epoch': 0.94}
+2025-10-06 15:52:43 - ERROR - stderr -  16%|████████████████▍                                                                                        | 326/2088 [44:12<3:44:25,  7.64s/it]
+2025-10-06 15:52:51 - ERROR - stderr -  16%|████████████████▍                                                                                        | 327/2088 [44:19<3:43:22,  7.61s/it]
+2025-10-06 15:52:51 - ERROR - stderr - 
+2025-10-06 15:52:51 - ERROR - stderr - 
+2025-10-06 15:52:51 - INFO - stdout - {'loss': 1.3788, 'learning_rate': 0.0009586459509904786, 'epoch': 0.94}
+2025-10-06 15:52:51 - ERROR - stderr -  16%|████████████████▍                                                                                        | 327/2088 [44:19<3:43:22,  7.61s/it]
+2025-10-06 15:52:59 - ERROR - stderr -  16%|████████████████▍                                                                                        | 328/2088 [44:27<3:43:49,  7.63s/it]
+2025-10-06 15:52:59 - ERROR - stderr - 
+2025-10-06 15:52:59 - ERROR - stderr - 
+2025-10-06 15:52:59 - INFO - stdout - {'loss': 1.3109, 'learning_rate': 0.0009583365026691784, 'epoch': 0.94}
+2025-10-06 15:52:59 - ERROR - stderr -  16%|████████████████▍                                                                                        | 328/2088 [44:27<3:43:49,  7.63s/it]
+2025-10-06 15:53:06 - ERROR - stderr -  16%|████████████████▌                                                                                        | 329/2088 [44:34<3:40:08,  7.51s/it]
+2025-10-06 15:53:06 - ERROR - stderr - 
+2025-10-06 15:53:06 - ERROR - stderr - 
+2025-10-06 15:53:06 - INFO - stdout - {'loss': 1.3415, 'learning_rate': 0.0009580259511991982, 'epoch': 0.95}
+2025-10-06 15:53:06 - ERROR - stderr -  16%|████████████████▌                                                                                        | 329/2088 [44:34<3:40:08,  7.51s/it]
+2025-10-06 15:53:13 - ERROR - stderr -  16%|████████████████▌                                                                                        | 330/2088 [44:42<3:41:18,  7.55s/it]
+2025-10-06 15:53:13 - ERROR - stderr - 
+2025-10-06 15:53:13 - ERROR - stderr - 
+2025-10-06 15:53:13 - INFO - stdout - {'loss': 1.329, 'learning_rate': 0.0009577142973279895, 'epoch': 0.95}
+2025-10-06 15:53:13 - ERROR - stderr -  16%|████████████████▌                                                                                        | 330/2088 [44:42<3:41:18,  7.55s/it]
+2025-10-06 15:53:21 - ERROR - stderr -  16%|████████████████▋                                                                                        | 331/2088 [44:49<3:39:18,  7.49s/it]
+2025-10-06 15:53:21 - ERROR - stderr - 
+2025-10-06 15:53:21 - ERROR - stderr - 
+2025-10-06 15:53:21 - INFO - stdout - {'loss': 1.3532, 'learning_rate': 0.0009574015418056577, 'epoch': 0.95}
+2025-10-06 15:53:21 - ERROR - stderr -  16%|████████████████▋                                                                                        | 331/2088 [44:49<3:39:18,  7.49s/it]
+2025-10-06 15:53:28 - ERROR - stderr -  16%|████████████████▋                                                                                        | 332/2088 [44:56<3:34:57,  7.34s/it]
+2025-10-06 15:53:28 - ERROR - stderr - 
+2025-10-06 15:53:28 - ERROR - stderr - 
+2025-10-06 15:53:28 - INFO - stdout - {'loss': 1.3308, 'learning_rate': 0.0009570876853849593, 'epoch': 0.95}
+2025-10-06 15:53:28 - ERROR - stderr -  16%|████████████████▋                                                                                        | 332/2088 [44:56<3:34:57,  7.34s/it]
+2025-10-06 15:53:35 - ERROR - stderr -  16%|████████████████▋                                                                                        | 333/2088 [45:04<3:36:08,  7.39s/it]
+2025-10-06 15:53:35 - ERROR - stderr - 
+2025-10-06 15:53:35 - ERROR - stderr - 
+2025-10-06 15:53:35 - INFO - stdout - {'loss': 1.2253, 'learning_rate': 0.0009567727288213005, 'epoch': 0.96}
+2025-10-06 15:53:35 - ERROR - stderr -  16%|████████████████▋                                                                                        | 333/2088 [45:04<3:36:08,  7.39s/it]
+2025-10-06 15:53:43 - ERROR - stderr -  16%|████████████████▊                                                                                        | 334/2088 [45:11<3:35:03,  7.36s/it]
+2025-10-06 15:53:43 - ERROR - stderr - 
+2025-10-06 15:53:43 - ERROR - stderr - 
+2025-10-06 15:53:43 - INFO - stdout - {'loss': 1.3772, 'learning_rate': 0.0009564566728727357, 'epoch': 0.96}
+2025-10-06 15:53:43 - ERROR - stderr -  16%|████████████████▊                                                                                        | 334/2088 [45:11<3:35:03,  7.36s/it]
+2025-10-06 15:53:50 - ERROR - stderr -  16%|████████████████▊                                                                                        | 335/2088 [45:18<3:35:44,  7.38s/it]
+2025-10-06 15:53:50 - ERROR - stderr - 
+2025-10-06 15:53:50 - ERROR - stderr - 
+2025-10-06 15:53:50 - INFO - stdout - {'loss': 1.3524, 'learning_rate': 0.0009561395182999651, 'epoch': 0.96}
+2025-10-06 15:53:50 - ERROR - stderr -  16%|████████████████▊                                                                                        | 335/2088 [45:18<3:35:44,  7.38s/it]
+2025-10-06 15:53:57 - ERROR - stderr -  16%|████████████████▉                                                                                        | 336/2088 [45:26<3:35:59,  7.40s/it]
+2025-10-06 15:53:57 - ERROR - stderr - 
+2025-10-06 15:53:57 - ERROR - stderr - 
+2025-10-06 15:53:57 - INFO - stdout - {'loss': 1.3131, 'learning_rate': 0.000955821265866333, 'epoch': 0.97}
+2025-10-06 15:53:57 - ERROR - stderr -  16%|████████████████▉                                                                                        | 336/2088 [45:26<3:35:59,  7.40s/it]
+2025-10-06 15:54:05 - ERROR - stderr -  16%|████████████████▉                                                                                        | 337/2088 [45:34<3:37:42,  7.46s/it]
+2025-10-06 15:54:05 - ERROR - stderr - 
+2025-10-06 15:54:05 - ERROR - stderr - 
+2025-10-06 15:54:05 - INFO - stdout - {'loss': 1.3555, 'learning_rate': 0.0009555019163378267, 'epoch': 0.97}
+2025-10-06 15:54:05 - ERROR - stderr -  16%|████████████████▉                                                                                        | 337/2088 [45:34<3:37:42,  7.46s/it]
+2025-10-06 15:54:12 - ERROR - stderr -  16%|████████████████▉                                                                                        | 338/2088 [45:41<3:36:00,  7.41s/it]
+2025-10-06 15:54:12 - ERROR - stderr - 
+2025-10-06 15:54:12 - ERROR - stderr - 
+2025-10-06 15:54:12 - INFO - stdout - {'loss': 1.418, 'learning_rate': 0.0009551814704830733, 'epoch': 0.97}
+2025-10-06 15:54:12 - ERROR - stderr -  16%|████████████████▉                                                                                        | 338/2088 [45:41<3:36:00,  7.41s/it]
+2025-10-06 15:54:21 - ERROR - stderr -  16%|█████████████████                                                                                        | 339/2088 [45:50<3:50:44,  7.92s/it]
+2025-10-06 15:54:21 - ERROR - stderr - 
+2025-10-06 15:54:21 - ERROR - stderr - 
+2025-10-06 15:54:21 - INFO - stdout - {'loss': 1.3122, 'learning_rate': 0.0009548599290733392, 'epoch': 0.97}
+2025-10-06 15:54:21 - ERROR - stderr -  16%|█████████████████                                                                                        | 339/2088 [45:50<3:50:44,  7.92s/it]
+2025-10-06 15:54:29 - ERROR - stderr -  16%|█████████████████                                                                                        | 340/2088 [45:57<3:45:43,  7.75s/it]
+2025-10-06 15:54:29 - ERROR - stderr - 
+2025-10-06 15:54:29 - ERROR - stderr - 
+2025-10-06 15:54:29 - INFO - stdout - {'loss': 1.3773, 'learning_rate': 0.0009545372928825271, 'epoch': 0.98}
+2025-10-06 15:54:29 - ERROR - stderr -  16%|█████████████████                                                                                        | 340/2088 [45:57<3:45:43,  7.75s/it]
+2025-10-06 15:54:36 - ERROR - stderr -  16%|█████████████████▏                                                                                       | 341/2088 [46:04<3:41:07,  7.59s/it]
+2025-10-06 15:54:36 - ERROR - stderr - 
+2025-10-06 15:54:36 - ERROR - stderr - 
+2025-10-06 15:54:36 - INFO - stdout - {'loss': 1.3254, 'learning_rate': 0.0009542135626871752, 'epoch': 0.98}
+2025-10-06 15:54:36 - ERROR - stderr -  16%|█████████████████▏                                                                                       | 341/2088 [46:04<3:41:07,  7.59s/it]
+2025-10-06 15:54:43 - ERROR - stderr -  16%|█████████████████▏                                                                                       | 342/2088 [46:12<3:39:08,  7.53s/it]
+2025-10-06 15:54:43 - ERROR - stderr - 
+2025-10-06 15:54:43 - ERROR - stderr - 
+2025-10-06 15:54:43 - INFO - stdout - {'loss': 1.286, 'learning_rate': 0.0009538887392664543, 'epoch': 0.98}
+2025-10-06 15:54:43 - ERROR - stderr -  16%|█████████████████▏                                                                                       | 342/2088 [46:12<3:39:08,  7.53s/it]
+2025-10-06 15:54:51 - ERROR - stderr -  16%|█████████████████▏                                                                                       | 343/2088 [46:20<3:42:16,  7.64s/it]
+2025-10-06 15:54:51 - ERROR - stderr - 
+2025-10-06 15:54:51 - ERROR - stderr - 
+2025-10-06 15:54:51 - INFO - stdout - {'loss': 1.3976, 'learning_rate': 0.0009535628234021669, 'epoch': 0.99}
+2025-10-06 15:54:51 - ERROR - stderr -  16%|█████████████████▏                                                                                       | 343/2088 [46:20<3:42:16,  7.64s/it]
+2025-10-06 15:54:59 - ERROR - stderr -  16%|█████████████████▎                                                                                       | 344/2088 [46:27<3:41:02,  7.60s/it]
+2025-10-06 15:54:59 - ERROR - stderr - 
+2025-10-06 15:54:59 - ERROR - stderr - 
+2025-10-06 15:54:59 - INFO - stdout - {'loss': 1.28, 'learning_rate': 0.0009532358158787446, 'epoch': 0.99}
+2025-10-06 15:54:59 - ERROR - stderr -  16%|█████████████████▎                                                                                       | 344/2088 [46:27<3:41:02,  7.60s/it]
+2025-10-06 15:55:06 - ERROR - stderr -  17%|█████████████████▎                                                                                       | 345/2088 [46:34<3:36:21,  7.45s/it]
+2025-10-06 15:55:06 - ERROR - stderr - 
+2025-10-06 15:55:06 - ERROR - stderr - 
+2025-10-06 15:55:06 - INFO - stdout - {'loss': 1.3623, 'learning_rate': 0.0009529077174832466, 'epoch': 0.99}
+2025-10-06 15:55:06 - ERROR - stderr -  17%|█████████████████▎                                                                                       | 345/2088 [46:34<3:36:21,  7.45s/it]
+2025-10-06 15:55:13 - ERROR - stderr -  17%|█████████████████▍                                                                                       | 346/2088 [46:42<3:37:15,  7.48s/it]
+2025-10-06 15:55:13 - ERROR - stderr - 
+2025-10-06 15:55:13 - ERROR - stderr - 
+2025-10-06 15:55:13 - INFO - stdout - {'loss': 1.2996, 'learning_rate': 0.0009525785290053572, 'epoch': 0.99}
+2025-10-06 15:55:13 - ERROR - stderr -  17%|█████████████████▍                                                                                       | 346/2088 [46:42<3:37:15,  7.48s/it]
+2025-10-06 15:55:21 - ERROR - stderr -  17%|█████████████████▍                                                                                       | 347/2088 [46:50<3:39:08,  7.55s/it]
+2025-10-06 15:55:21 - ERROR - stderr - 
+2025-10-06 15:55:21 - ERROR - stderr - 
+2025-10-06 15:55:21 - INFO - stdout - {'loss': 1.3225, 'learning_rate': 0.0009522482512373851, 'epoch': 1.0}
+2025-10-06 15:55:21 - ERROR - stderr -  17%|█████████████████▍                                                                                       | 347/2088 [46:50<3:39:08,  7.55s/it]
+2025-10-06 15:55:25 - ERROR - stderr -  17%|█████████████████▌                                                                                       | 348/2088 [46:54<3:11:09,  6.59s/it]
+2025-10-06 15:55:26 - ERROR - stderr - 
+2025-10-06 15:55:26 - ERROR - stderr - 
+2025-10-06 15:55:26 - INFO - stdout - {'loss': 1.3192, 'learning_rate': 0.0009519168849742603, 'epoch': 1.0}
+2025-10-06 15:55:26 - ERROR - stderr -  17%|█████████████████▌                                                                                       | 348/2088 [46:54<3:11:09,  6.59s/it]
+2025-10-06 15:55:33 - ERROR - stderr -  17%|█████████████████▌                                                                                       | 349/2088 [47:01<3:15:01,  6.73s/it]
+2025-10-06 15:55:33 - ERROR - stderr - 
+2025-10-06 15:55:33 - ERROR - stderr - 
+2025-10-06 15:55:33 - INFO - stdout - {'loss': 1.2743, 'learning_rate': 0.0009515844310135328, 'epoch': 1.0}
+2025-10-06 15:55:33 - ERROR - stderr -  17%|█████████████████▌                                                                                       | 349/2088 [47:01<3:15:01,  6.73s/it]
+2025-10-06 15:55:40 - ERROR - stderr -  17%|█████████████████▌                                                                                       | 350/2088 [47:08<3:19:05,  6.87s/it]
+2025-10-06 15:55:40 - ERROR - stderr - 
+2025-10-06 15:55:40 - ERROR - stderr - 
+2025-10-06 15:55:40 - INFO - stdout - {'loss': 1.3478, 'learning_rate': 0.0009512508901553703, 'epoch': 1.01}
+2025-10-06 15:55:40 - ERROR - stderr -  17%|█████████████████▌                                                                                       | 350/2088 [47:08<3:19:05,  6.87s/it]
+2025-10-06 15:55:46 - ERROR - stderr -  17%|█████████████████▋                                                                                       | 351/2088 [47:15<3:17:47,  6.83s/it]
+2025-10-06 15:55:47 - ERROR - stderr - 
+2025-10-06 15:55:47 - ERROR - stderr - 
+2025-10-06 15:55:47 - INFO - stdout - {'loss': 1.3602, 'learning_rate': 0.000950916263202557, 'epoch': 1.01}
+2025-10-06 15:55:47 - ERROR - stderr -  17%|█████████████████▋                                                                                       | 351/2088 [47:15<3:17:47,  6.83s/it]
+2025-10-06 15:55:53 - ERROR - stderr -  17%|█████████████████▋                                                                                       | 352/2088 [47:22<3:18:31,  6.86s/it]
+2025-10-06 15:55:53 - ERROR - stderr - 
+2025-10-06 15:55:53 - ERROR - stderr - 
+2025-10-06 15:55:53 - INFO - stdout - {'loss': 1.2831, 'learning_rate': 0.0009505805509604906, 'epoch': 1.01}
+2025-10-06 15:55:53 - ERROR - stderr -  17%|█████████████████▋                                                                                       | 352/2088 [47:22<3:18:31,  6.86s/it]
+2025-10-06 15:56:00 - ERROR - stderr -  17%|█████████████████▊                                                                                       | 353/2088 [47:29<3:20:02,  6.92s/it]
+2025-10-06 15:56:00 - ERROR - stderr - 
+2025-10-06 15:56:00 - ERROR - stderr - 
+2025-10-06 15:56:00 - INFO - stdout - {'loss': 1.3278, 'learning_rate': 0.0009502437542371811, 'epoch': 1.01}
+2025-10-06 15:56:00 - ERROR - stderr -  17%|█████████████████▊                                                                                       | 353/2088 [47:29<3:20:02,  6.92s/it]
+2025-10-06 15:56:08 - ERROR - stderr -  17%|█████████████████▊                                                                                       | 354/2088 [47:36<3:24:46,  7.09s/it]
+2025-10-06 15:56:08 - ERROR - stderr - 
+2025-10-06 15:56:08 - ERROR - stderr - 
+2025-10-06 15:56:08 - INFO - stdout - {'loss': 1.3458, 'learning_rate': 0.0009499058738432491, 'epoch': 1.02}
+2025-10-06 15:56:08 - ERROR - stderr -  17%|█████████████████▊                                                                                       | 354/2088 [47:36<3:24:46,  7.09s/it]
+2025-10-06 15:56:15 - ERROR - stderr -  17%|█████████████████▊                                                                                       | 355/2088 [47:44<3:24:39,  7.09s/it]
+2025-10-06 15:56:15 - ERROR - stderr - 
+2025-10-06 15:56:15 - ERROR - stderr - 
+2025-10-06 15:56:15 - INFO - stdout - {'loss': 1.3307, 'learning_rate': 0.0009495669105919228, 'epoch': 1.02}
+2025-10-06 15:56:15 - ERROR - stderr -  17%|█████████████████▊                                                                                       | 355/2088 [47:44<3:24:39,  7.09s/it]
+2025-10-06 15:56:22 - ERROR - stderr -  17%|█████████████████▉                                                                                       | 356/2088 [47:51<3:25:23,  7.12s/it]
+2025-10-06 15:56:22 - ERROR - stderr - 
+2025-10-06 15:56:22 - ERROR - stderr - 
+2025-10-06 15:56:22 - INFO - stdout - {'loss': 1.2941, 'learning_rate': 0.0009492268652990372, 'epoch': 1.02}
+2025-10-06 15:56:22 - ERROR - stderr -  17%|█████████████████▉                                                                                       | 356/2088 [47:51<3:25:23,  7.12s/it]
+2025-10-06 15:56:29 - ERROR - stderr -  17%|█████████████████▉                                                                                       | 357/2088 [47:57<3:21:54,  7.00s/it]
+2025-10-06 15:56:29 - ERROR - stderr - 
+2025-10-06 15:56:29 - ERROR - stderr - 
+2025-10-06 15:56:29 - INFO - stdout - {'loss': 1.3377, 'learning_rate': 0.0009488857387830314, 'epoch': 1.03}
+2025-10-06 15:56:29 - ERROR - stderr -  17%|█████████████████▉                                                                                       | 357/2088 [47:57<3:21:54,  7.00s/it]
+2025-10-06 15:56:36 - ERROR - stderr -  17%|██████████████████                                                                                       | 358/2088 [48:05<3:25:35,  7.13s/it]
+2025-10-06 15:56:36 - ERROR - stderr - 
+2025-10-06 15:56:36 - ERROR - stderr - 
+2025-10-06 15:56:36 - INFO - stdout - {'loss': 1.3217, 'learning_rate': 0.0009485435318649467, 'epoch': 1.03}
+2025-10-06 15:56:36 - ERROR - stderr -  17%|██████████████████                                                                                       | 358/2088 [48:05<3:25:35,  7.13s/it]
+2025-10-06 15:56:44 - ERROR - stderr -  17%|██████████████████                                                                                       | 359/2088 [48:12<3:25:27,  7.13s/it]
+2025-10-06 15:56:44 - ERROR - stderr - 
+2025-10-06 15:56:44 - ERROR - stderr - 
+2025-10-06 15:56:44 - INFO - stdout - {'loss': 1.382, 'learning_rate': 0.000948200245368425, 'epoch': 1.03}
+2025-10-06 15:56:44 - ERROR - stderr -  17%|██████████████████                                                                                       | 359/2088 [48:12<3:25:27,  7.13s/it]
+2025-10-06 15:56:51 - ERROR - stderr -  17%|██████████████████                                                                                       | 360/2088 [48:19<3:25:47,  7.15s/it]
+2025-10-06 15:56:51 - ERROR - stderr - 
+2025-10-06 15:56:51 - ERROR - stderr - 
+2025-10-06 15:56:51 - INFO - stdout - {'loss': 1.2613, 'learning_rate': 0.0009478558801197064, 'epoch': 1.03}
+2025-10-06 15:56:51 - ERROR - stderr -  17%|██████████████████                                                                                       | 360/2088 [48:19<3:25:47,  7.15s/it]
+2025-10-06 15:56:58 - ERROR - stderr -  17%|██████████████████▏                                                                                      | 361/2088 [48:26<3:23:13,  7.06s/it]
+2025-10-06 15:56:58 - ERROR - stderr - 
+2025-10-06 15:56:58 - ERROR - stderr - 
+2025-10-06 15:56:58 - INFO - stdout - {'loss': 1.2744, 'learning_rate': 0.0009475104369476278, 'epoch': 1.04}
+2025-10-06 15:56:58 - ERROR - stderr -  17%|██████████████████▏                                                                                      | 361/2088 [48:26<3:23:13,  7.06s/it]
+2025-10-06 15:57:05 - ERROR - stderr -  17%|██████████████████▏                                                                                      | 362/2088 [48:33<3:22:54,  7.05s/it]
+2025-10-06 15:57:05 - ERROR - stderr - 
+2025-10-06 15:57:05 - ERROR - stderr - 
+2025-10-06 15:57:05 - INFO - stdout - {'loss': 1.3121, 'learning_rate': 0.0009471639166836199, 'epoch': 1.04}
+2025-10-06 15:57:05 - ERROR - stderr -  17%|██████████████████▏                                                                                      | 362/2088 [48:33<3:22:54,  7.05s/it]
+2025-10-06 15:57:12 - ERROR - stderr -  17%|██████████████████▎                                                                                      | 363/2088 [48:40<3:25:37,  7.15s/it]
+2025-10-06 15:57:12 - ERROR - stderr - 
+2025-10-06 15:57:12 - ERROR - stderr - 
+2025-10-06 15:57:12 - INFO - stdout - {'loss': 1.2647, 'learning_rate': 0.0009468163201617061, 'epoch': 1.04}
+2025-10-06 15:57:12 - ERROR - stderr -  17%|██████████████████▎                                                                                      | 363/2088 [48:40<3:25:37,  7.15s/it]
+2025-10-06 15:57:19 - ERROR - stderr -  17%|██████████████████▎                                                                                      | 364/2088 [48:47<3:23:53,  7.10s/it]
+2025-10-06 15:57:19 - ERROR - stderr - 
+2025-10-06 15:57:19 - ERROR - stderr - 
+2025-10-06 15:57:19 - INFO - stdout - {'loss': 1.4053, 'learning_rate': 0.0009464676482185004, 'epoch': 1.05}
+2025-10-06 15:57:19 - ERROR - stderr -  17%|██████████████████▎                                                                                      | 364/2088 [48:47<3:23:53,  7.10s/it]
+2025-10-06 15:57:26 - ERROR - stderr -  17%|██████████████████▎                                                                                      | 365/2088 [48:54<3:22:57,  7.07s/it]
+2025-10-06 15:57:26 - ERROR - stderr - 
+2025-10-06 15:57:26 - ERROR - stderr - 
+2025-10-06 15:57:26 - INFO - stdout - {'loss': 1.3187, 'learning_rate': 0.000946117901693205, 'epoch': 1.05}
+2025-10-06 15:57:26 - ERROR - stderr -  17%|██████████████████▎                                                                                      | 365/2088 [48:54<3:22:57,  7.07s/it]
+2025-10-06 15:57:33 - ERROR - stderr -  18%|██████████████████▍                                                                                      | 366/2088 [49:02<3:23:56,  7.11s/it]
+2025-10-06 15:57:33 - ERROR - stderr - 
+2025-10-06 15:57:33 - ERROR - stderr - 
+2025-10-06 15:57:33 - INFO - stdout - {'loss': 1.2807, 'learning_rate': 0.0009457670814276083, 'epoch': 1.05}
+2025-10-06 15:57:33 - ERROR - stderr -  18%|██████████████████▍                                                                                      | 366/2088 [49:02<3:23:56,  7.11s/it]
+2025-10-06 15:57:40 - ERROR - stderr -  18%|██████████████████▍                                                                                      | 367/2088 [49:09<3:24:53,  7.14s/it]
+2025-10-06 15:57:40 - ERROR - stderr - 
+2025-10-06 15:57:40 - ERROR - stderr - 
+2025-10-06 15:57:40 - INFO - stdout - {'loss': 1.2766, 'learning_rate': 0.0009454151882660831, 'epoch': 1.05}
+2025-10-06 15:57:40 - ERROR - stderr -  18%|██████████████████▍                                                                                      | 367/2088 [49:09<3:24:53,  7.14s/it]
+2025-10-06 15:57:47 - ERROR - stderr -  18%|██████████████████▌                                                                                      | 368/2088 [49:16<3:22:11,  7.05s/it]
+2025-10-06 15:57:47 - ERROR - stderr - 
+2025-10-06 15:57:47 - ERROR - stderr - 
+2025-10-06 15:57:47 - INFO - stdout - {'loss': 1.3021, 'learning_rate': 0.0009450622230555847, 'epoch': 1.06}
+2025-10-06 15:57:47 - ERROR - stderr -  18%|██████████████████▌                                                                                      | 368/2088 [49:16<3:22:11,  7.05s/it]
+2025-10-06 15:57:54 - ERROR - stderr -  18%|███████��██████████▌                                                                                      | 369/2088 [49:23<3:22:23,  7.06s/it]
+2025-10-06 15:57:54 - ERROR - stderr - 
+2025-10-06 15:57:54 - ERROR - stderr - 
+2025-10-06 15:57:54 - INFO - stdout - {'loss': 1.307, 'learning_rate': 0.0009447081866456489, 'epoch': 1.06}
+2025-10-06 15:57:54 - ERROR - stderr -  18%|██████████████████▌                                                                                      | 369/2088 [49:23<3:22:23,  7.06s/it]
+2025-10-06 15:58:02 - ERROR - stderr -  18%|██████████████████▌                                                                                      | 370/2088 [49:30<3:26:41,  7.22s/it]
+2025-10-06 15:58:02 - ERROR - stderr - 
+2025-10-06 15:58:02 - ERROR - stderr - 
+2025-10-06 15:58:02 - INFO - stdout - {'loss': 1.2801, 'learning_rate': 0.0009443530798883885, 'epoch': 1.06}
+2025-10-06 15:58:02 - ERROR - stderr -  18%|██████████████████▌                                                                                      | 370/2088 [49:30<3:26:41,  7.22s/it]
+2025-10-06 15:58:09 - ERROR - stderr -  18%|██████████████████▋                                                                                      | 371/2088 [49:37<3:25:01,  7.16s/it]
+2025-10-06 15:58:09 - ERROR - stderr - 
+2025-10-06 15:58:09 - ERROR - stderr - 
+2025-10-06 15:58:09 - INFO - stdout - {'loss': 1.2729, 'learning_rate': 0.0009439969036384943, 'epoch': 1.07}
+2025-10-06 15:58:09 - ERROR - stderr -  18%|██████████████████▋                                                                                      | 371/2088 [49:37<3:25:01,  7.16s/it]
+2025-10-06 15:58:16 - ERROR - stderr -  18%|██████████████████▋                                                                                      | 372/2088 [49:45<3:24:58,  7.17s/it]
+2025-10-06 15:58:16 - ERROR - stderr - 
+2025-10-06 15:58:16 - ERROR - stderr - 
+2025-10-06 15:58:16 - INFO - stdout - {'loss': 1.2862, 'learning_rate': 0.0009436396587532296, 'epoch': 1.07}
+2025-10-06 15:58:16 - ERROR - stderr -  18%|██████████████████▋                                                                                      | 372/2088 [49:45<3:24:58,  7.17s/it]
+2025-10-06 15:58:23 - ERROR - stderr -  18%|██████████████████▊                                                                                      | 373/2088 [49:52<3:25:31,  7.19s/it]
+2025-10-06 15:58:23 - ERROR - stderr - 
+2025-10-06 15:58:23 - ERROR - stderr - 
+2025-10-06 15:58:23 - INFO - stdout - {'loss': 1.3125, 'learning_rate': 0.0009432813460924307, 'epoch': 1.07}
+2025-10-06 15:58:23 - ERROR - stderr -  18%|██████████████████▊                                                                                      | 373/2088 [49:52<3:25:31,  7.19s/it]
+2025-10-06 15:58:30 - ERROR - stderr -  18%|██████████████████▊                                                                                      | 374/2088 [49:58<3:20:26,  7.02s/it]
+2025-10-06 15:58:30 - ERROR - stderr - 
+2025-10-06 15:58:30 - ERROR - stderr - 
+2025-10-06 15:58:30 - INFO - stdout - {'loss': 1.2449, 'learning_rate': 0.0009429219665185034, 'epoch': 1.07}
+2025-10-06 15:58:30 - ERROR - stderr -  18%|██████████████████▊                                                                                      | 374/2088 [49:58<3:20:26,  7.02s/it]
+2025-10-06 15:58:38 - ERROR - stderr -  18%|██████████████████▊                                                                                      | 375/2088 [50:06<3:26:24,  7.23s/it]
+2025-10-06 15:58:38 - ERROR - stderr - 
+2025-10-06 15:58:38 - ERROR - stderr - 
+2025-10-06 15:58:38 - INFO - stdout - {'loss': 1.1805, 'learning_rate': 0.0009425615208964217, 'epoch': 1.08}
+2025-10-06 15:58:38 - ERROR - stderr -  18%|██████████████████▊                                                                                      | 375/2088 [50:06<3:26:24,  7.23s/it]
+2025-10-06 15:58:45 - ERROR - stderr -  18%|██████████████████▉                                                                                      | 376/2088 [50:13<3:23:53,  7.15s/it]
+2025-10-06 15:58:45 - ERROR - stderr - 
+2025-10-06 15:58:45 - ERROR - stderr - 
+2025-10-06 15:58:45 - INFO - stdout - {'loss': 1.2768, 'learning_rate': 0.0009422000100937253, 'epoch': 1.08}
+2025-10-06 15:58:45 - ERROR - stderr -  18%|██████████████████▉                                                                                      | 376/2088 [50:13<3:23:53,  7.15s/it]
+2025-10-06 15:58:52 - ERROR - stderr -  18%|██████████████████▉                                                                                      | 377/2088 [50:21<3:25:57,  7.22s/it]
+2025-10-06 15:58:52 - ERROR - stderr - 
+2025-10-06 15:58:52 - ERROR - stderr - 
+2025-10-06 15:58:52 - INFO - stdout - {'loss': 1.3051, 'learning_rate': 0.0009418374349805175, 'epoch': 1.08}
+2025-10-06 15:58:52 - ERROR - stderr -  18%|██████████████████▉                                                                                      | 377/2088 [50:21<3:25:57,  7.22s/it]
+2025-10-06 15:58:59 - ERROR - stderr -  18%|███████████████████                                                                                      | 378/2088 [50:28<3:25:36,  7.21s/it]
+2025-10-06 15:58:59 - ERROR - stderr - 
+2025-10-06 15:58:59 - ERROR - stderr - 
+2025-10-06 15:58:59 - INFO - stdout - {'loss': 1.2857, 'learning_rate': 0.0009414737964294635, 'epoch': 1.09}
+2025-10-06 15:58:59 - ERROR - stderr -  18%|███████████████████                                                                                      | 378/2088 [50:28<3:25:36,  7.21s/it]
+2025-10-06 15:59:06 - ERROR - stderr -  18%|███████████████████                                                                                      | 379/2088 [50:35<3:23:13,  7.13s/it]
+2025-10-06 15:59:06 - ERROR - stderr - 
+2025-10-06 15:59:06 - ERROR - stderr - 
+2025-10-06 15:59:06 - INFO - stdout - {'loss': 1.321, 'learning_rate': 0.0009411090953157879, 'epoch': 1.09}
+2025-10-06 15:59:06 - ERROR - stderr -  18%|███████████████████                                                                                      | 379/2088 [50:35<3:23:13,  7.13s/it]
+2025-10-06 15:59:13 - ERROR - stderr -  18%|███████████████████                                                                                      | 380/2088 [50:42<3:23:58,  7.17s/it]
+2025-10-06 15:59:13 - ERROR - stderr - 
+2025-10-06 15:59:13 - ERROR - stderr - 
+2025-10-06 15:59:13 - INFO - stdout - {'loss': 1.2772, 'learning_rate': 0.0009407433325172727, 'epoch': 1.09}
+2025-10-06 15:59:13 - ERROR - stderr -  18%|███████████████████                                                                                      | 380/2088 [50:42<3:23:58,  7.17s/it]
+2025-10-06 15:59:20 - ERROR - stderr -  18%|███████████████████▏                                                                                     | 381/2088 [50:49<3:20:24,  7.04s/it]
+2025-10-06 15:59:20 - ERROR - stderr - 
+2025-10-06 15:59:20 - ERROR - stderr - 
+2025-10-06 15:59:20 - INFO - stdout - {'loss': 1.3138, 'learning_rate': 0.0009403765089142553, 'epoch': 1.09}
+2025-10-06 15:59:20 - ERROR - stderr -  18%|███████████████████▏                                                                                     | 381/2088 [50:49<3:20:24,  7.04s/it]
+2025-10-06 15:59:27 - ERROR - stderr -  18%|███████████████████▏                                                                                     | 382/2088 [50:56<3:22:18,  7.11s/it]
+2025-10-06 15:59:27 - ERROR - stderr - 
+2025-10-06 15:59:27 - ERROR - stderr - 
+2025-10-06 15:59:27 - INFO - stdout - {'loss': 1.299, 'learning_rate': 0.0009400086253896263, 'epoch': 1.1}
+2025-10-06 15:59:27 - ERROR - stderr -  18%|███████████████████▏                                                                                     | 382/2088 [50:56<3:22:18,  7.11s/it]
+2025-10-06 15:59:35 - ERROR - stderr -  18%|███████████████████▎                                                                                     | 383/2088 [51:03<3:22:06,  7.11s/it]
+2025-10-06 15:59:35 - ERROR - stderr - 
+2025-10-06 15:59:35 - ERROR - stderr - 
+2025-10-06 15:59:35 - INFO - stdout - {'loss': 1.2155, 'learning_rate': 0.0009396396828288272, 'epoch': 1.1}
+2025-10-06 15:59:35 - ERROR - stderr -  18%|███████████████████▎                                                                                     | 383/2088 [51:03<3:22:06,  7.11s/it]
+2025-10-06 15:59:41 - ERROR - stderr -  18%|███████████████████▎                                                                                     | 384/2088 [51:10<3:19:21,  7.02s/it]
+2025-10-06 15:59:41 - ERROR - stderr - 
+2025-10-06 15:59:41 - ERROR - stderr - 
+2025-10-06 15:59:41 - INFO - stdout - {'loss': 1.2683, 'learning_rate': 0.0009392696821198487, 'epoch': 1.1}
+2025-10-06 15:59:41 - ERROR - stderr -  18%|███████████████████▎                                                                                     | 384/2088 [51:10<3:19:21,  7.02s/it]
+2025-10-06 15:59:49 - ERROR - stderr -  18%|███████████████████▎                                                                                     | 385/2088 [51:17<3:22:48,  7.15s/it]
+2025-10-06 15:59:49 - ERROR - stderr - 
+2025-10-06 15:59:49 - ERROR - stderr - 
+2025-10-06 15:59:49 - INFO - stdout - {'loss': 1.3428, 'learning_rate': 0.0009388986241532282, 'epoch': 1.11}
+2025-10-06 15:59:49 - ERROR - stderr -  18%|███████████████████▎                                                                                     | 385/2088 [51:17<3:22:48,  7.15s/it]
+2025-10-06 15:59:56 - ERROR - stderr -  18%|███████████████████▍                                                                                     | 386/2088 [51:24<3:21:59,  7.12s/it]
+2025-10-06 15:59:56 - ERROR - stderr - 
+2025-10-06 15:59:56 - ERROR - stderr - 
+2025-10-06 15:59:56 - INFO - stdout - {'loss': 1.2841, 'learning_rate': 0.0009385265098220477, 'epoch': 1.11}
+2025-10-06 15:59:56 - ERROR - stderr -  18%|███████████████████▍                                                                                     | 386/2088 [51:24<3:21:59,  7.12s/it]
+2025-10-06 16:00:03 - ERROR - stderr -  19%|███████████████████▍                                                                                     | 387/2088 [51:31<3:20:10,  7.06s/it]
+2025-10-06 16:00:03 - ERROR - stderr - 
+2025-10-06 16:00:03 - ERROR - stderr - 
+2025-10-06 16:00:03 - INFO - stdout - {'loss': 1.2653, 'learning_rate': 0.0009381533400219318, 'epoch': 1.11}
+2025-10-06 16:00:03 - ERROR - stderr -  19%|███████████████████▍                                                                                     | 387/2088 [51:31<3:20:10,  7.06s/it]
+2025-10-06 16:00:10 - ERROR - stderr -  19%|███████████████████▌                                                                                     | 388/2088 [51:39<3:24:27,  7.22s/it]
+2025-10-06 16:00:10 - ERROR - stderr - 
+2025-10-06 16:00:10 - ERROR - stderr - 
+2025-10-06 16:00:10 - INFO - stdout - {'loss': 1.2746, 'learning_rate': 0.0009377791156510454, 'epoch': 1.11}
+2025-10-06 16:00:10 - ERROR - stderr -  19%|███████████████████▌                                                                                     | 388/2088 [51:39<3:24:27,  7.22s/it]
+2025-10-06 16:00:18 - ERROR - stderr -  19%|███████████████████▌                                                                                     | 389/2088 [51:46<3:23:53,  7.20s/it]
+2025-10-06 16:00:18 - ERROR - stderr - 
+2025-10-06 16:00:18 - ERROR - stderr - 
+2025-10-06 16:00:18 - INFO - stdout - {'loss': 1.2859, 'learning_rate': 0.0009374038376100917, 'epoch': 1.12}
+2025-10-06 16:00:18 - ERROR - stderr -  19%|███████████████████▌                                                                                     | 389/2088 [51:46<3:23:53,  7.20s/it]
+2025-10-06 16:00:25 - ERROR - stderr -  19%|███████████████████▌                                                                                     | 390/2088 [51:53<3:23:06,  7.18s/it]
+2025-10-06 16:00:25 - ERROR - stderr - 
+2025-10-06 16:00:25 - ERROR - stderr - 
+2025-10-06 16:00:25 - INFO - stdout - {'loss': 1.2945, 'learning_rate': 0.0009370275068023098, 'epoch': 1.12}
+2025-10-06 16:00:25 - ERROR - stderr -  19%|███████████████████▌                                                                                     | 390/2088 [51:53<3:23:06,  7.18s/it]
+2025-10-06 16:00:32 - ERROR - stderr -  19%|███████████████████▋                                                                                     | 391/2088 [52:00<3:21:12,  7.11s/it]
+2025-10-06 16:00:32 - ERROR - stderr - 
+2025-10-06 16:00:32 - ERROR - stderr - 
+2025-10-06 16:00:32 - INFO - stdout - {'loss': 1.2356, 'learning_rate': 0.0009366501241334727, 'epoch': 1.12}
+2025-10-06 16:00:32 - ERROR - stderr -  19%|███████████████████▋                                                                                     | 391/2088 [52:00<3:21:12,  7.11s/it]
+2025-10-06 16:00:39 - ERROR - stderr -  19%|███████████████████▋                                                                                     | 392/2088 [52:07<3:23:11,  7.19s/it]
+2025-10-06 16:00:39 - ERROR - stderr - 
+2025-10-06 16:00:39 - ERROR - stderr - 
+2025-10-06 16:00:39 - INFO - stdout - {'loss': 1.4164, 'learning_rate': 0.0009362716905118851, 'epoch': 1.13}
+2025-10-06 16:00:39 - ERROR - stderr -  19%|███████████████████▋                                                                                     | 392/2088 [52:07<3:23:11,  7.19s/it]
+2025-10-06 16:00:46 - ERROR - stderr -  19%|███████████████████▊                                                                                     | 393/2088 [52:15<3:23:20,  7.20s/it]
+2025-10-06 16:00:46 - ERROR - stderr - 
+2025-10-06 16:00:46 - ERROR - stderr - 
+2025-10-06 16:00:46 - INFO - stdout - {'loss': 1.2241, 'learning_rate': 0.0009358922068483812, 'epoch': 1.13}
+2025-10-06 16:00:46 - ERROR - stderr -  19%|███████████████████▊                                                                                     | 393/2088 [52:15<3:23:20,  7.20s/it]
+2025-10-06 16:00:53 - ERROR - stderr -  19%|███████████████████▊                                                                                     | 394/2088 [52:22<3:23:56,  7.22s/it]
+2025-10-06 16:00:53 - ERROR - stderr - 
+2025-10-06 16:00:53 - ERROR - stderr - 
+2025-10-06 16:00:53 - INFO - stdout - {'loss': 1.3404, 'learning_rate': 0.0009355116740563225, 'epoch': 1.13}
+2025-10-06 16:00:53 - ERROR - stderr -  19%|███████████████████▊                                                                                     | 394/2088 [52:22<3:23:56,  7.22s/it]
+2025-10-06 16:01:00 - ERROR - stderr -  19%|███████████████████▊                                                                                     | 395/2088 [52:29<3:21:37,  7.15s/it]
+2025-10-06 16:01:00 - ERROR - stderr - 
+2025-10-06 16:01:00 - ERROR - stderr - 
+2025-10-06 16:01:00 - INFO - stdout - {'loss': 1.2394, 'learning_rate': 0.0009351300930515953, 'epoch': 1.14}
+2025-10-06 16:01:00 - ERROR - stderr -  19%|███████████████████▊                                                                                     | 395/2088 [52:29<3:21:37,  7.15s/it]
+2025-10-06 16:01:08 - ERROR - stderr -  19%|███████████████████▉                                                                                     | 396/2088 [52:36<3:21:06,  7.13s/it]
+2025-10-06 16:01:08 - ERROR - stderr - 
+2025-10-06 16:01:08 - ERROR - stderr - 
+2025-10-06 16:01:08 - INFO - stdout - {'loss': 1.2378, 'learning_rate': 0.0009347474647526095, 'epoch': 1.14}
+2025-10-06 16:01:08 - ERROR - stderr -  19%|███████████████████▉                                                                                     | 396/2088 [52:36<3:21:06,  7.13s/it]
+2025-10-06 16:01:15 - ERROR - stderr -  19%|███████████████████▉                                                                                     | 397/2088 [52:43<3:20:31,  7.11s/it]
+2025-10-06 16:01:15 - ERROR - stderr - 
+2025-10-06 16:01:15 - ERROR - stderr - 
+2025-10-06 16:01:15 - INFO - stdout - {'loss': 1.313, 'learning_rate': 0.000934363790080295, 'epoch': 1.14}
+2025-10-06 16:01:15 - ERROR - stderr -  19%|███████████████████▉                                                                                     | 397/2088 [52:43<3:20:31,  7.11s/it]
+2025-10-06 16:01:22 - ERROR - stderr -  19%|████████████████████                                                                                     | 398/2088 [52:50<3:19:56,  7.10s/it]
+2025-10-06 16:01:22 - ERROR - stderr - 
+2025-10-06 16:01:22 - ERROR - stderr - 
+2025-10-06 16:01:22 - INFO - stdout - {'loss': 1.3382, 'learning_rate': 0.0009339790699581003, 'epoch': 1.14}
+2025-10-06 16:01:22 - ERROR - stderr -  19%|████████████████████                                                                                     | 398/2088 [52:50<3:19:56,  7.10s/it]
+2025-10-06 16:01:28 - ERROR - stderr -  19%|████████████████████                                                                                     | 399/2088 [52:57<3:17:27,  7.01s/it]
+2025-10-06 16:01:29 - ERROR - stderr - 
+2025-10-06 16:01:29 - ERROR - stderr - 
+2025-10-06 16:01:29 - INFO - stdout - {'loss': 1.3432, 'learning_rate': 0.0009335933053119906, 'epoch': 1.15}
+2025-10-06 16:01:29 - ERROR - stderr -  19%|████████████████████                                                                                     | 399/2088 [52:57<3:17:27,  7.01s/it]
+2025-10-06 16:01:35 - ERROR - stderr -  19%|████████████████████                                                                                     | 400/2088 [53:04<3:16:30,  6.98s/it]
+2025-10-06 16:01:35 - ERROR - stderr - 
+2025-10-06 16:01:35 - ERROR - stderr - 
+2025-10-06 16:01:35 - INFO - stdout - {'loss': 1.26, 'learning_rate': 0.0009332064970704445, 'epoch': 1.15}
+2025-10-06 16:01:35 - ERROR - stderr -  19%|████████████████████                                                                                     | 400/2088 [53:04<3:16:30,  6.98s/it]
+2025-10-06 16:01:36 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400
+2025-10-06 16:01:36 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400
+2025-10-06 16:01:36 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/config.json
+2025-10-06 16:01:36 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/config.json
+2025-10-06 16:01:36 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/generation_config.json
+2025-10-06 16:01:36 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/generation_config.json
+2025-10-06 16:02:16 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/pytorch_model.bin.index.json.
+2025-10-06 16:02:16 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/pytorch_model.bin.index.json.
+2025-10-06 16:02:16 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/tokenizer_config.json
+2025-10-06 16:02:16 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/tokenizer_config.json
+2025-10-06 16:02:16 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/special_tokens_map.json
+2025-10-06 16:02:16 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/special_tokens_map.json
+2025-10-06 16:02:16 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/added_tokens.json
+2025-10-06 16:02:16 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400/added_tokens.json
+2025-10-06 16:02:20 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 16:02:20 - ERROR - stderr -   warnings.warn(
+2025-10-06 16:02:24 - ERROR - stderr -  19%|████████████████████▏                                                                                    | 401/2088 [53:53<9:08:44, 19.52s/it]
+2025-10-06 16:02:24 - ERROR - stderr - 
+2025-10-06 16:02:24 - ERROR - stderr - 
+2025-10-06 16:02:24 - INFO - stdout - {'loss': 1.2849, 'learning_rate': 0.0009328186461644528, 'epoch': 1.15}
+2025-10-06 16:02:24 - ERROR - stderr -  19%|████████████████████▏                                                                                    | 401/2088 [53:53<9:08:44, 19.52s/it]
+2025-10-06 16:02:31 - ERROR - stderr -  19%|████████████████████▏                                                                                    | 402/2088 [54:00<7:21:49, 15.72s/it]
+2025-10-06 16:02:31 - ERROR - stderr - 
+2025-10-06 16:02:31 - ERROR - stderr - 
+2025-10-06 16:02:31 - INFO - stdout - {'loss': 1.3198, 'learning_rate': 0.0009324297535275155, 'epoch': 1.16}
+2025-10-06 16:02:31 - ERROR - stderr -  19%|████████████████████▏                                                                                    | 402/2088 [54:00<7:21:49, 15.72s/it]
+2025-10-06 16:02:38 - ERROR - stderr -  19%|████████████████████▎                                                                                    | 403/2088 [54:06<6:06:33, 13.05s/it]
+2025-10-06 16:02:38 - ERROR - stderr - 
+2025-10-06 16:02:38 - ERROR - stderr - 
+2025-10-06 16:02:38 - INFO - stdout - {'loss': 1.2924, 'learning_rate': 0.0009320398200956402, 'epoch': 1.16}
+2025-10-06 16:02:38 - ERROR - stderr -  19%|████████████████████▎                                                                                    | 403/2088 [54:06<6:06:33, 13.05s/it]
+2025-10-06 16:02:45 - ERROR - stderr -  19%|████████████████████▎                                                                                    | 404/2088 [54:14<5:18:53, 11.36s/it]
+2025-10-06 16:02:45 - ERROR - stderr - 
+2025-10-06 16:02:45 - ERROR - stderr - 
+2025-10-06 16:02:45 - INFO - stdout - {'loss': 1.3357, 'learning_rate': 0.0009316488468073396, 'epoch': 1.16}
+2025-10-06 16:02:45 - ERROR - stderr -  19%|████████████████████▎                                                                                    | 404/2088 [54:14<5:18:53, 11.36s/it]
+2025-10-06 16:02:52 - ERROR - stderr -  19%|████████████████████▎                                                                                    | 405/2088 [54:21<4:42:07, 10.06s/it]
+2025-10-06 16:02:52 - ERROR - stderr - 
+2025-10-06 16:02:52 - ERROR - stderr - 
+2025-10-06 16:02:52 - INFO - stdout - {'loss': 1.2649, 'learning_rate': 0.0009312568346036287, 'epoch': 1.16}
+2025-10-06 16:02:52 - ERROR - stderr -  19%|████████████████████▎                                                                                    | 405/2088 [54:21<4:42:07, 10.06s/it]
+2025-10-06 16:02:59 - ERROR - stderr -  19%|████████████████████▍                                                                                    | 406/2088 [54:28<4:15:39,  9.12s/it]
+2025-10-06 16:02:59 - ERROR - stderr - 
+2025-10-06 16:02:59 - ERROR - stderr - 
+2025-10-06 16:02:59 - INFO - stdout - {'loss': 1.3008, 'learning_rate': 0.0009308637844280237, 'epoch': 1.17}
+2025-10-06 16:02:59 - ERROR - stderr -  19%|████████████████████▍                                                                                    | 406/2088 [54:28<4:15:39,  9.12s/it]
+2025-10-06 16:03:07 - ERROR - stderr -  19%|████████████████████▍                                                                                    | 407/2088 [54:35<4:00:12,  8.57s/it]
+2025-10-06 16:03:07 - ERROR - stderr - 
+2025-10-06 16:03:07 - ERROR - stderr - 
+2025-10-06 16:03:07 - INFO - stdout - {'loss': 1.2861, 'learning_rate': 0.0009304696972265383, 'epoch': 1.17}
+2025-10-06 16:03:07 - ERROR - stderr -  19%|████████████████████▍                                                                                    | 407/2088 [54:35<4:00:12,  8.57s/it]
+2025-10-06 16:03:14 - ERROR - stderr -  20%|████████████████████▌                                                                                    | 408/2088 [54:42<3:46:43,  8.10s/it]
+2025-10-06 16:03:14 - ERROR - stderr - 
+2025-10-06 16:03:14 - ERROR - stderr - 
+2025-10-06 16:03:14 - INFO - stdout - {'loss': 1.323, 'learning_rate': 0.0009300745739476828, 'epoch': 1.17}
+2025-10-06 16:03:14 - ERROR - stderr -  20%|████████████████████▌                                                                                    | 408/2088 [54:42<3:46:43,  8.10s/it]
+2025-10-06 16:03:21 - ERROR - stderr -  20%|████████████████████▌                                                                                    | 409/2088 [54:49<3:38:57,  7.82s/it]
+2025-10-06 16:03:21 - ERROR - stderr - 
+2025-10-06 16:03:21 - ERROR - stderr - 
+2025-10-06 16:03:21 - INFO - stdout - {'loss': 1.3812, 'learning_rate': 0.0009296784155424607, 'epoch': 1.18}
+2025-10-06 16:03:21 - ERROR - stderr -  20%|████████████████████▌                                                                                    | 409/2088 [54:49<3:38:57,  7.82s/it]
+2025-10-06 16:03:28 - ERROR - stderr -  20%|████████████████████▌                                                                                    | 410/2088 [54:56<3:34:25,  7.67s/it]
+2025-10-06 16:03:28 - ERROR - stderr - 
+2025-10-06 16:03:28 - ERROR - stderr - 
+2025-10-06 16:03:28 - INFO - stdout - {'loss': 1.3196, 'learning_rate': 0.0009292812229643674, 'epoch': 1.18}
+2025-10-06 16:03:28 - ERROR - stderr -  20%|████████████████████▌                                                                                    | 410/2088 [54:57<3:34:25,  7.67s/it]
+2025-10-06 16:03:35 - ERROR - stderr -  20%|████████████████████▋                                                                                    | 411/2088 [55:03<3:27:53,  7.44s/it]
+2025-10-06 16:03:35 - ERROR - stderr - 
+2025-10-06 16:03:35 - ERROR - stderr - 
+2025-10-06 16:03:35 - INFO - stdout - {'loss': 1.2383, 'learning_rate': 0.0009288829971693868, 'epoch': 1.18}
+2025-10-06 16:03:35 - ERROR - stderr -  20%|████████████████████▋                                                                                    | 411/2088 [55:03<3:27:53,  7.44s/it]
+2025-10-06 16:03:42 - ERROR - stderr -  20%|████████████████████▋                                                                                    | 412/2088 [55:11<3:25:22,  7.35s/it]
+2025-10-06 16:03:42 - ERROR - stderr - 
+2025-10-06 16:03:42 - ERROR - stderr - 
+2025-10-06 16:03:42 - INFO - stdout - {'loss': 1.2932, 'learning_rate': 0.0009284837391159903, 'epoch': 1.18}
+2025-10-06 16:03:42 - ERROR - stderr -  20%|████████████████████▋                                                                                    | 412/2088 [55:11<3:25:22,  7.35s/it]
+2025-10-06 16:03:49 - ERROR - stderr -  20%|████████████████████▊                                                                                    | 413/2088 [55:18<3:23:35,  7.29s/it]
+2025-10-06 16:03:49 - ERROR - stderr - 
+2025-10-06 16:03:49 - ERROR - stderr - 
+2025-10-06 16:03:49 - INFO - stdout - {'loss': 1.3129, 'learning_rate': 0.0009280834497651332, 'epoch': 1.19}
+2025-10-06 16:03:49 - ERROR - stderr -  20%|████████████████████▊                                                                                    | 413/2088 [55:18<3:23:35,  7.29s/it]
+2025-10-06 16:03:57 - ERROR - stderr -  20%|████████████████████▊                                                                                    | 414/2088 [55:25<3:23:57,  7.31s/it]
+2025-10-06 16:03:57 - ERROR - stderr - 
+2025-10-06 16:03:57 - ERROR - stderr - 
+2025-10-06 16:03:57 - INFO - stdout - {'loss': 1.2712, 'learning_rate': 0.0009276821300802534, 'epoch': 1.19}
+2025-10-06 16:03:57 - ERROR - stderr -  20%|████████████████████▊                                                                                    | 414/2088 [55:25<3:23:57,  7.31s/it]
+2025-10-06 16:04:04 - ERROR - stderr -  20%|████████████████████▊                                                                                    | 415/2088 [55:32<3:20:55,  7.21s/it]
+2025-10-06 16:04:04 - ERROR - stderr - 
+2025-10-06 16:04:04 - ERROR - stderr - 
+2025-10-06 16:04:04 - INFO - stdout - {'loss': 1.3371, 'learning_rate': 0.0009272797810272682, 'epoch': 1.19}
+2025-10-06 16:04:04 - ERROR - stderr -  20%|████████████████████▊                                                                                    | 415/2088 [55:32<3:20:55,  7.21s/it]
+2025-10-06 16:04:11 - ERROR - stderr -  20%|████████████████████▉                                                                                    | 416/2088 [55:39<3:19:08,  7.15s/it]
+2025-10-06 16:04:11 - ERROR - stderr - 
+2025-10-06 16:04:11 - ERROR - stderr - 
+2025-10-06 16:04:11 - INFO - stdout - {'loss': 1.2658, 'learning_rate': 0.0009268764035745727, 'epoch': 1.2}
+2025-10-06 16:04:11 - ERROR - stderr -  20%|████████████████████▉                                                                                    | 416/2088 [55:39<3:19:08,  7.15s/it]
+2025-10-06 16:04:17 - ERROR - stderr -  20%|████████████████████▉                                                                                    | 417/2088 [55:46<3:17:18,  7.08s/it]
+2025-10-06 16:04:17 - ERROR - stderr - 
+2025-10-06 16:04:17 - ERROR - stderr - 
+2025-10-06 16:04:17 - INFO - stdout - {'loss': 1.2297, 'learning_rate': 0.0009264719986930376, 'epoch': 1.2}
+2025-10-06 16:04:17 - ERROR - stderr -  20%|████████████████████▉                                                                                    | 417/2088 [55:46<3:17:18,  7.08s/it]
+2025-10-06 16:04:25 - ERROR - stderr -  20%|█████████████████████                                                                                    | 418/2088 [55:53<3:17:33,  7.10s/it]
+2025-10-06 16:04:25 - ERROR - stderr - 
+2025-10-06 16:04:25 - ERROR - stderr - 
+2025-10-06 16:04:25 - INFO - stdout - {'loss': 1.3327, 'learning_rate': 0.0009260665673560057, 'epoch': 1.2}
+2025-10-06 16:04:25 - ERROR - stderr -  20%|█████████████████████                                                                                    | 418/2088 [55:53<3:17:33,  7.10s/it]
+2025-10-06 16:04:32 - ERROR - stderr -  20%|█████████████████████                                                                                    | 419/2088 [56:00<3:17:10,  7.09s/it]
+2025-10-06 16:04:32 - ERROR - stderr - 
+2025-10-06 16:04:32 - ERROR - stderr - 
+2025-10-06 16:04:32 - INFO - stdout - {'loss': 1.3486, 'learning_rate': 0.0009256601105392907, 'epoch': 1.2}
+2025-10-06 16:04:32 - ERROR - stderr -  20%|█████████████████████                                                                                    | 419/2088 [56:00<3:17:10,  7.09s/it]
+2025-10-06 16:04:39 - ERROR - stderr -  20%|█████████████████████                                                                                    | 420/2088 [56:07<3:17:28,  7.10s/it]
+2025-10-06 16:04:39 - ERROR - stderr - 
+2025-10-06 16:04:39 - ERROR - stderr - 
+2025-10-06 16:04:39 - INFO - stdout - {'loss': 1.3231, 'learning_rate': 0.0009252526292211749, 'epoch': 1.21}
+2025-10-06 16:04:39 - ERROR - stderr -  20%|█████████████████████                                                                                    | 420/2088 [56:07<3:17:28,  7.10s/it]
+2025-10-06 16:04:46 - ERROR - stderr -  20%|█████████████████████▏                                                                                   | 421/2088 [56:14<3:18:08,  7.13s/it]
+2025-10-06 16:04:46 - ERROR - stderr - 
+2025-10-06 16:04:46 - ERROR - stderr - 
+2025-10-06 16:04:46 - INFO - stdout - {'loss': 1.2676, 'learning_rate': 0.0009248441243824057, 'epoch': 1.21}
+2025-10-06 16:04:46 - ERROR - stderr -  20%|█████████████████████▏                                                                                   | 421/2088 [56:15<3:18:08,  7.13s/it]
+2025-10-06 16:04:53 - ERROR - stderr -  20%|█████████████████████▏                                                                                   | 422/2088 [56:21<3:14:44,  7.01s/it]
+2025-10-06 16:04:53 - ERROR - stderr - 
+2025-10-06 16:04:53 - ERROR - stderr - 
+2025-10-06 16:04:53 - INFO - stdout - {'loss': 1.3881, 'learning_rate': 0.0009244345970061943, 'epoch': 1.21}
+2025-10-06 16:04:53 - ERROR - stderr -  20%|█████████████████████▏                                                                                   | 422/2088 [56:21<3:14:44,  7.01s/it]
+2025-10-06 16:05:00 - ERROR - stderr -  20%|█████████████████████▎                                                                                   | 423/2088 [56:28<3:15:14,  7.04s/it]
+2025-10-06 16:05:00 - ERROR - stderr - 
+2025-10-06 16:05:00 - ERROR - stderr - 
+2025-10-06 16:05:00 - INFO - stdout - {'loss': 1.3203, 'learning_rate': 0.0009240240480782129, 'epoch': 1.22}
+2025-10-06 16:05:00 - ERROR - stderr -  20%|█████████████████████▎                                                                                   | 423/2088 [56:28<3:15:14,  7.04s/it]
+2025-10-06 16:05:07 - ERROR - stderr -  20%|█████████████████████▎                                                                                   | 424/2088 [56:35<3:14:48,  7.02s/it]
+2025-10-06 16:05:07 - ERROR - stderr - 
+2025-10-06 16:05:07 - ERROR - stderr - 
+2025-10-06 16:05:07 - INFO - stdout - {'loss': 1.307, 'learning_rate': 0.000923612478586593, 'epoch': 1.22}
+2025-10-06 16:05:07 - ERROR - stderr -  20%|█████████████████████▎                                                                                   | 424/2088 [56:35<3:14:48,  7.02s/it]
+2025-10-06 16:05:14 - ERROR - stderr -  20%|█████████████████████▎                                                                                   | 425/2088 [56:43<3:16:35,  7.09s/it]
+2025-10-06 16:05:14 - ERROR - stderr - 
+2025-10-06 16:05:14 - ERROR - stderr - 
+2025-10-06 16:05:14 - INFO - stdout - {'loss': 1.2146, 'learning_rate': 0.0009231998895219212, 'epoch': 1.22}
+2025-10-06 16:05:14 - ERROR - stderr -  20%|█████████████████████▎                                                                                   | 425/2088 [56:43<3:16:35,  7.09s/it]
+2025-10-06 16:05:21 - ERROR - stderr -  20%|█████████████████████▍                                                                                   | 426/2088 [56:50<3:18:24,  7.16s/it]
+2025-10-06 16:05:21 - ERROR - stderr - 
+2025-10-06 16:05:21 - ERROR - stderr - 
+2025-10-06 16:05:21 - INFO - stdout - {'loss': 1.305, 'learning_rate': 0.0009227862818772392, 'epoch': 1.22}
+2025-10-06 16:05:21 - ERROR - stderr -  20%|█████████████████████▍                                                                                   | 426/2088 [56:50<3:18:24,  7.16s/it]
+2025-10-06 16:05:28 - ERROR - stderr -  20%|█████████████████████▍                                                                                   | 427/2088 [56:57<3:16:46,  7.11s/it]
+2025-10-06 16:05:28 - ERROR - stderr - 
+2025-10-06 16:05:28 - ERROR - stderr - 
+2025-10-06 16:05:28 - INFO - stdout - {'loss': 1.343, 'learning_rate': 0.0009223716566480399, 'epoch': 1.23}
+2025-10-06 16:05:28 - ERROR - stderr -  20%|█████████████████████▍                                                                                   | 427/2088 [56:57<3:16:46,  7.11s/it]
+2025-10-06 16:05:36 - ERROR - stderr -  20%|█████████████████████▌                                                                                   | 428/2088 [57:04<3:18:40,  7.18s/it]
+2025-10-06 16:05:36 - ERROR - stderr - 
+2025-10-06 16:05:36 - ERROR - stderr - 
+2025-10-06 16:05:36 - INFO - stdout - {'loss': 1.3237, 'learning_rate': 0.0009219560148322654, 'epoch': 1.23}
+2025-10-06 16:05:36 - ERROR - stderr -  20%|█████████████████████▌                                                                                   | 428/2088 [57:04<3:18:40,  7.18s/it]
+2025-10-06 16:05:43 - ERROR - stderr -  21%|█████████████████████▌                                                                                   | 429/2088 [57:11<3:17:37,  7.15s/it]
+2025-10-06 16:05:43 - ERROR - stderr - 
+2025-10-06 16:05:43 - ERROR - stderr - 
+2025-10-06 16:05:43 - INFO - stdout - {'loss': 1.3399, 'learning_rate': 0.0009215393574303044, 'epoch': 1.23}
+2025-10-06 16:05:43 - ERROR - stderr -  21%|█████████████████████▌                                                                                   | 429/2088 [57:11<3:17:37,  7.15s/it]
+2025-10-06 16:05:50 - ERROR - stderr -  21%|█████████████████████▌                                                                                   | 430/2088 [57:18<3:15:54,  7.09s/it]
+2025-10-06 16:05:50 - ERROR - stderr - 
+2025-10-06 16:05:50 - ERROR - stderr - 
+2025-10-06 16:05:50 - INFO - stdout - {'loss': 1.3032, 'learning_rate': 0.0009211216854449902, 'epoch': 1.24}
+2025-10-06 16:05:50 - ERROR - stderr -  21%|█████████████████████▌                                                                                   | 430/2088 [57:18<3:15:54,  7.09s/it]
+2025-10-06 16:05:57 - ERROR - stderr -  21%|█████████████████████▋                                                                                   | 431/2088 [57:25<3:15:35,  7.08s/it]
+2025-10-06 16:05:57 - ERROR - stderr - 
+2025-10-06 16:05:57 - ERROR - stderr - 
+2025-10-06 16:05:57 - INFO - stdout - {'loss': 1.2397, 'learning_rate': 0.0009207029998815979, 'epoch': 1.24}
+2025-10-06 16:05:57 - ERROR - stderr -  21%|█████████████████████▋                                                                                   | 431/2088 [57:25<3:15:35,  7.08s/it]
+2025-10-06 16:06:04 - ERROR - stderr -  21%|█████████████████████▋                                                                                   | 432/2088 [57:32<3:15:42,  7.09s/it]
+2025-10-06 16:06:04 - ERROR - stderr - 
+2025-10-06 16:06:04 - ERROR - stderr - 
+2025-10-06 16:06:04 - INFO - stdout - {'loss': 1.3672, 'learning_rate': 0.0009202833017478421, 'epoch': 1.24}
+2025-10-06 16:06:04 - ERROR - stderr -  21%|█████████████████████▋                                                                                   | 432/2088 [57:32<3:15:42,  7.09s/it]
+2025-10-06 16:06:11 - ERROR - stderr -  21%|█████████████████████▊                                                                                   | 433/2088 [57:39<3:13:13,  7.01s/it]
+2025-10-06 16:06:11 - ERROR - stderr - 
+2025-10-06 16:06:11 - ERROR - stderr - 
+2025-10-06 16:06:11 - INFO - stdout - {'loss': 1.3244, 'learning_rate': 0.0009198625920538749, 'epoch': 1.24}
+2025-10-06 16:06:11 - ERROR - stderr -  21%|█████████████████████▊                                                                                   | 433/2088 [57:39<3:13:13,  7.01s/it]
+2025-10-06 16:06:18 - ERROR - stderr -  21%|█████████████████████▊                                                                                   | 434/2088 [57:46<3:12:13,  6.97s/it]
+2025-10-06 16:06:18 - ERROR - stderr - 
+2025-10-06 16:06:18 - ERROR - stderr - 
+2025-10-06 16:06:18 - INFO - stdout - {'loss': 1.408, 'learning_rate': 0.0009194408718122824, 'epoch': 1.25}
+2025-10-06 16:06:18 - ERROR - stderr -  21%|█████████████████████▊                                                                                   | 434/2088 [57:46<3:12:13,  6.97s/it]
+2025-10-06 16:06:24 - ERROR - stderr -  21%|█████████████████████▉                                                                                   | 435/2088 [57:53<3:10:43,  6.92s/it]
+2025-10-06 16:06:24 - ERROR - stderr - 
+2025-10-06 16:06:24 - ERROR - stderr - 
+2025-10-06 16:06:24 - INFO - stdout - {'loss': 1.3506, 'learning_rate': 0.0009190181420380836, 'epoch': 1.25}
+2025-10-06 16:06:24 - ERROR - stderr -  21%|█████████████████████▉                                                                                   | 435/2088 [57:53<3:10:43,  6.92s/it]
+2025-10-06 16:06:31 - ERROR - stderr -  21%|█████████████████████▉                                                                                   | 436/2088 [58:00<3:11:43,  6.96s/it]
+2025-10-06 16:06:32 - ERROR - stderr - 
+2025-10-06 16:06:32 - ERROR - stderr - 
+2025-10-06 16:06:32 - INFO - stdout - {'loss': 1.3678, 'learning_rate': 0.0009185944037487271, 'epoch': 1.25}
+2025-10-06 16:06:32 - ERROR - stderr -  21%|█████████████████████▉                                                                                   | 436/2088 [58:00<3:11:43,  6.96s/it]
+2025-10-06 16:06:38 - ERROR - stderr -  21%|█████████████████████▉                                                                                   | 437/2088 [58:07<3:10:53,  6.94s/it]
+2025-10-06 16:06:38 - ERROR - stderr - 
+2025-10-06 16:06:38 - ERROR - stderr - 
+2025-10-06 16:06:38 - INFO - stdout - {'loss': 1.3023, 'learning_rate': 0.0009181696579640882, 'epoch': 1.26}
+2025-10-06 16:06:38 - ERROR - stderr -  21%|█████████████████████▉                                                                                   | 437/2088 [58:07<3:10:53,  6.94s/it]
+2025-10-06 16:06:45 - ERROR - stderr -  21%|██████████████████████                                                                                   | 438/2088 [58:14<3:11:17,  6.96s/it]
+2025-10-06 16:06:45 - ERROR - stderr - 
+2025-10-06 16:06:45 - ERROR - stderr - 
+2025-10-06 16:06:45 - INFO - stdout - {'loss': 1.2523, 'learning_rate': 0.0009177439057064682, 'epoch': 1.26}
+2025-10-06 16:06:45 - ERROR - stderr -  21%|██████████████████████                                                                                   | 438/2088 [58:14<3:11:17,  6.96s/it]
+2025-10-06 16:06:53 - ERROR - stderr -  21%|██████████████████████                                                                                   | 439/2088 [58:21<3:15:38,  7.12s/it]
+2025-10-06 16:06:53 - ERROR - stderr - 
+2025-10-06 16:06:53 - ERROR - stderr - 
+2025-10-06 16:06:53 - INFO - stdout - {'loss': 1.2705, 'learning_rate': 0.0009173171480005901, 'epoch': 1.26}
+2025-10-06 16:06:53 - ERROR - stderr -  21%|██████████████████████                                                                                   | 439/2088 [58:21<3:15:38,  7.12s/it]
+2025-10-06 16:07:00 - ERROR - stderr -  21%|██████████████████████▏                                                                                  | 440/2088 [58:28<3:15:00,  7.10s/it]
+2025-10-06 16:07:00 - ERROR - stderr - 
+2025-10-06 16:07:00 - ERROR - stderr - 
+2025-10-06 16:07:00 - INFO - stdout - {'loss': 1.2803, 'learning_rate': 0.0009168893858735971, 'epoch': 1.26}
+2025-10-06 16:07:00 - ERROR - stderr -  21%|██████████████████████▏                                                                                  | 440/2088 [58:28<3:15:00,  7.10s/it]
+2025-10-06 16:07:07 - ERROR - stderr -  21%|██████████████████████▏                                                                                  | 441/2088 [58:35<3:12:24,  7.01s/it]
+2025-10-06 16:07:07 - ERROR - stderr - 
+2025-10-06 16:07:07 - ERROR - stderr - 
+2025-10-06 16:07:07 - INFO - stdout - {'loss': 1.2583, 'learning_rate': 0.0009164606203550497, 'epoch': 1.27}
+2025-10-06 16:07:07 - ERROR - stderr -  21%|██████████████████████▏                                                                                  | 441/2088 [58:35<3:12:24,  7.01s/it]
+2025-10-06 16:07:14 - ERROR - stderr -  21%|██████████████████████▏                                                                                  | 442/2088 [58:42<3:11:15,  6.97s/it]
+2025-10-06 16:07:14 - ERROR - stderr - 
+2025-10-06 16:07:14 - ERROR - stderr - 
+2025-10-06 16:07:14 - INFO - stdout - {'loss': 1.2564, 'learning_rate': 0.0009160308524769239, 'epoch': 1.27}
+2025-10-06 16:07:14 - ERROR - stderr -  21%|██████████████████████▏                                                                                  | 442/2088 [58:42<3:11:15,  6.97s/it]
+2025-10-06 16:07:21 - ERROR - stderr -  21%|██████████████████████▎                                                                                  | 443/2088 [58:49<3:11:59,  7.00s/it]
+2025-10-06 16:07:21 - ERROR - stderr - 
+2025-10-06 16:07:21 - ERROR - stderr - 
+2025-10-06 16:07:21 - INFO - stdout - {'loss': 1.3196, 'learning_rate': 0.0009156000832736073, 'epoch': 1.27}
+2025-10-06 16:07:21 - ERROR - stderr -  21%|██████████████████████▎                                                                                  | 443/2088 [58:49<3:11:59,  7.00s/it]
+2025-10-06 16:07:28 - ERROR - stderr -  21%|██████████████████████▎                                                                                  | 444/2088 [58:56<3:11:05,  6.97s/it]
+2025-10-06 16:07:28 - ERROR - stderr - 
+2025-10-06 16:07:28 - ERROR - stderr - 
+2025-10-06 16:07:28 - INFO - stdout - {'loss': 1.3278, 'learning_rate': 0.0009151683137818989, 'epoch': 1.28}
+2025-10-06 16:07:28 - ERROR - stderr -  21%|██████████████████████▎                                                                                  | 444/2088 [58:56<3:11:05,  6.97s/it]
+2025-10-06 16:07:34 - ERROR - stderr -  21%|██████████████████████▍                                                                                  | 445/2088 [59:03<3:09:41,  6.93s/it]
+2025-10-06 16:07:34 - ERROR - stderr - 
+2025-10-06 16:07:34 - ERROR - stderr - 
+2025-10-06 16:07:34 - INFO - stdout - {'loss': 1.3261, 'learning_rate': 0.0009147355450410037, 'epoch': 1.28}
+2025-10-06 16:07:34 - ERROR - stderr -  21%|██████████████████████▍                                                                                  | 445/2088 [59:03<3:09:41,  6.93s/it]
+2025-10-06 16:07:42 - ERROR - stderr -  21%|██████████████████████▍                                                                                  | 446/2088 [59:10<3:12:14,  7.02s/it]
+2025-10-06 16:07:42 - ERROR - stderr - 
+2025-10-06 16:07:42 - ERROR - stderr - 
+2025-10-06 16:07:42 - INFO - stdout - {'loss': 1.2981, 'learning_rate': 0.0009143017780925331, 'epoch': 1.28}
+2025-10-06 16:07:42 - ERROR - stderr -  21%|██████████████████████▍                                                                                  | 446/2088 [59:10<3:12:14,  7.02s/it]
+2025-10-06 16:07:49 - ERROR - stderr -  21%|██████████████████████▍                                                                                  | 447/2088 [59:17<3:12:07,  7.02s/it]
+2025-10-06 16:07:49 - ERROR - stderr - 
+2025-10-06 16:07:49 - ERROR - stderr - 
+2025-10-06 16:07:49 - INFO - stdout - {'loss': 1.2312, 'learning_rate': 0.0009138670139805003, 'epoch': 1.28}
+2025-10-06 16:07:49 - ERROR - stderr -  21%|██████████████████████▍                                                                                  | 447/2088 [59:17<3:12:07,  7.02s/it]
+2025-10-06 16:07:56 - ERROR - stderr -  21%|██████████████████████▌                                                                                  | 448/2088 [59:24<3:14:01,  7.10s/it]
+2025-10-06 16:07:56 - ERROR - stderr - 
+2025-10-06 16:07:56 - ERROR - stderr - 
+2025-10-06 16:07:56 - INFO - stdout - {'loss': 1.3267, 'learning_rate': 0.0009134312537513187, 'epoch': 1.29}
+2025-10-06 16:07:56 - ERROR - stderr -  21%|██████████████████████▌                                                                                  | 448/2088 [59:24<3:14:01,  7.10s/it]
+2025-10-06 16:08:03 - ERROR - stderr -  22%|██████████████████████▌                                                                                  | 449/2088 [59:31<3:13:01,  7.07s/it]
+2025-10-06 16:08:03 - ERROR - stderr - 
+2025-10-06 16:08:03 - ERROR - stderr - 
+2025-10-06 16:08:03 - INFO - stdout - {'loss': 1.2548, 'learning_rate': 0.0009129944984537993, 'epoch': 1.29}
+2025-10-06 16:08:03 - ERROR - stderr -  22%|██████████████████████▌                                                                                  | 449/2088 [59:31<3:13:01,  7.07s/it]
+2025-10-06 16:08:10 - ERROR - stderr -  22%|██████████████████████▋                                                                                  | 450/2088 [59:38<3:11:53,  7.03s/it]
+2025-10-06 16:08:10 - ERROR - stderr - 
+2025-10-06 16:08:10 - ERROR - stderr - 
+2025-10-06 16:08:10 - INFO - stdout - {'loss': 1.3221, 'learning_rate': 0.0009125567491391475, 'epoch': 1.29}
+2025-10-06 16:08:10 - ERROR - stderr -  22%|██████████████████████▋                                                                                  | 450/2088 [59:38<3:11:53,  7.03s/it]
+2025-10-06 16:08:17 - ERROR - stderr -  22%|██████████████████████▋                                                                                  | 451/2088 [59:46<3:13:02,  7.08s/it]
+2025-10-06 16:08:17 - ERROR - stderr - 
+2025-10-06 16:08:17 - ERROR - stderr - 
+2025-10-06 16:08:17 - INFO - stdout - {'loss': 1.3266, 'learning_rate': 0.0009121180068609624, 'epoch': 1.3}
+2025-10-06 16:08:17 - ERROR - stderr -  22%|██████████████████████▋                                                                                  | 451/2088 [59:46<3:13:02,  7.08s/it]
+2025-10-06 16:08:24 - ERROR - stderr -  22%|██████████████████████▋                                                                                  | 452/2088 [59:53<3:13:11,  7.09s/it]
+2025-10-06 16:08:24 - ERROR - stderr - 
+2025-10-06 16:08:24 - ERROR - stderr - 
+2025-10-06 16:08:24 - INFO - stdout - {'loss': 1.3046, 'learning_rate': 0.0009116782726752316, 'epoch': 1.3}
+2025-10-06 16:08:24 - ERROR - stderr -  22%|██████████████████████▋                                                                                  | 452/2088 [59:53<3:13:11,  7.09s/it]
+2025-10-06 16:08:31 - ERROR - stderr -  22%|██████████████████████▎                                                                                | 453/2088 [1:00:00<3:12:07,  7.05s/it]
+2025-10-06 16:08:31 - ERROR - stderr - 
+2025-10-06 16:08:31 - ERROR - stderr - 
+2025-10-06 16:08:31 - INFO - stdout - {'loss': 1.2873, 'learning_rate': 0.0009112375476403312, 'epoch': 1.3}
+2025-10-06 16:08:31 - ERROR - stderr -  22%|██████████████████████▎                                                                                | 453/2088 [1:00:00<3:12:07,  7.05s/it]
+2025-10-06 16:08:38 - ERROR - stderr -  22%|██████████████████████▍                                                                                | 454/2088 [1:00:07<3:12:18,  7.06s/it]
+2025-10-06 16:08:38 - ERROR - stderr - 
+2025-10-06 16:08:38 - ERROR - stderr - 
+2025-10-06 16:08:38 - INFO - stdout - {'loss': 1.1994, 'learning_rate': 0.0009107958328170213, 'epoch': 1.3}
+2025-10-06 16:08:38 - ERROR - stderr -  22%|██████████████████████▍                                                                                | 454/2088 [1:00:07<3:12:18,  7.06s/it]
+2025-10-06 16:08:45 - ERROR - stderr -  22%|██████████████████████▍                                                                                | 455/2088 [1:00:14<3:11:43,  7.04s/it]
+2025-10-06 16:08:45 - ERROR - stderr - 
+2025-10-06 16:08:45 - ERROR - stderr - 
+2025-10-06 16:08:45 - INFO - stdout - {'loss': 1.3173, 'learning_rate': 0.0009103531292684449, 'epoch': 1.31}
+2025-10-06 16:08:45 - ERROR - stderr -  22%|██████████████████████▍                                                                                | 455/2088 [1:00:14<3:11:43,  7.04s/it]
+2025-10-06 16:08:53 - ERROR - stderr -  22%|██████████████████████▍                                                                                | 456/2088 [1:00:21<3:17:12,  7.25s/it]
+2025-10-06 16:08:53 - ERROR - stderr - 
+2025-10-06 16:08:53 - ERROR - stderr - 
+2025-10-06 16:08:53 - INFO - stdout - {'loss': 1.2981, 'learning_rate': 0.0009099094380601244, 'epoch': 1.31}
+2025-10-06 16:08:53 - ERROR - stderr -  22%|██████████████████████▍                                                                                | 456/2088 [1:00:21<3:17:12,  7.25s/it]
+2025-10-06 16:09:00 - ERROR - stderr -  22%|██████████████████████▌                                                                                | 457/2088 [1:00:29<3:15:20,  7.19s/it]
+2025-10-06 16:09:00 - ERROR - stderr - 
+2025-10-06 16:09:00 - ERROR - stderr - 
+2025-10-06 16:09:00 - INFO - stdout - {'loss': 1.2421, 'learning_rate': 0.0009094647602599593, 'epoch': 1.31}
+2025-10-06 16:09:00 - ERROR - stderr -  22%|█��████████████████████▌                                                                                | 457/2088 [1:00:29<3:15:20,  7.19s/it]
+2025-10-06 16:09:07 - ERROR - stderr -  22%|██████████████████████▌                                                                                | 458/2088 [1:00:36<3:13:45,  7.13s/it]
+2025-10-06 16:09:07 - ERROR - stderr - 
+2025-10-06 16:09:07 - ERROR - stderr - 
+2025-10-06 16:09:07 - INFO - stdout - {'loss': 1.2778, 'learning_rate': 0.0009090190969382239, 'epoch': 1.32}
+2025-10-06 16:09:07 - ERROR - stderr -  22%|██████████████████████▌                                                                                | 458/2088 [1:00:36<3:13:45,  7.13s/it]
+2025-10-06 16:09:14 - ERROR - stderr -  22%|██████████████████████▋                                                                                | 459/2088 [1:00:43<3:12:52,  7.10s/it]
+2025-10-06 16:09:14 - ERROR - stderr - 
+2025-10-06 16:09:14 - ERROR - stderr - 
+2025-10-06 16:09:14 - INFO - stdout - {'loss': 1.272, 'learning_rate': 0.0009085724491675642, 'epoch': 1.32}
+2025-10-06 16:09:14 - ERROR - stderr -  22%|██████████████████████▋                                                                                | 459/2088 [1:00:43<3:12:52,  7.10s/it]
+2025-10-06 16:09:21 - ERROR - stderr -  22%|██████████████████████▋                                                                                | 460/2088 [1:00:50<3:12:17,  7.09s/it]
+2025-10-06 16:09:21 - ERROR - stderr - 
+2025-10-06 16:09:21 - ERROR - stderr - 
+2025-10-06 16:09:21 - INFO - stdout - {'loss': 1.3485, 'learning_rate': 0.0009081248180229962, 'epoch': 1.32}
+2025-10-06 16:09:21 - ERROR - stderr -  22%|██████████████████████▋                                                                                | 460/2088 [1:00:50<3:12:17,  7.09s/it]
+2025-10-06 16:09:28 - ERROR - stderr -  22%|██████████████████████▋                                                                                | 461/2088 [1:00:57<3:11:48,  7.07s/it]
+2025-10-06 16:09:28 - ERROR - stderr - 
+2025-10-06 16:09:28 - ERROR - stderr - 
+2025-10-06 16:09:28 - INFO - stdout - {'loss': 1.1852, 'learning_rate': 0.000907676204581902, 'epoch': 1.32}
+2025-10-06 16:09:28 - ERROR - stderr -  22%|██████████████████████▋                                                                                | 461/2088 [1:00:57<3:11:48,  7.07s/it]
+2025-10-06 16:09:35 - ERROR - stderr -  22%|██████████████████████▊                                                                                | 462/2088 [1:01:04<3:11:15,  7.06s/it]
+2025-10-06 16:09:35 - ERROR - stderr - 
+2025-10-06 16:09:35 - ERROR - stderr - 
+2025-10-06 16:09:35 - INFO - stdout - {'loss': 1.333, 'learning_rate': 0.0009072266099240285, 'epoch': 1.33}
+2025-10-06 16:09:35 - ERROR - stderr -  22%|██████████████████████▊                                                                                | 462/2088 [1:01:04<3:11:15,  7.06s/it]
+2025-10-06 16:09:42 - ERROR - stderr -  22%|██████████████████████▊                                                                                | 463/2088 [1:01:11<3:09:52,  7.01s/it]
+2025-10-06 16:09:42 - ERROR - stderr - 
+2025-10-06 16:09:42 - ERROR - stderr - 
+2025-10-06 16:09:42 - INFO - stdout - {'loss': 1.2193, 'learning_rate': 0.0009067760351314837, 'epoch': 1.33}
+2025-10-06 16:09:42 - ERROR - stderr -  22%|██████████████████████▊                                                                                | 463/2088 [1:01:11<3:09:52,  7.01s/it]
+2025-10-06 16:09:49 - ERROR - stderr -  22%|██████████████████████▉                                                                                | 464/2088 [1:01:18<3:09:19,  7.00s/it]
+2025-10-06 16:09:49 - ERROR - stderr - 
+2025-10-06 16:09:49 - ERROR - stderr - 
+2025-10-06 16:09:49 - INFO - stdout - {'loss': 1.338, 'learning_rate': 0.0009063244812887356, 'epoch': 1.33}
+2025-10-06 16:09:49 - ERROR - stderr -  22%|██████████████████████▉                                                                                | 464/2088 [1:01:18<3:09:19,  7.00s/it]
+2025-10-06 16:09:56 - ERROR - stderr -  22%|██████████████████████▉                                                                                | 465/2088 [1:01:25<3:10:37,  7.05s/it]
+2025-10-06 16:09:56 - ERROR - stderr - 
+2025-10-06 16:09:56 - ERROR - stderr - 
+2025-10-06 16:09:56 - INFO - stdout - {'loss': 1.3509, 'learning_rate': 0.0009058719494826074, 'epoch': 1.34}
+2025-10-06 16:09:56 - ERROR - stderr -  22%|██████████████████████▉                                                                                | 465/2088 [1:01:25<3:10:37,  7.05s/it]
+2025-10-06 16:10:03 - ERROR - stderr -  22%|██████████████████████▉                                                                                | 466/2088 [1:01:32<3:09:50,  7.02s/it]
+2025-10-06 16:10:03 - ERROR - stderr - 
+2025-10-06 16:10:03 - ERROR - stderr - 
+2025-10-06 16:10:03 - INFO - stdout - {'loss': 1.2384, 'learning_rate': 0.0009054184408022772, 'epoch': 1.34}
+2025-10-06 16:10:03 - ERROR - stderr -  22%|██████████████████████▉                                                                                | 466/2088 [1:01:32<3:09:50,  7.02s/it]
+2025-10-06 16:10:10 - ERROR - stderr -  22%|███████████████████████                                                                                | 467/2088 [1:01:39<3:10:54,  7.07s/it]
+2025-10-06 16:10:10 - ERROR - stderr - 
+2025-10-06 16:10:10 - ERROR - stderr - 
+2025-10-06 16:10:10 - INFO - stdout - {'loss': 1.3114, 'learning_rate': 0.0009049639563392736, 'epoch': 1.34}
+2025-10-06 16:10:10 - ERROR - stderr -  22%|███████████████████████                                                                                | 467/2088 [1:01:39<3:10:54,  7.07s/it]
+2025-10-06 16:10:17 - ERROR - stderr -  22%|███████████████████████                                                                                | 468/2088 [1:01:46<3:10:28,  7.05s/it]
+2025-10-06 16:10:17 - ERROR - stderr - 
+2025-10-06 16:10:17 - ERROR - stderr - 
+2025-10-06 16:10:17 - INFO - stdout - {'loss': 1.3142, 'learning_rate': 0.0009045084971874737, 'epoch': 1.34}
+2025-10-06 16:10:17 - ERROR - stderr -  22%|███████████████████████                                                                                | 468/2088 [1:01:46<3:10:28,  7.05s/it]
+2025-10-06 16:10:24 - ERROR - stderr -  22%|███████████████████████▏                                                                               | 469/2088 [1:01:53<3:10:15,  7.05s/it]
+2025-10-06 16:10:24 - ERROR - stderr - 
+2025-10-06 16:10:24 - ERROR - stderr - 
+2025-10-06 16:10:24 - INFO - stdout - {'loss': 1.2841, 'learning_rate': 0.0009040520644431014, 'epoch': 1.35}
+2025-10-06 16:10:24 - ERROR - stderr -  22%|███████████████████████▏                                                                               | 469/2088 [1:01:53<3:10:15,  7.05s/it]
+2025-10-06 16:10:32 - ERROR - stderr -  23%|███████████████████████▏                                                                               | 470/2088 [1:02:01<3:15:45,  7.26s/it]
+2025-10-06 16:10:32 - ERROR - stderr - 
+2025-10-06 16:10:32 - ERROR - stderr - 
+2025-10-06 16:10:32 - INFO - stdout - {'loss': 1.2831, 'learning_rate': 0.0009035946592047228, 'epoch': 1.35}
+2025-10-06 16:10:32 - ERROR - stderr -  23%|███████████████████████▏                                                                               | 470/2088 [1:02:01<3:15:45,  7.26s/it]
+2025-10-06 16:10:39 - ERROR - stderr -  23%|███████████████████████▏                                                                               | 471/2088 [1:02:07<3:10:43,  7.08s/it]
+2025-10-06 16:10:39 - ERROR - stderr - 
+2025-10-06 16:10:39 - ERROR - stderr - 
+2025-10-06 16:10:39 - INFO - stdout - {'loss': 1.2314, 'learning_rate': 0.0009031362825732456, 'epoch': 1.35}
+2025-10-06 16:10:39 - ERROR - stderr -  23%|███████████████████████▏                                                                               | 471/2088 [1:02:07<3:10:43,  7.08s/it]
+2025-10-06 16:10:46 - ERROR - stderr -  23%|███████████████████████▎                                                                               | 472/2088 [1:02:14<3:10:32,  7.07s/it]
+2025-10-06 16:10:46 - ERROR - stderr - 
+2025-10-06 16:10:46 - ERROR - stderr - 
+2025-10-06 16:10:46 - INFO - stdout - {'loss': 1.3252, 'learning_rate': 0.0009026769356519148, 'epoch': 1.36}
+2025-10-06 16:10:46 - ERROR - stderr -  23%|███████████████████████▎                                                                               | 472/2088 [1:02:14<3:10:32,  7.07s/it]
+2025-10-06 16:10:53 - ERROR - stderr -  23%|█████████████████��█████▎                                                                               | 473/2088 [1:02:22<3:12:55,  7.17s/it]
+2025-10-06 16:10:53 - ERROR - stderr - 
+2025-10-06 16:10:53 - ERROR - stderr - 
+2025-10-06 16:10:53 - INFO - stdout - {'loss': 1.2777, 'learning_rate': 0.000902216619546311, 'epoch': 1.36}
+2025-10-06 16:10:53 - ERROR - stderr -  23%|███████████████████████▎                                                                               | 473/2088 [1:02:22<3:12:55,  7.17s/it]
+2025-10-06 16:11:00 - ERROR - stderr -  23%|███████████████████████▍                                                                               | 474/2088 [1:02:29<3:10:47,  7.09s/it]
+2025-10-06 16:11:00 - ERROR - stderr - 
+2025-10-06 16:11:00 - ERROR - stderr - 
+2025-10-06 16:11:00 - INFO - stdout - {'loss': 1.2873, 'learning_rate': 0.0009017553353643477, 'epoch': 1.36}
+2025-10-06 16:11:00 - ERROR - stderr -  23%|███████████████████████▍                                                                               | 474/2088 [1:02:29<3:10:47,  7.09s/it]
+2025-10-06 16:11:07 - ERROR - stderr -  23%|███████████████████████▍                                                                               | 475/2088 [1:02:35<3:08:08,  7.00s/it]
+2025-10-06 16:11:07 - ERROR - stderr - 
+2025-10-06 16:11:07 - ERROR - stderr - 
+2025-10-06 16:11:07 - INFO - stdout - {'loss': 1.2769, 'learning_rate': 0.0009012930842162679, 'epoch': 1.36}
+2025-10-06 16:11:07 - ERROR - stderr -  23%|███████████████████████▍                                                                               | 475/2088 [1:02:35<3:08:08,  7.00s/it]
+2025-10-06 16:11:14 - ERROR - stderr -  23%|███████████████████████▍                                                                               | 476/2088 [1:02:42<3:06:17,  6.93s/it]
+2025-10-06 16:11:14 - ERROR - stderr - 
+2025-10-06 16:11:14 - ERROR - stderr - 
+2025-10-06 16:11:14 - INFO - stdout - {'loss': 1.3632, 'learning_rate': 0.0009008298672146425, 'epoch': 1.37}
+2025-10-06 16:11:14 - ERROR - stderr -  23%|███████████████████████▍                                                                               | 476/2088 [1:02:42<3:06:17,  6.93s/it]
+2025-10-06 16:11:21 - ERROR - stderr -  23%|███████████████████████▌                                                                               | 477/2088 [1:02:50<3:09:27,  7.06s/it]
+2025-10-06 16:11:21 - ERROR - stderr - 
+2025-10-06 16:11:21 - ERROR - stderr - 
+2025-10-06 16:11:21 - INFO - stdout - {'loss': 1.2767, 'learning_rate': 0.0009003656854743667, 'epoch': 1.37}
+2025-10-06 16:11:21 - ERROR - stderr -  23%|███████████████████████▌                                                                               | 477/2088 [1:02:50<3:09:27,  7.06s/it]
+2025-10-06 16:11:29 - ERROR - stderr -  23%|███████████████████████▌                                                                               | 478/2088 [1:02:57<3:12:28,  7.17s/it]
+2025-10-06 16:11:29 - ERROR - stderr - 
+2025-10-06 16:11:29 - ERROR - stderr - 
+2025-10-06 16:11:29 - INFO - stdout - {'loss': 1.3192, 'learning_rate': 0.000899900540112658, 'epoch': 1.37}
+2025-10-06 16:11:29 - ERROR - stderr -  23%|███████████████████████▌                                                                               | 478/2088 [1:02:57<3:12:28,  7.17s/it]
+2025-10-06 16:11:36 - ERROR - stderr -  23%|███████████████████████▋                                                                               | 479/2088 [1:03:04<3:10:55,  7.12s/it]
+2025-10-06 16:11:36 - ERROR - stderr - 
+2025-10-06 16:11:36 - ERROR - stderr - 
+2025-10-06 16:11:36 - INFO - stdout - {'loss': 1.2775, 'learning_rate': 0.0008994344322490527, 'epoch': 1.38}
+2025-10-06 16:11:36 - ERROR - stderr -  23%|███████████████████████▋                                                                               | 479/2088 [1:03:04<3:10:55,  7.12s/it]
+2025-10-06 16:11:43 - ERROR - stderr -  23%|███████████████████████▋                                                                               | 480/2088 [1:03:11<3:10:18,  7.10s/it]
+2025-10-06 16:11:43 - ERROR - stderr - 
+2025-10-06 16:11:43 - ERROR - stderr - 
+2025-10-06 16:11:43 - INFO - stdout - {'loss': 1.2542, 'learning_rate': 0.0008989673630054042, 'epoch': 1.38}
+2025-10-06 16:11:43 - ERROR - stderr -  23%|███████████████████████▋                                                                               | 480/2088 [1:03:11<3:10:18,  7.10s/it]
+2025-10-06 16:11:50 - ERROR - stderr -  23%|███████████████████████▋                                                                               | 481/2088 [1:03:18<3:12:02,  7.17s/it]
+2025-10-06 16:11:50 - ERROR - stderr - 
+2025-10-06 16:11:50 - ERROR - stderr - 
+2025-10-06 16:11:50 - INFO - stdout - {'loss': 1.2689, 'learning_rate': 0.0008984993335058798, 'epoch': 1.38}
+2025-10-06 16:11:50 - ERROR - stderr -  23%|███████████████████████▋                                                                               | 481/2088 [1:03:18<3:12:02,  7.17s/it]
+2025-10-06 16:11:57 - ERROR - stderr -  23%|███████████████████████▊                                                                               | 482/2088 [1:03:25<3:10:18,  7.11s/it]
+2025-10-06 16:11:57 - ERROR - stderr - 
+2025-10-06 16:11:57 - ERROR - stderr - 
+2025-10-06 16:11:57 - INFO - stdout - {'loss': 1.3299, 'learning_rate': 0.0008980303448769574, 'epoch': 1.39}
+2025-10-06 16:11:57 - ERROR - stderr -  23%|███████████████████████▊                                                                               | 482/2088 [1:03:25<3:10:18,  7.11s/it]
+2025-10-06 16:12:04 - ERROR - stderr -  23%|███████████████████████▊                                                                               | 483/2088 [1:03:33<3:11:01,  7.14s/it]
+2025-10-06 16:12:04 - ERROR - stderr - 
+2025-10-06 16:12:04 - ERROR - stderr - 
+2025-10-06 16:12:04 - INFO - stdout - {'loss': 1.3523, 'learning_rate': 0.0008975603982474239, 'epoch': 1.39}
+2025-10-06 16:12:04 - ERROR - stderr -  23%|███████████████████████▊                                                                               | 483/2088 [1:03:33<3:11:01,  7.14s/it]
+2025-10-06 16:12:11 - ERROR - stderr -  23%|███████████████████████▉                                                                               | 484/2088 [1:03:40<3:10:47,  7.14s/it]
+2025-10-06 16:12:11 - ERROR - stderr - 
+2025-10-06 16:12:11 - ERROR - stderr - 
+2025-10-06 16:12:11 - INFO - stdout - {'loss': 1.3149, 'learning_rate': 0.0008970894947483719, 'epoch': 1.39}
+2025-10-06 16:12:11 - ERROR - stderr -  23%|███████████████████████▉                                                                               | 484/2088 [1:03:40<3:10:47,  7.14s/it]
+2025-10-06 16:12:18 - ERROR - stderr -  23%|███████████████████████▉                                                                               | 485/2088 [1:03:47<3:08:02,  7.04s/it]
+2025-10-06 16:12:18 - ERROR - stderr - 
+2025-10-06 16:12:18 - ERROR - stderr - 
+2025-10-06 16:12:18 - INFO - stdout - {'loss': 1.3776, 'learning_rate': 0.0008966176355131972, 'epoch': 1.39}
+2025-10-06 16:12:18 - ERROR - stderr -  23%|███████████████████████▉                                                                               | 485/2088 [1:03:47<3:08:02,  7.04s/it]
+2025-10-06 16:12:25 - ERROR - stderr -  23%|███████████████████████▉                                                                               | 486/2088 [1:03:54<3:09:01,  7.08s/it]
+2025-10-06 16:12:25 - ERROR - stderr - 
+2025-10-06 16:12:25 - ERROR - stderr - 
+2025-10-06 16:12:25 - INFO - stdout - {'loss': 1.2507, 'learning_rate': 0.0008961448216775954, 'epoch': 1.4}
+2025-10-06 16:12:25 - ERROR - stderr -  23%|███████████████████████▉                                                                               | 486/2088 [1:03:54<3:09:01,  7.08s/it]
+2025-10-06 16:12:32 - ERROR - stderr -  23%|████████████████████████                                                                               | 487/2088 [1:04:00<3:06:37,  6.99s/it]
+2025-10-06 16:12:32 - ERROR - stderr - 
+2025-10-06 16:12:32 - ERROR - stderr - 
+2025-10-06 16:12:32 - INFO - stdout - {'loss': 1.2891, 'learning_rate': 0.0008956710543795601, 'epoch': 1.4}
+2025-10-06 16:12:32 - ERROR - stderr -  23%|████████████████████████                                                                               | 487/2088 [1:04:01<3:06:37,  6.99s/it]
+2025-10-06 16:12:39 - ERROR - stderr -  23%|████████████████████████                                                                               | 488/2088 [1:04:07<3:03:57,  6.90s/it]
+2025-10-06 16:12:39 - ERROR - stderr - 
+2025-10-06 16:12:39 - ERROR - stderr - 
+2025-10-06 16:12:39 - INFO - stdout - {'loss': 1.3054, 'learning_rate': 0.0008951963347593796, 'epoch': 1.4}
+2025-10-06 16:12:39 - ERROR - stderr -  23%|████████████████████████                                                                               | 488/2088 [1:04:07<3:03:57,  6.90s/it]
+2025-10-06 16:12:46 - ERROR - stderr -  23%|████████████████████████                                                                               | 489/2088 [1:04:14<3:06:02,  6.98s/it]
+2025-10-06 16:12:46 - ERROR - stderr - 
+2025-10-06 16:12:46 - ERROR - stderr - 
+2025-10-06 16:12:46 - INFO - stdout - {'loss': 1.2771, 'learning_rate': 0.0008947206639596346, 'epoch': 1.41}
+2025-10-06 16:12:46 - ERROR - stderr -  23%|████████████████████████                                                                               | 489/2088 [1:04:14<3:06:02,  6.98s/it]
+2025-10-06 16:12:53 - ERROR - stderr -  23%|████████████████████████▏                                                                              | 490/2088 [1:04:21<3:06:36,  7.01s/it]
+2025-10-06 16:12:53 - ERROR - stderr - 
+2025-10-06 16:12:53 - ERROR - stderr - 
+2025-10-06 16:12:53 - INFO - stdout - {'loss': 1.1999, 'learning_rate': 0.0008942440431251946, 'epoch': 1.41}
+2025-10-06 16:12:53 - ERROR - stderr -  23%|████████████████████████▏                                                                              | 490/2088 [1:04:21<3:06:36,  7.01s/it]
+2025-10-06 16:13:01 - ERROR - stderr -  24%|████████████████████████▏                                                                              | 491/2088 [1:04:29<3:13:42,  7.28s/it]
+2025-10-06 16:13:01 - ERROR - stderr - 
+2025-10-06 16:13:01 - ERROR - stderr - 
+2025-10-06 16:13:01 - INFO - stdout - {'loss': 1.287, 'learning_rate': 0.0008937664734032158, 'epoch': 1.41}
+2025-10-06 16:13:01 - ERROR - stderr -  24%|████████████████████████▏                                                                              | 491/2088 [1:04:29<3:13:42,  7.28s/it]
+2025-10-06 16:13:08 - ERROR - stderr -  24%|████████████████████████▎                                                                              | 492/2088 [1:04:37<3:15:02,  7.33s/it]
+2025-10-06 16:13:08 - ERROR - stderr - 
+2025-10-06 16:13:08 - ERROR - stderr - 
+2025-10-06 16:13:08 - INFO - stdout - {'loss': 1.3068, 'learning_rate': 0.0008932879559431391, 'epoch': 1.41}
+2025-10-06 16:13:08 - ERROR - stderr -  24%|████████████████████████▎                                                                              | 492/2088 [1:04:37<3:15:02,  7.33s/it]
+2025-10-06 16:13:15 - ERROR - stderr -  24%|████████████████████████▎                                                                              | 493/2088 [1:04:44<3:12:48,  7.25s/it]
+2025-10-06 16:13:15 - ERROR - stderr - 
+2025-10-06 16:13:15 - ERROR - stderr - 
+2025-10-06 16:13:15 - INFO - stdout - {'loss': 1.2622, 'learning_rate': 0.000892808491896685, 'epoch': 1.42}
+2025-10-06 16:13:15 - ERROR - stderr -  24%|████████████████████████▎                                                                              | 493/2088 [1:04:44<3:12:48,  7.25s/it]
+2025-10-06 16:13:23 - ERROR - stderr -  24%|████████████████████████▎                                                                              | 494/2088 [1:04:51<3:12:08,  7.23s/it]
+2025-10-06 16:13:23 - ERROR - stderr - 
+2025-10-06 16:13:23 - ERROR - stderr - 
+2025-10-06 16:13:23 - INFO - stdout - {'loss': 1.2931, 'learning_rate': 0.0008923280824178536, 'epoch': 1.42}
+2025-10-06 16:13:23 - ERROR - stderr -  24%|████████████████████████▎                                                                              | 494/2088 [1:04:51<3:12:08,  7.23s/it]
+2025-10-06 16:13:30 - ERROR - stderr -  24%|████████████████████████▍                                                                              | 495/2088 [1:04:58<3:10:13,  7.16s/it]
+2025-10-06 16:13:30 - ERROR - stderr - 
+2025-10-06 16:13:30 - ERROR - stderr - 
+2025-10-06 16:13:30 - INFO - stdout - {'loss': 1.2669, 'learning_rate': 0.0008918467286629199, 'epoch': 1.42}
+2025-10-06 16:13:30 - ERROR - stderr -  24%|████████████████████████▍                                                                              | 495/2088 [1:04:58<3:10:13,  7.16s/it]
+2025-10-06 16:13:36 - ERROR - stderr -  24%|██████████████████���█████▍                                                                              | 496/2088 [1:05:05<3:08:11,  7.09s/it]
+2025-10-06 16:13:36 - ERROR - stderr - 
+2025-10-06 16:13:36 - ERROR - stderr - 
+2025-10-06 16:13:36 - INFO - stdout - {'loss': 1.317, 'learning_rate': 0.0008913644317904317, 'epoch': 1.43}
+2025-10-06 16:13:36 - ERROR - stderr -  24%|████████████████████████▍                                                                              | 496/2088 [1:05:05<3:08:11,  7.09s/it]
+2025-10-06 16:13:43 - ERROR - stderr -  24%|████████████████████████▌                                                                              | 497/2088 [1:05:12<3:04:45,  6.97s/it]
+2025-10-06 16:13:43 - ERROR - stderr - 
+2025-10-06 16:13:43 - ERROR - stderr - 
+2025-10-06 16:13:43 - INFO - stdout - {'loss': 1.3092, 'learning_rate': 0.0008908811929612066, 'epoch': 1.43}
+2025-10-06 16:13:43 - ERROR - stderr -  24%|████████████████████████▌                                                                              | 497/2088 [1:05:12<3:04:45,  6.97s/it]
+2025-10-06 16:13:50 - ERROR - stderr -  24%|████████████████████████▌                                                                              | 498/2088 [1:05:19<3:06:45,  7.05s/it]
+2025-10-06 16:13:50 - ERROR - stderr - 
+2025-10-06 16:13:50 - ERROR - stderr - 
+2025-10-06 16:13:50 - INFO - stdout - {'loss': 1.3269, 'learning_rate': 0.0008903970133383297, 'epoch': 1.43}
+2025-10-06 16:13:50 - ERROR - stderr -  24%|████████████████████████▌                                                                              | 498/2088 [1:05:19<3:06:45,  7.05s/it]
+2025-10-06 16:13:57 - ERROR - stderr -  24%|████████████████████████▌                                                                              | 499/2088 [1:05:26<3:06:13,  7.03s/it]
+2025-10-06 16:13:57 - ERROR - stderr - 
+2025-10-06 16:13:57 - ERROR - stderr - 
+2025-10-06 16:13:57 - INFO - stdout - {'loss': 1.3153, 'learning_rate': 0.0008899118940871502, 'epoch': 1.43}
+2025-10-06 16:13:57 - ERROR - stderr -  24%|████████████████████████▌                                                                              | 499/2088 [1:05:26<3:06:13,  7.03s/it]
+2025-10-06 16:14:05 - ERROR - stderr -  24%|████████████████████████▋                                                                              | 500/2088 [1:05:33<3:07:29,  7.08s/it]
+2025-10-06 16:14:05 - ERROR - stderr - 
+2025-10-06 16:14:05 - ERROR - stderr - 
+2025-10-06 16:14:05 - INFO - stdout - {'loss': 1.282, 'learning_rate': 0.0008894258363752789, 'epoch': 1.44}
+2025-10-06 16:14:05 - ERROR - stderr -  24%|████████████████████████▋                                                                              | 500/2088 [1:05:33<3:07:29,  7.08s/it]
+2025-10-06 16:14:12 - ERROR - stderr -  24%|████████████████████████▋                                                                              | 501/2088 [1:05:40<3:07:30,  7.09s/it]
+2025-10-06 16:14:12 - ERROR - stderr - 
+2025-10-06 16:14:12 - ERROR - stderr - 
+2025-10-06 16:14:12 - INFO - stdout - {'loss': 1.336, 'learning_rate': 0.0008889388413725857, 'epoch': 1.44}
+2025-10-06 16:14:12 - ERROR - stderr -  24%|████████████████████████▋                                                                              | 501/2088 [1:05:40<3:07:30,  7.09s/it]
+2025-10-06 16:14:19 - ERROR - stderr -  24%|████████████████████████▊                                                                              | 502/2088 [1:05:47<3:07:09,  7.08s/it]
+2025-10-06 16:14:19 - ERROR - stderr - 
+2025-10-06 16:14:19 - ERROR - stderr - 
+2025-10-06 16:14:19 - INFO - stdout - {'loss': 1.288, 'learning_rate': 0.0008884509102511955, 'epoch': 1.44}
+2025-10-06 16:14:19 - ERROR - stderr -  24%|████████████████████████▊                                                                              | 502/2088 [1:05:47<3:07:09,  7.08s/it]
+2025-10-06 16:14:26 - ERROR - stderr -  24%|████████████████████████▊                                                                              | 503/2088 [1:05:54<3:06:21,  7.05s/it]
+2025-10-06 16:14:26 - ERROR - stderr - 
+2025-10-06 16:14:26 - ERROR - stderr - 
+2025-10-06 16:14:26 - INFO - stdout - {'loss': 1.2335, 'learning_rate': 0.0008879620441854873, 'epoch': 1.45}
+2025-10-06 16:14:26 - ERROR - stderr -  24%|████████████████��███████▊                                                                              | 503/2088 [1:05:54<3:06:21,  7.05s/it]
+2025-10-06 16:14:33 - ERROR - stderr -  24%|████████████████████████▊                                                                              | 504/2088 [1:06:01<3:04:28,  6.99s/it]
+2025-10-06 16:14:33 - ERROR - stderr - 
+2025-10-06 16:14:33 - ERROR - stderr - 
+2025-10-06 16:14:33 - INFO - stdout - {'loss': 1.2456, 'learning_rate': 0.0008874722443520898, 'epoch': 1.45}
+2025-10-06 16:14:33 - ERROR - stderr -  24%|████████████████████████▊                                                                              | 504/2088 [1:06:01<3:04:28,  6.99s/it]
+2025-10-06 16:14:40 - ERROR - stderr -  24%|████████████████████████▉                                                                              | 505/2088 [1:06:08<3:06:18,  7.06s/it]
+2025-10-06 16:14:40 - ERROR - stderr - 
+2025-10-06 16:14:40 - ERROR - stderr - 
+2025-10-06 16:14:40 - INFO - stdout - {'loss': 1.2871, 'learning_rate': 0.0008869815119298795, 'epoch': 1.45}
+2025-10-06 16:14:40 - ERROR - stderr -  24%|████████████████████████▉                                                                              | 505/2088 [1:06:08<3:06:18,  7.06s/it]
+2025-10-06 16:14:47 - ERROR - stderr -  24%|████████████████████████▉                                                                              | 506/2088 [1:06:16<3:07:24,  7.11s/it]
+2025-10-06 16:14:47 - ERROR - stderr - 
+2025-10-06 16:14:47 - ERROR - stderr - 
+2025-10-06 16:14:47 - INFO - stdout - {'loss': 1.3806, 'learning_rate': 0.000886489848099977, 'epoch': 1.45}
+2025-10-06 16:14:47 - ERROR - stderr -  24%|████████████████████████▉                                                                              | 506/2088 [1:06:16<3:07:24,  7.11s/it]
+2025-10-06 16:14:54 - ERROR - stderr -  24%|█████████████████████████                                                                              | 507/2088 [1:06:23<3:09:14,  7.18s/it]
+2025-10-06 16:14:54 - ERROR - stderr - 
+2025-10-06 16:14:54 - ERROR - stderr - 
+2025-10-06 16:14:54 - INFO - stdout - {'loss': 1.3176, 'learning_rate': 0.0008859972540457451, 'epoch': 1.46}
+2025-10-06 16:14:54 - ERROR - stderr -  24%|█████████████████████████                                                                              | 507/2088 [1:06:23<3:09:14,  7.18s/it]
+2025-10-06 16:15:02 - ERROR - stderr -  24%|█████████████████████████                                                                              | 508/2088 [1:06:30<3:11:02,  7.26s/it]
+2025-10-06 16:15:02 - ERROR - stderr - 
+2025-10-06 16:15:02 - ERROR - stderr - 
+2025-10-06 16:15:02 - INFO - stdout - {'loss': 1.2371, 'learning_rate': 0.0008855037309527853, 'epoch': 1.46}
+2025-10-06 16:15:02 - ERROR - stderr -  24%|█████████████████████████                                                                              | 508/2088 [1:06:30<3:11:02,  7.26s/it]
+2025-10-06 16:15:09 - ERROR - stderr -  24%|█████████████████████████                                                                              | 509/2088 [1:06:37<3:07:43,  7.13s/it]
+2025-10-06 16:15:09 - ERROR - stderr - 
+2025-10-06 16:15:09 - ERROR - stderr - 
+2025-10-06 16:15:09 - INFO - stdout - {'loss': 1.2672, 'learning_rate': 0.0008850092800089355, 'epoch': 1.46}
+2025-10-06 16:15:09 - ERROR - stderr -  24%|█████████████████████████                                                                              | 509/2088 [1:06:37<3:07:43,  7.13s/it]
+2025-10-06 16:15:16 - ERROR - stderr -  24%|█████████████████████████▏                                                                             | 510/2088 [1:06:44<3:09:08,  7.19s/it]
+2025-10-06 16:15:16 - ERROR - stderr - 
+2025-10-06 16:15:16 - ERROR - stderr - 
+2025-10-06 16:15:16 - INFO - stdout - {'loss': 1.2842, 'learning_rate': 0.0008845139024042663, 'epoch': 1.47}
+2025-10-06 16:15:16 - ERROR - stderr -  24%|█████████████████████████▏                                                                             | 510/2088 [1:06:44<3:09:08,  7.19s/it]
+2025-10-06 16:15:23 - ERROR - stderr -  24%|█████████████████████████▏                                                                             | 511/2088 [1:06:51<3:04:30,  7.02s/it]
+2025-10-06 16:15:23 - ERROR - stderr - 
+2025-10-06 16:15:23 - ERROR - stderr - 
+2025-10-06 16:15:23 - INFO - stdout - {'loss': 1.2968, 'learning_rate': 0.0008840175993310791, 'epoch': 1.47}
+2025-10-06 16:15:23 - ERROR - stderr -  24%|█████████████████████████▏                                                                             | 511/2088 [1:06:51<3:04:30,  7.02s/it]
+2025-10-06 16:15:30 - ERROR - stderr -  25%|█████████████████████████▎                                                                             | 512/2088 [1:06:58<3:04:48,  7.04s/it]
+2025-10-06 16:15:30 - ERROR - stderr - 
+2025-10-06 16:15:30 - ERROR - stderr - 
+2025-10-06 16:15:30 - INFO - stdout - {'loss': 1.2343, 'learning_rate': 0.0008835203719839022, 'epoch': 1.47}
+2025-10-06 16:15:30 - ERROR - stderr -  25%|█████████████████████████▎                                                                             | 512/2088 [1:06:58<3:04:48,  7.04s/it]
+2025-10-06 16:15:37 - ERROR - stderr -  25%|█████████████████████████▎                                                                             | 513/2088 [1:07:05<3:03:19,  6.98s/it]
+2025-10-06 16:15:37 - ERROR - stderr - 
+2025-10-06 16:15:37 - ERROR - stderr - 
+2025-10-06 16:15:37 - INFO - stdout - {'loss': 1.3354, 'learning_rate': 0.000883022221559489, 'epoch': 1.47}
+2025-10-06 16:15:37 - ERROR - stderr -  25%|█████████████████████████▎                                                                             | 513/2088 [1:07:05<3:03:19,  6.98s/it]
+2025-10-06 16:15:44 - ERROR - stderr -  25%|█████████████████████████▎                                                                             | 514/2088 [1:07:13<3:07:40,  7.15s/it]
+2025-10-06 16:15:44 - ERROR - stderr - 
+2025-10-06 16:15:44 - ERROR - stderr - 
+2025-10-06 16:15:44 - INFO - stdout - {'loss': 1.2891, 'learning_rate': 0.0008825231492568146, 'epoch': 1.48}
+2025-10-06 16:15:44 - ERROR - stderr -  25%|█████████████████████████▎                                                                             | 514/2088 [1:07:13<3:07:40,  7.15s/it]
+2025-10-06 16:15:51 - ERROR - stderr -  25%|█████████████████████████▍                                                                             | 515/2088 [1:07:20<3:08:53,  7.20s/it]
+2025-10-06 16:15:51 - ERROR - stderr - 
+2025-10-06 16:15:51 - ERROR - stderr - 
+2025-10-06 16:15:51 - INFO - stdout - {'loss': 1.3196, 'learning_rate': 0.0008820231562770726, 'epoch': 1.48}
+2025-10-06 16:15:51 - ERROR - stderr -  25%|█████████████████████████▍                                                                             | 515/2088 [1:07:20<3:08:53,  7.20s/it]
+2025-10-06 16:15:59 - ERROR - stderr -  25%|█████████████████████████▍                                                                             | 516/2088 [1:07:27<3:08:56,  7.21s/it]
+2025-10-06 16:15:59 - ERROR - stderr - 
+2025-10-06 16:15:59 - ERROR - stderr - 
+2025-10-06 16:15:59 - INFO - stdout - {'loss': 1.2956, 'learning_rate': 0.0008815222438236725, 'epoch': 1.48}
+2025-10-06 16:15:59 - ERROR - stderr -  25%|█████████████████████████▍                                                                             | 516/2088 [1:07:27<3:08:56,  7.21s/it]
+2025-10-06 16:16:06 - ERROR - stderr -  25%|█████████████████████████▌                                                                             | 517/2088 [1:07:34<3:07:39,  7.17s/it]
+2025-10-06 16:16:06 - ERROR - stderr - 
+2025-10-06 16:16:06 - ERROR - stderr - 
+2025-10-06 16:16:06 - INFO - stdout - {'loss': 1.2482, 'learning_rate': 0.0008810204131022376, 'epoch': 1.49}
+2025-10-06 16:16:06 - ERROR - stderr -  25%|█████████████████████████▌                                                                             | 517/2088 [1:07:34<3:07:39,  7.17s/it]
+2025-10-06 16:16:13 - ERROR - stderr -  25%|█████████████████████████▌                                                                             | 518/2088 [1:07:41<3:05:08,  7.08s/it]
+2025-10-06 16:16:13 - ERROR - stderr - 
+2025-10-06 16:16:13 - ERROR - stderr - 
+2025-10-06 16:16:13 - INFO - stdout - {'loss': 1.2699, 'learning_rate': 0.0008805176653206003, 'epoch': 1.49}
+2025-10-06 16:16:13 - ERROR - stderr -  25%|█████████████████████████▌                                                                             | 518/2088 [1:07:41<3:05:08,  7.08s/it]
+2025-10-06 16:16:20 - ERROR - stderr -  25%|█████████████████████████▌                                                                             | 519/2088 [1:07:48<3:04:44,  7.06s/it]
+2025-10-06 16:16:20 - ERROR - stderr - 
+2025-10-06 16:16:20 - ERROR - stderr - 
+2025-10-06 16:16:20 - INFO - stdout - {'loss': 1.3441, 'learning_rate': 0.0008800140016888008, 'epoch': 1.49}
+2025-10-06 16:16:20 - ERROR - stderr -  25%|█████████████████████████▌                                                                             | 519/2088 [1:07:48<3:04:44,  7.06s/it]
+2025-10-06 16:16:27 - ERROR - stderr -  25%|█████████████████████████▋                                                                             | 520/2088 [1:07:55<3:03:53,  7.04s/it]
+2025-10-06 16:16:27 - ERROR - stderr - 
+2025-10-06 16:16:27 - ERROR - stderr - 
+2025-10-06 16:16:27 - INFO - stdout - {'loss': 1.2961, 'learning_rate': 0.0008795094234190836, 'epoch': 1.49}
+2025-10-06 16:16:27 - ERROR - stderr -  25%|█████████████████████████▋                                                                             | 520/2088 [1:07:55<3:03:53,  7.04s/it]
+2025-10-06 16:16:33 - ERROR - stderr -  25%|█████████████████████████▋                                                                             | 521/2088 [1:08:02<3:01:31,  6.95s/it]
+2025-10-06 16:16:33 - ERROR - stderr - 
+2025-10-06 16:16:33 - ERROR - stderr - 
+2025-10-06 16:16:33 - INFO - stdout - {'loss': 1.2937, 'learning_rate': 0.0008790039317258948, 'epoch': 1.5}
+2025-10-06 16:16:33 - ERROR - stderr -  25%|█████████████████████████▋                                                                             | 521/2088 [1:08:02<3:01:31,  6.95s/it]
+2025-10-06 16:16:40 - ERROR - stderr -  25%|█████████████████████████▊                                                                             | 522/2088 [1:08:09<3:02:05,  6.98s/it]
+2025-10-06 16:16:40 - ERROR - stderr - 
+2025-10-06 16:16:40 - ERROR - stderr - 
+2025-10-06 16:16:40 - INFO - stdout - {'loss': 1.217, 'learning_rate': 0.0008784975278258782, 'epoch': 1.5}
+2025-10-06 16:16:40 - ERROR - stderr -  25%|█████████████████████████▊                                                                             | 522/2088 [1:08:09<3:02:05,  6.98s/it]
+2025-10-06 16:16:47 - ERROR - stderr -  25%|█████████████████████████▊                                                                             | 523/2088 [1:08:16<3:02:31,  7.00s/it]
+2025-10-06 16:16:47 - ERROR - stderr - 
+2025-10-06 16:16:47 - ERROR - stderr - 
+2025-10-06 16:16:47 - INFO - stdout - {'loss': 1.2368, 'learning_rate': 0.000877990212937874, 'epoch': 1.5}
+2025-10-06 16:16:47 - ERROR - stderr -  25%|█████████████████████████▊                                                                             | 523/2088 [1:08:16<3:02:31,  7.00s/it]
+2025-10-06 16:16:54 - ERROR - stderr -  25%|█████████████████████████▊                                                                             | 524/2088 [1:08:23<3:01:12,  6.95s/it]
+2025-10-06 16:16:54 - ERROR - stderr - 
+2025-10-06 16:16:54 - ERROR - stderr - 
+2025-10-06 16:16:54 - INFO - stdout - {'loss': 1.2271, 'learning_rate': 0.0008774819882829143, 'epoch': 1.51}
+2025-10-06 16:16:54 - ERROR - stderr -  25%|█████████████████████████▊                                                                             | 524/2088 [1:08:23<3:01:12,  6.95s/it]
+2025-10-06 16:17:01 - ERROR - stderr -  25%|█████████████████████████▉                                                                             | 525/2088 [1:08:29<2:59:27,  6.89s/it]
+2025-10-06 16:17:01 - ERROR - stderr - 
+2025-10-06 16:17:01 - ERROR - stderr - 
+2025-10-06 16:17:01 - INFO - stdout - {'loss': 1.1387, 'learning_rate': 0.0008769728550842218, 'epoch': 1.51}
+2025-10-06 16:17:01 - ERROR - stderr -  25%|█████████████████████████▉                                                                             | 525/2088 [1:08:29<2:59:27,  6.89s/it]
+2025-10-06 16:17:08 - ERROR - stderr -  25%|█████████████████████████▉                                                                             | 526/2088 [1:08:37<3:02:20,  7.00s/it]
+2025-10-06 16:17:08 - ERROR - stderr - 
+2025-10-06 16:17:08 - ERROR - stderr - 
+2025-10-06 16:17:08 - INFO - stdout - {'loss': 1.2991, 'learning_rate': 0.0008764628145672048, 'epoch': 1.51}
+2025-10-06 16:17:08 - ERROR - stderr -  25%|█████████████████████████▉                                                                             | 526/2088 [1:08:37<3:02:20,  7.00s/it]
+2025-10-06 16:17:15 - ERROR - stderr -  25%|█████████████████████████▉                                                                             | 527/2088 [1:08:44<3:03:18,  7.05s/it]
+2025-10-06 16:17:15 - ERROR - stderr - 
+2025-10-06 16:17:15 - ERROR - stderr - 
+2025-10-06 16:17:15 - INFO - stdout - {'loss': 1.2625, 'learning_rate': 0.0008759518679594563, 'epoch': 1.51}
+2025-10-06 16:17:15 - ERROR - stderr -  25%|█████████████████████████▉                                                                             | 527/2088 [1:08:44<3:03:18,  7.05s/it]
+2025-10-06 16:17:23 - ERROR - stderr -  25%|██████████████████████████                                                                             | 528/2088 [1:08:51<3:03:49,  7.07s/it]
+2025-10-06 16:17:23 - ERROR - stderr - 
+2025-10-06 16:17:23 - ERROR - stderr - 
+2025-10-06 16:17:23 - INFO - stdout - {'loss': 1.2937, 'learning_rate': 0.0008754400164907496, 'epoch': 1.52}
+2025-10-06 16:17:23 - ERROR - stderr -  25%|██████████████████████████                                                                             | 528/2088 [1:08:51<3:03:49,  7.07s/it]
+2025-10-06 16:17:30 - ERROR - stderr -  25%|██████████████████████████                                                                             | 529/2088 [1:08:58<3:03:25,  7.06s/it]
+2025-10-06 16:17:30 - ERROR - stderr - 
+2025-10-06 16:17:30 - ERROR - stderr - 
+2025-10-06 16:17:30 - INFO - stdout - {'loss': 1.2513, 'learning_rate': 0.0008749272613930362, 'epoch': 1.52}
+2025-10-06 16:17:30 - ERROR - stderr -  25%|██████████████████████████                                                                             | 529/2088 [1:08:58<3:03:25,  7.06s/it]
+2025-10-06 16:17:37 - ERROR - stderr -  25%|██████████████████████████▏                                                                            | 530/2088 [1:09:05<3:03:40,  7.07s/it]
+2025-10-06 16:17:37 - ERROR - stderr - 
+2025-10-06 16:17:37 - ERROR - stderr - 
+2025-10-06 16:17:37 - INFO - stdout - {'loss': 1.3616, 'learning_rate': 0.0008744136039004422, 'epoch': 1.52}
+2025-10-06 16:17:37 - ERROR - stderr -  25%|██████████████████████████▏                                                                            | 530/2088 [1:09:05<3:03:40,  7.07s/it]
+2025-10-06 16:17:44 - ERROR - stderr -  25%|██████████████████████████▏                                                                            | 531/2088 [1:09:12<3:03:58,  7.09s/it]
+2025-10-06 16:17:44 - ERROR - stderr - 
+2025-10-06 16:17:44 - ERROR - stderr - 
+2025-10-06 16:17:44 - INFO - stdout - {'loss': 1.2922, 'learning_rate': 0.000873899045249266, 'epoch': 1.53}
+2025-10-06 16:17:44 - ERROR - stderr -  25%|██████████████████████████▏                                                                            | 531/2088 [1:09:12<3:03:58,  7.09s/it]
+2025-10-06 16:17:51 - ERROR - stderr -  25%|██████████████████████████▏                                                                            | 532/2088 [1:09:19<3:02:38,  7.04s/it]
+2025-10-06 16:17:51 - ERROR - stderr - 
+2025-10-06 16:17:51 - ERROR - stderr - 
+2025-10-06 16:17:51 - INFO - stdout - {'loss': 1.1738, 'learning_rate': 0.0008733835866779745, 'epoch': 1.53}
+2025-10-06 16:17:51 - ERROR - stderr -  25%|██████████████████████████▏                                                                            | 532/2088 [1:09:19<3:02:38,  7.04s/it]
+2025-10-06 16:17:58 - ERROR - stderr -  26%|██████████████████████████▎                                                                            | 533/2088 [1:09:26<3:01:27,  7.00s/it]
+2025-10-06 16:17:58 - ERROR - stderr - 
+2025-10-06 16:17:58 - ERROR - stderr - 
+2025-10-06 16:17:58 - INFO - stdout - {'loss': 1.3082, 'learning_rate': 0.0008728672294272009, 'epoch': 1.53}
+2025-10-06 16:17:58 - ERROR - stderr -  26%|██████████████████████████▎                                                                            | 533/2088 [1:09:26<3:01:27,  7.00s/it]
+2025-10-06 16:18:05 - ERROR - stderr -  26%|██████████████████████████▎                                                                            | 534/2088 [1:09:33<3:03:16,  7.08s/it]
+2025-10-06 16:18:05 - ERROR - stderr - 
+2025-10-06 16:18:05 - ERROR - stderr - 
+2025-10-06 16:18:05 - INFO - stdout - {'loss': 1.2865, 'learning_rate': 0.0008723499747397414, 'epoch': 1.53}
+2025-10-06 16:18:05 - ERROR - stderr -  26%|██████████████████████████▎                                                                            | 534/2088 [1:09:33<3:03:16,  7.08s/it]
+2025-10-06 16:18:12 - ERROR - stderr -  26%|██████████████████████████▍                                                                            | 535/2088 [1:09:41<3:03:45,  7.10s/it]
+2025-10-06 16:18:12 - ERROR - stderr - 
+2025-10-06 16:18:12 - ERROR - stderr - 
+2025-10-06 16:18:12 - INFO - stdout - {'loss': 1.215, 'learning_rate': 0.0008718318238605518, 'epoch': 1.54}
+2025-10-06 16:18:12 - ERROR - stderr -  26%|██████████████████████████▍                                                                            | 535/2088 [1:09:41<3:03:45,  7.10s/it]
+2025-10-06 16:18:19 - ERROR - stderr -  26%|██████████████████████████▍                                                                            | 536/2088 [1:09:48<3:03:52,  7.11s/it]
+2025-10-06 16:18:19 - ERROR - stderr - 
+2025-10-06 16:18:19 - ERROR - stderr - 
+2025-10-06 16:18:19 - INFO - stdout - {'loss': 1.2626, 'learning_rate': 0.0008713127780367457, 'epoch': 1.54}
+2025-10-06 16:18:19 - ERROR - stderr -  26%|██████████████████████████▍                                                                            | 536/2088 [1:09:48<3:03:52,  7.11s/it]
+2025-10-06 16:18:26 - ERROR - stderr -  26%|██████████████████████████▍                                                                            | 537/2088 [1:09:55<3:03:37,  7.10s/it]
+2025-10-06 16:18:26 - ERROR - stderr - 
+2025-10-06 16:18:26 - ERROR - stderr - 
+2025-10-06 16:18:26 - INFO - stdout - {'loss': 1.2648, 'learning_rate': 0.0008707928385175898, 'epoch': 1.54}
+2025-10-06 16:18:26 - ERROR - stderr -  26%|██████████████████████████▍                                                                            | 537/2088 [1:09:55<3:03:37,  7.10s/it]
+2025-10-06 16:18:33 - ERROR - stderr -  26%|██████████████████████████▌                                                                            | 538/2088 [1:10:01<2:59:55,  6.96s/it]
+2025-10-06 16:18:33 - ERROR - stderr - 
+2025-10-06 16:18:33 - ERROR - stderr - 
+2025-10-06 16:18:33 - INFO - stdout - {'loss': 1.1852, 'learning_rate': 0.0008702720065545023, 'epoch': 1.55}
+2025-10-06 16:18:33 - ERROR - stderr -  26%|██████████████████████████▌                                                                            | 538/2088 [1:10:01<2:59:55,  6.96s/it]
+2025-10-06 16:18:40 - ERROR - stderr -  26%|██████████████████████████▌                                                                            | 539/2088 [1:10:09<3:01:35,  7.03s/it]
+2025-10-06 16:18:40 - ERROR - stderr - 
+2025-10-06 16:18:40 - ERROR - stderr - 
+2025-10-06 16:18:40 - INFO - stdout - {'loss': 1.2334, 'learning_rate': 0.0008697502834010493, 'epoch': 1.55}
+2025-10-06 16:18:40 - ERROR - stderr -  26%|██████████████████████████▌                                                                            | 539/2088 [1:10:09<3:01:35,  7.03s/it]
+2025-10-06 16:18:47 - ERROR - stderr -  26%|██████████████████████████▋                                                                            | 540/2088 [1:10:16<3:02:38,  7.08s/it]
+2025-10-06 16:18:47 - ERROR - stderr - 
+2025-10-06 16:18:47 - ERROR - stderr - 
+2025-10-06 16:18:47 - INFO - stdout - {'loss': 1.237, 'learning_rate': 0.0008692276703129421, 'epoch': 1.55}
+2025-10-06 16:18:47 - ERROR - stderr -  26%|██████████████████████████▋                                                                            | 540/2088 [1:10:16<3:02:38,  7.08s/it]
+2025-10-06 16:18:54 - ERROR - stderr -  26%|██████████████████████████▋                                                                            | 541/2088 [1:10:23<3:02:05,  7.06s/it]
+2025-10-06 16:18:54 - ERROR - stderr - 
+2025-10-06 16:18:54 - ERROR - stderr - 
+2025-10-06 16:18:54 - INFO - stdout - {'loss': 1.3011, 'learning_rate': 0.000868704168548033, 'epoch': 1.55}
+2025-10-06 16:18:54 - ERROR - stderr -  26%|██████████████████████████▋                                                                            | 541/2088 [1:10:23<3:02:05,  7.06s/it]
+2025-10-06 16:19:02 - ERROR - stderr -  26%|██████████████████████████▋                                                                            | 542/2088 [1:10:30<3:04:31,  7.16s/it]
+2025-10-06 16:19:02 - ERROR - stderr - 
+2025-10-06 16:19:02 - ERROR - stderr - 
+2025-10-06 16:19:02 - INFO - stdout - {'loss': 1.3535, 'learning_rate': 0.0008681797793663146, 'epoch': 1.56}
+2025-10-06 16:19:02 - ERROR - stderr -  26%|██████████████████████████▋                                                                            | 542/2088 [1:10:30<3:04:31,  7.16s/it]
+2025-10-06 16:19:09 - ERROR - stderr -  26%|██████████████████████████▊                                                                            | 543/2088 [1:10:37<3:02:47,  7.10s/it]
+2025-10-06 16:19:09 - ERROR - stderr - 
+2025-10-06 16:19:09 - ERROR - stderr - 
+2025-10-06 16:19:09 - INFO - stdout - {'loss': 1.1985, 'learning_rate': 0.0008676545040299144, 'epoch': 1.56}
+2025-10-06 16:19:09 - ERROR - stderr -  26%|██████████████████████████▊                                                                            | 543/2088 [1:10:37<3:02:47,  7.10s/it]
+2025-10-06 16:19:16 - ERROR - stderr -  26%|██████████████████████████▊                                                                            | 544/2088 [1:10:44<3:02:40,  7.10s/it]
+2025-10-06 16:19:16 - ERROR - stderr - 
+2025-10-06 16:19:16 - ERROR - stderr - 
+2025-10-06 16:19:16 - INFO - stdout - {'loss': 1.3086, 'learning_rate': 0.0008671283438030929, 'epoch': 1.56}
+2025-10-06 16:19:16 - ERROR - stderr -  26%|██████████████████████████▊                                                                            | 544/2088 [1:10:44<3:02:40,  7.10s/it]
+2025-10-06 16:19:23 - ERROR - stderr -  26%|██████████████████████████▉                                                                            | 545/2088 [1:10:51<3:00:45,  7.03s/it]
+2025-10-06 16:19:23 - ERROR - stderr - 
+2025-10-06 16:19:23 - ERROR - stderr - 
+2025-10-06 16:19:23 - INFO - stdout - {'loss': 1.3061, 'learning_rate': 0.0008666012999522408, 'epoch': 1.57}
+2025-10-06 16:19:23 - ERROR - stderr -  26%|██████████████████████████▉                                                                            | 545/2088 [1:10:51<3:00:45,  7.03s/it]
+2025-10-06 16:19:30 - ERROR - stderr -  26%|██████████████████████████▉                                                                            | 546/2088 [1:10:58<3:00:00,  7.00s/it]
+2025-10-06 16:19:30 - ERROR - stderr - 
+2025-10-06 16:19:30 - ERROR - stderr - 
+2025-10-06 16:19:30 - INFO - stdout - {'loss': 1.2511, 'learning_rate': 0.0008660733737458752, 'epoch': 1.57}
+2025-10-06 16:19:30 - ERROR - stderr -  26%|██████████████████████████▉                                                                            | 546/2088 [1:10:58<3:00:00,  7.00s/it]
+2025-10-06 16:19:37 - ERROR - stderr -  26%|██████████████████████████▉                                                                            | 547/2088 [1:11:05<3:01:08,  7.05s/it]
+2025-10-06 16:19:37 - ERROR - stderr - 
+2025-10-06 16:19:37 - ERROR - stderr - 
+2025-10-06 16:19:37 - INFO - stdout - {'loss': 1.3166, 'learning_rate': 0.0008655445664546369, 'epoch': 1.57}
+2025-10-06 16:19:37 - ERROR - stderr -  26%|██████████████████████████▉                                                                            | 547/2088 [1:11:05<3:01:08,  7.05s/it]
+2025-10-06 16:19:44 - ERROR - stderr -  26%|███████████████████████████                                                                            | 548/2088 [1:11:12<3:02:42,  7.12s/it]
+2025-10-06 16:19:44 - ERROR - stderr - 
+2025-10-06 16:19:44 - ERROR - stderr - 
+2025-10-06 16:19:44 - INFO - stdout - {'loss': 1.2567, 'learning_rate': 0.0008650148793512873, 'epoch': 1.57}
+2025-10-06 16:19:44 - ERROR - stderr -  26%|███████████████████████████                                                                            | 548/2088 [1:11:13<3:02:42,  7.12s/it]
+2025-10-06 16:19:51 - ERROR - stderr -  26%|███████████████████████████                                                                            | 549/2088 [1:11:19<3:01:11,  7.06s/it]
+2025-10-06 16:19:51 - ERROR - stderr - 
+2025-10-06 16:19:51 - ERROR - stderr - 
+2025-10-06 16:19:51 - INFO - stdout - {'loss': 1.2109, 'learning_rate': 0.0008644843137107057, 'epoch': 1.58}
+2025-10-06 16:19:51 - ERROR - stderr -  26%|███████████████████████████                                                                            | 549/2088 [1:11:19<3:01:11,  7.06s/it]
+2025-10-06 16:19:58 - ERROR - stderr -  26%|███████████████████████████▏                                                                           | 550/2088 [1:11:27<3:01:29,  7.08s/it]
+2025-10-06 16:19:58 - ERROR - stderr - 
+2025-10-06 16:19:58 - ERROR - stderr - 
+2025-10-06 16:19:58 - INFO - stdout - {'loss': 1.3037, 'learning_rate': 0.0008639528708098859, 'epoch': 1.58}
+2025-10-06 16:19:58 - ERROR - stderr -  26%|███████████████████████████▏                                                                           | 550/2088 [1:11:27<3:01:29,  7.08s/it]
+2025-10-06 16:20:05 - ERROR - stderr -  26%|███████████████████████████▏                                                                           | 551/2088 [1:11:34<3:01:12,  7.07s/it]
+2025-10-06 16:20:05 - ERROR - stderr - 
+2025-10-06 16:20:05 - ERROR - stderr - 
+2025-10-06 16:20:05 - INFO - stdout - {'loss': 1.2747, 'learning_rate': 0.0008634205519279326, 'epoch': 1.58}
+2025-10-06 16:20:05 - ERROR - stderr -  26%|███████████████████████████▏                                                                           | 551/2088 [1:11:34<3:01:12,  7.07s/it]
+2025-10-06 16:20:12 - ERROR - stderr -  26%|███████████████████████████▏                                                                           | 552/2088 [1:11:40<2:58:53,  6.99s/it]
+2025-10-06 16:20:12 - ERROR - stderr - 
+2025-10-06 16:20:12 - ERROR - stderr - 
+2025-10-06 16:20:12 - INFO - stdout - {'loss': 1.2499, 'learning_rate': 0.0008628873583460592, 'epoch': 1.59}
+2025-10-06 16:20:12 - ERROR - stderr -  26%|███████████████████████████▏                                                                           | 552/2088 [1:11:40<2:58:53,  6.99s/it]
+2025-10-06 16:20:19 - ERROR - stderr -  26%|███████████████████████████▎                                                                           | 553/2088 [1:11:48<3:01:07,  7.08s/it]
+2025-10-06 16:20:19 - ERROR - stderr - 
+2025-10-06 16:20:19 - ERROR - stderr - 
+2025-10-06 16:20:19 - INFO - stdout - {'loss': 1.2836, 'learning_rate': 0.0008623532913475847, 'epoch': 1.59}
+2025-10-06 16:20:19 - ERROR - stderr -  26%|███████████████████████████▎                                                                           | 553/2088 [1:11:48<3:01:07,  7.08s/it]
+2025-10-06 16:20:27 - ERROR - stderr -  27%|███████████████████████████▎                                                                           | 554/2088 [1:11:55<3:03:43,  7.19s/it]
+2025-10-06 16:20:27 - ERROR - stderr - 
+2025-10-06 16:20:27 - ERROR - stderr - 
+2025-10-06 16:20:27 - INFO - stdout - {'loss': 1.2993, 'learning_rate': 0.0008618183522179295, 'epoch': 1.59}
+2025-10-06 16:20:27 - ERROR - stderr -  27%|███████████████████████████▎                                                                           | 554/2088 [1:11:55<3:03:43,  7.19s/it]
+2025-10-06 16:20:34 - ERROR - stderr -  27%|███████████████████████████▍                                                                           | 555/2088 [1:12:02<3:03:31,  7.18s/it]
+2025-10-06 16:20:34 - ERROR - stderr - 
+2025-10-06 16:20:34 - ERROR - stderr - 
+2025-10-06 16:20:34 - INFO - stdout - {'loss': 1.2431, 'learning_rate': 0.000861282542244614, 'epoch': 1.59}
+2025-10-06 16:20:34 - ERROR - stderr -  27%|███████████████████████████▍                                                                           | 555/2088 [1:12:02<3:03:31,  7.18s/it]
+2025-10-06 16:20:41 - ERROR - stderr -  27%|███████████████████████████▍                                                                           | 556/2088 [1:12:10<3:03:46,  7.20s/it]
+2025-10-06 16:20:41 - ERROR - stderr - 
+2025-10-06 16:20:41 - ERROR - stderr - 
+2025-10-06 16:20:41 - INFO - stdout - {'loss': 1.3345, 'learning_rate': 0.0008607458627172541, 'epoch': 1.6}
+2025-10-06 16:20:41 - ERROR - stderr -  27%|███████���███████████████████▍                                                                           | 556/2088 [1:12:10<3:03:46,  7.20s/it]
+2025-10-06 16:20:48 - ERROR - stderr -  27%|███████████████████████████▍                                                                           | 557/2088 [1:12:17<3:03:40,  7.20s/it]
+2025-10-06 16:20:48 - ERROR - stderr - 
+2025-10-06 16:20:48 - ERROR - stderr - 
+2025-10-06 16:20:48 - INFO - stdout - {'loss': 1.2962, 'learning_rate': 0.0008602083149275583, 'epoch': 1.6}
+2025-10-06 16:20:48 - ERROR - stderr -  27%|███████████████████████████▍                                                                           | 557/2088 [1:12:17<3:03:40,  7.20s/it]
+2025-10-06 16:20:56 - ERROR - stderr -  27%|███████████████████████████▌                                                                           | 558/2088 [1:12:24<3:04:51,  7.25s/it]
+2025-10-06 16:20:56 - ERROR - stderr - 
+2025-10-06 16:20:56 - ERROR - stderr - 
+2025-10-06 16:20:56 - INFO - stdout - {'loss': 1.2109, 'learning_rate': 0.0008596699001693256, 'epoch': 1.6}
+2025-10-06 16:20:56 - ERROR - stderr -  27%|███████████████████████████▌                                                                           | 558/2088 [1:12:24<3:04:51,  7.25s/it]
+2025-10-06 16:21:03 - ERROR - stderr -  27%|███████████████████████████▌                                                                           | 559/2088 [1:12:31<3:03:52,  7.22s/it]
+2025-10-06 16:21:03 - ERROR - stderr - 
+2025-10-06 16:21:03 - ERROR - stderr - 
+2025-10-06 16:21:03 - INFO - stdout - {'loss': 1.2513, 'learning_rate': 0.0008591306197384411, 'epoch': 1.61}
+2025-10-06 16:21:03 - ERROR - stderr -  27%|███████████████████████████▌                                                                           | 559/2088 [1:12:31<3:03:52,  7.22s/it]
+2025-10-06 16:21:10 - ERROR - stderr -  27%|███████████████████████████▌                                                                           | 560/2088 [1:12:38<3:01:34,  7.13s/it]
+2025-10-06 16:21:10 - ERROR - stderr - 
+2025-10-06 16:21:10 - ERROR - stderr - 
+2025-10-06 16:21:10 - INFO - stdout - {'loss': 1.2311, 'learning_rate': 0.0008585904749328736, 'epoch': 1.61}
+2025-10-06 16:21:10 - ERROR - stderr -  27%|███████████████████████████▌                                                                           | 560/2088 [1:12:38<3:01:34,  7.13s/it]
+2025-10-06 16:21:17 - ERROR - stderr -  27%|███████████████████████████▋                                                                           | 561/2088 [1:12:45<3:00:24,  7.09s/it]
+2025-10-06 16:21:17 - ERROR - stderr - 
+2025-10-06 16:21:17 - ERROR - stderr - 
+2025-10-06 16:21:17 - INFO - stdout - {'loss': 1.2921, 'learning_rate': 0.0008580494670526724, 'epoch': 1.61}
+2025-10-06 16:21:17 - ERROR - stderr -  27%|███████████████████████████▋                                                                           | 561/2088 [1:12:45<3:00:24,  7.09s/it]
+2025-10-06 16:21:24 - ERROR - stderr -  27%|███████████████████████████▋                                                                           | 562/2088 [1:12:53<3:02:20,  7.17s/it]
+2025-10-06 16:21:24 - ERROR - stderr - 
+2025-10-06 16:21:24 - ERROR - stderr - 
+2025-10-06 16:21:24 - INFO - stdout - {'loss': 1.2222, 'learning_rate': 0.0008575075973999642, 'epoch': 1.61}
+2025-10-06 16:21:24 - ERROR - stderr -  27%|███████████████████████████▋                                                                           | 562/2088 [1:12:53<3:02:20,  7.17s/it]
+2025-10-06 16:21:31 - ERROR - stderr -  27%|███████████████████████████▊                                                                           | 563/2088 [1:13:00<3:01:00,  7.12s/it]
+2025-10-06 16:21:31 - ERROR - stderr - 
+2025-10-06 16:21:31 - ERROR - stderr - 
+2025-10-06 16:21:31 - INFO - stdout - {'loss': 1.255, 'learning_rate': 0.0008569648672789496, 'epoch': 1.62}
+2025-10-06 16:21:31 - ERROR - stderr -  27%|███████████████████████████▊                                                                           | 563/2088 [1:13:00<3:01:00,  7.12s/it]
+2025-10-06 16:21:38 - ERROR - stderr -  27%|███████████████████████████▊                                                                           | 564/2088 [1:13:07<3:00:36,  7.11s/it]
+2025-10-06 16:21:38 - ERROR - stderr - 
+2025-10-06 16:21:38 - ERROR - stderr - 
+2025-10-06 16:21:38 - INFO - stdout - {'loss': 1.3199, 'learning_rate': 0.0008564212779959002, 'epoch': 1.62}
+2025-10-06 16:21:38 - ERROR - stderr -  27%|███████████████████████████▊                                                                           | 564/2088 [1:13:07<3:00:36,  7.11s/it]
+2025-10-06 16:21:46 - ERROR - stderr -  27%|███████████████████████████▊                                                                           | 565/2088 [1:13:14<3:03:03,  7.21s/it]
+2025-10-06 16:21:46 - ERROR - stderr - 
+2025-10-06 16:21:46 - ERROR - stderr - 
+2025-10-06 16:21:46 - INFO - stdout - {'loss': 1.2826, 'learning_rate': 0.0008558768308591558, 'epoch': 1.62}
+2025-10-06 16:21:46 - ERROR - stderr -  27%|███████████████████████████▊                                                                           | 565/2088 [1:13:14<3:03:03,  7.21s/it]
+2025-10-06 16:21:53 - ERROR - stderr -  27%|███████████████████████████▉                                                                           | 566/2088 [1:13:21<3:02:51,  7.21s/it]
+2025-10-06 16:21:53 - ERROR - stderr - 
+2025-10-06 16:21:53 - ERROR - stderr - 
+2025-10-06 16:21:53 - INFO - stdout - {'loss': 1.3044, 'learning_rate': 0.0008553315271791205, 'epoch': 1.63}
+2025-10-06 16:21:53 - ERROR - stderr -  27%|███████████████████████████▉                                                                           | 566/2088 [1:13:21<3:02:51,  7.21s/it]
+2025-10-06 16:22:00 - ERROR - stderr -  27%|███████████████████████████▉                                                                           | 567/2088 [1:13:28<3:01:00,  7.14s/it]
+2025-10-06 16:22:00 - ERROR - stderr - 
+2025-10-06 16:22:00 - ERROR - stderr - 
+2025-10-06 16:22:00 - INFO - stdout - {'loss': 1.3547, 'learning_rate': 0.0008547853682682604, 'epoch': 1.63}
+2025-10-06 16:22:00 - ERROR - stderr -  27%|███████████████████████████▉                                                                           | 567/2088 [1:13:28<3:01:00,  7.14s/it]
+2025-10-06 16:22:07 - ERROR - stderr -  27%|████████████████████████████                                                                           | 568/2088 [1:13:35<2:59:19,  7.08s/it]
+2025-10-06 16:22:07 - ERROR - stderr - 
+2025-10-06 16:22:07 - ERROR - stderr - 
+2025-10-06 16:22:07 - INFO - stdout - {'loss': 1.1997, 'learning_rate': 0.0008542383554411, 'epoch': 1.63}
+2025-10-06 16:22:07 - ERROR - stderr -  27%|████████████████████████████                                                                           | 568/2088 [1:13:35<2:59:19,  7.08s/it]
+2025-10-06 16:22:14 - ERROR - stderr -  27%|████████████████████████████                                                                           | 569/2088 [1:13:42<2:59:43,  7.10s/it]
+2025-10-06 16:22:14 - ERROR - stderr - 
+2025-10-06 16:22:14 - ERROR - stderr - 
+2025-10-06 16:22:14 - INFO - stdout - {'loss': 1.2085, 'learning_rate': 0.0008536904900142185, 'epoch': 1.64}
+2025-10-06 16:22:14 - ERROR - stderr -  27%|████████████████████████████                                                                           | 569/2088 [1:13:42<2:59:43,  7.10s/it]
+2025-10-06 16:22:21 - ERROR - stderr -  27%|████████████████████████████                                                                           | 570/2088 [1:13:50<3:00:16,  7.13s/it]
+2025-10-06 16:22:21 - ERROR - stderr - 
+2025-10-06 16:22:21 - ERROR - stderr - 
+2025-10-06 16:22:21 - INFO - stdout - {'loss': 1.2278, 'learning_rate': 0.0008531417733062477, 'epoch': 1.64}
+2025-10-06 16:22:21 - ERROR - stderr -  27%|████████████████████████████                                                                           | 570/2088 [1:13:50<3:00:16,  7.13s/it]
+2025-10-06 16:22:28 - ERROR - stderr -  27%|████████████████████████████▏                                                                          | 571/2088 [1:13:57<3:00:31,  7.14s/it]
+2025-10-06 16:22:28 - ERROR - stderr - 
+2025-10-06 16:22:28 - ERROR - stderr - 
+2025-10-06 16:22:28 - INFO - stdout - {'loss': 1.2821, 'learning_rate': 0.0008525922066378682, 'epoch': 1.64}
+2025-10-06 16:22:28 - ERROR - stderr -  27%|████████████████████████████▏                                                                          | 571/2088 [1:13:57<3:00:31,  7.14s/it]
+2025-10-06 16:22:35 - ERROR - stderr -  27%|████████████████████████████▏                                                                          | 572/2088 [1:14:04<2:59:10,  7.09s/it]
+2025-10-06 16:22:35 - ERROR - stderr - 
+2025-10-06 16:22:35 - ERROR - stderr - 
+2025-10-06 16:22:35 - INFO - stdout - {'loss': 1.309, 'learning_rate': 0.0008520417913318064, 'epoch': 1.64}
+2025-10-06 16:22:35 - ERROR - stderr -  27%|████████████████████████████▏                                                                          | 572/2088 [1:14:04<2:59:10,  7.09s/it]
+2025-10-06 16:22:42 - ERROR - stderr -  27%|████████████████████████████▎                                                                          | 573/2088 [1:14:11<2:59:30,  7.11s/it]
+2025-10-06 16:22:42 - ERROR - stderr - 
+2025-10-06 16:22:42 - ERROR - stderr - 
+2025-10-06 16:22:42 - INFO - stdout - {'loss': 1.2609, 'learning_rate': 0.000851490528712831, 'epoch': 1.65}
+2025-10-06 16:22:42 - ERROR - stderr -  27%|████████████████████████████▎                                                                          | 573/2088 [1:14:11<2:59:30,  7.11s/it]
+2025-10-06 16:22:49 - ERROR - stderr -  27%|████████████████████████████▎                                                                          | 574/2088 [1:14:17<2:55:26,  6.95s/it]
+2025-10-06 16:22:49 - ERROR - stderr - 
+2025-10-06 16:22:49 - ERROR - stderr - 
+2025-10-06 16:22:49 - INFO - stdout - {'loss': 1.278, 'learning_rate': 0.0008509384201077501, 'epoch': 1.65}
+2025-10-06 16:22:49 - ERROR - stderr -  27%|████████████████████████████▎                                                                          | 574/2088 [1:14:17<2:55:26,  6.95s/it]
+2025-10-06 16:22:56 - ERROR - stderr -  28%|████████████████████████████▎                                                                          | 575/2088 [1:14:24<2:55:52,  6.97s/it]
+2025-10-06 16:22:56 - ERROR - stderr - 
+2025-10-06 16:22:56 - ERROR - stderr - 
+2025-10-06 16:22:56 - INFO - stdout - {'loss': 1.2606, 'learning_rate': 0.0008503854668454083, 'epoch': 1.65}
+2025-10-06 16:22:56 - ERROR - stderr -  28%|████████████████████████████▎                                                                          | 575/2088 [1:14:24<2:55:52,  6.97s/it]
+2025-10-06 16:23:03 - ERROR - stderr -  28%|████████████████████████████▍                                                                          | 576/2088 [1:14:31<2:55:54,  6.98s/it]
+2025-10-06 16:23:03 - ERROR - stderr - 
+2025-10-06 16:23:03 - ERROR - stderr - 
+2025-10-06 16:23:03 - INFO - stdout - {'loss': 1.2915, 'learning_rate': 0.0008498316702566827, 'epoch': 1.66}
+2025-10-06 16:23:03 - ERROR - stderr -  28%|████████████████████████████▍                                                                          | 576/2088 [1:14:31<2:55:54,  6.98s/it]
+2025-10-06 16:23:10 - ERROR - stderr -  28%|████████████████████████████▍                                                                          | 577/2088 [1:14:39<2:59:12,  7.12s/it]
+2025-10-06 16:23:10 - ERROR - stderr - 
+2025-10-06 16:23:10 - ERROR - stderr - 
+2025-10-06 16:23:10 - INFO - stdout - {'loss': 1.2124, 'learning_rate': 0.0008492770316744807, 'epoch': 1.66}
+2025-10-06 16:23:10 - ERROR - stderr -  28%|████████████████████████████▍                                                                          | 577/2088 [1:14:39<2:59:12,  7.12s/it]
+2025-10-06 16:23:18 - ERROR - stderr -  28%|████████████████████████████▌                                                                          | 578/2088 [1:14:46<2:59:31,  7.13s/it]
+2025-10-06 16:23:18 - ERROR - stderr - 
+2025-10-06 16:23:18 - ERROR - stderr - 
+2025-10-06 16:23:18 - INFO - stdout - {'loss': 1.2577, 'learning_rate': 0.0008487215524337357, 'epoch': 1.66}
+2025-10-06 16:23:18 - ERROR - stderr -  28%|████████████████████████████▌                                                                          | 578/2088 [1:14:46<2:59:31,  7.13s/it]
+2025-10-06 16:23:24 - ERROR - stderr -  28%|████████████████████████████▌                                                                          | 579/2088 [1:14:53<2:57:56,  7.08s/it]
+2025-10-06 16:23:24 - ERROR - stderr - 
+2025-10-06 16:23:24 - ERROR - stderr - 
+2025-10-06 16:23:24 - INFO - stdout - {'loss': 1.3336, 'learning_rate': 0.0008481652338714048, 'epoch': 1.66}
+2025-10-06 16:23:24 - ERROR - stderr -  28%|████████████████████████████▌                                                                          | 579/2088 [1:14:53<2:57:56,  7.08s/it]
+2025-10-06 16:23:32 - ERROR - stderr -  28%|████████████████████████████▌                                                                          | 580/2088 [1:15:00<2:58:12,  7.09s/it]
+2025-10-06 16:23:32 - ERROR - stderr - 
+2025-10-06 16:23:32 - ERROR - stderr - 
+2025-10-06 16:23:32 - INFO - stdout - {'loss': 1.2826, 'learning_rate': 0.0008476080773264649, 'epoch': 1.67}
+2025-10-06 16:23:32 - ERROR - stderr -  28%|████████████████████████████▌                                                                          | 580/2088 [1:15:00<2:58:12,  7.09s/it]
+2025-10-06 16:23:39 - ERROR - stderr -  28%|████████████████████████████▋                                                                          | 581/2088 [1:15:07<2:58:50,  7.12s/it]
+2025-10-06 16:23:39 - ERROR - stderr - 
+2025-10-06 16:23:39 - ERROR - stderr - 
+2025-10-06 16:23:39 - INFO - stdout - {'loss': 1.2565, 'learning_rate': 0.0008470500841399103, 'epoch': 1.67}
+2025-10-06 16:23:39 - ERROR - stderr -  28%|████████████████████████████▋                                                                          | 581/2088 [1:15:07<2:58:50,  7.12s/it]
+2025-10-06 16:23:46 - ERROR - stderr -  28%|████████████████████████████▋                                                                          | 582/2088 [1:15:14<2:59:20,  7.14s/it]
+2025-10-06 16:23:46 - ERROR - stderr - 
+2025-10-06 16:23:46 - ERROR - stderr - 
+2025-10-06 16:23:46 - INFO - stdout - {'loss': 1.2932, 'learning_rate': 0.0008464912556547486, 'epoch': 1.67}
+2025-10-06 16:23:46 - ERROR - stderr -  28%|████████████████████████████▋                                                                          | 582/2088 [1:15:14<2:59:20,  7.14s/it]
+2025-10-06 16:23:53 - ERROR - stderr -  28%|████████████████████████████▊                                                                          | 583/2088 [1:15:22<2:59:24,  7.15s/it]
+2025-10-06 16:23:53 - ERROR - stderr - 
+2025-10-06 16:23:53 - ERROR - stderr - 
+2025-10-06 16:23:53 - INFO - stdout - {'loss': 1.2023, 'learning_rate': 0.0008459315932159979, 'epoch': 1.68}
+2025-10-06 16:23:53 - ERROR - stderr -  28%|████████████████████████████▊                                                                          | 583/2088 [1:15:22<2:59:24,  7.15s/it]
+2025-10-06 16:24:00 - ERROR - stderr -  28%|████████████████████████████▊                                                                          | 584/2088 [1:15:29<2:59:56,  7.18s/it]
+2025-10-06 16:24:00 - ERROR - stderr - 
+2025-10-06 16:24:00 - ERROR - stderr - 
+2025-10-06 16:24:00 - INFO - stdout - {'loss': 1.2711, 'learning_rate': 0.0008453710981706837, 'epoch': 1.68}
+2025-10-06 16:24:00 - ERROR - stderr -  28%|████████████████████████████▊                                                                          | 584/2088 [1:15:29<2:59:56,  7.18s/it]
+2025-10-06 16:24:08 - ERROR - stderr -  28%|████████████████████████████▊                                                                          | 585/2088 [1:15:36<2:59:17,  7.16s/it]
+2025-10-06 16:24:08 - ERROR - stderr - 
+2025-10-06 16:24:08 - ERROR - stderr - 
+2025-10-06 16:24:08 - INFO - stdout - {'loss': 1.2913, 'learning_rate': 0.0008448097718678349, 'epoch': 1.68}
+2025-10-06 16:24:08 - ERROR - stderr -  28%|████████████████████████████▊                                                                          | 585/2088 [1:15:36<2:59:17,  7.16s/it]
+2025-10-06 16:24:15 - ERROR - stderr -  28%|████████████████████████████▉                                                                          | 586/2088 [1:15:43<2:58:10,  7.12s/it]
+2025-10-06 16:24:15 - ERROR - stderr - 
+2025-10-06 16:24:15 - ERROR - stderr - 
+2025-10-06 16:24:15 - INFO - stdout - {'loss': 1.2211, 'learning_rate': 0.0008442476156584819, 'epoch': 1.68}
+2025-10-06 16:24:15 - ERROR - stderr -  28%|████████████████████████████▉                                                                          | 586/2088 [1:15:43<2:58:10,  7.12s/it]
+2025-10-06 16:24:22 - ERROR - stderr -  28%|████████████████████████████▉                                                                          | 587/2088 [1:15:50<2:57:19,  7.09s/it]
+2025-10-06 16:24:22 - ERROR - stderr - 
+2025-10-06 16:24:22 - ERROR - stderr - 
+2025-10-06 16:24:22 - INFO - stdout - {'loss': 1.278, 'learning_rate': 0.0008436846308956518, 'epoch': 1.69}
+2025-10-06 16:24:22 - ERROR - stderr -  28%|████████████████████████████▉                                                                          | 587/2088 [1:15:50<2:57:19,  7.09s/it]
+2025-10-06 16:24:29 - ERROR - stderr -  28%|█████████████████████████████                                                                          | 588/2088 [1:15:57<2:59:41,  7.19s/it]
+2025-10-06 16:24:29 - ERROR - stderr - 
+2025-10-06 16:24:29 - ERROR - stderr - 
+2025-10-06 16:24:29 - INFO - stdout - {'loss': 1.2365, 'learning_rate': 0.0008431208189343669, 'epoch': 1.69}
+2025-10-06 16:24:29 - ERROR - stderr -  28%|█████████████████████████████                                                                          | 588/2088 [1:15:57<2:59:41,  7.19s/it]
+2025-10-06 16:24:36 - ERROR - stderr -  28%|█████████████████████████████                                                                          | 589/2088 [1:16:04<2:56:22,  7.06s/it]
+2025-10-06 16:24:36 - ERROR - stderr - 
+2025-10-06 16:24:36 - ERROR - stderr - 
+2025-10-06 16:24:36 - INFO - stdout - {'loss': 1.2593, 'learning_rate': 0.0008425561811316391, 'epoch': 1.69}
+2025-10-06 16:24:36 - ERROR - stderr -  28%|█████████████████████████████                                                                          | 589/2088 [1:16:04<2:56:22,  7.06s/it]
+2025-10-06 16:24:42 - ERROR - stderr -  28%|█████████████████████████████                                                                          | 590/2088 [1:16:11<2:54:03,  6.97s/it]
+2025-10-06 16:24:43 - ERROR - stderr - 
+2025-10-06 16:24:43 - ERROR - stderr - 
+2025-10-06 16:24:43 - INFO - stdout - {'loss': 1.2333, 'learning_rate': 0.0008419907188464691, 'epoch': 1.7}
+2025-10-06 16:24:43 - ERROR - stderr -  28%|█████████████████████████████                                                                          | 590/2088 [1:16:11<2:54:03,  6.97s/it]
+2025-10-06 16:24:50 - ERROR - stderr -  28%|█████████████████████████████▏                                                                         | 591/2088 [1:16:18<2:54:41,  7.00s/it]
+2025-10-06 16:24:50 - ERROR - stderr - 
+2025-10-06 16:24:50 - ERROR - stderr - 
+2025-10-06 16:24:50 - INFO - stdout - {'loss': 1.2009, 'learning_rate': 0.0008414244334398418, 'epoch': 1.7}
+2025-10-06 16:24:50 - ERROR - stderr -  28%|█████████████████████████████▏                                                                         | 591/2088 [1:16:18<2:54:41,  7.00s/it]
+2025-10-06 16:24:57 - ERROR - stderr -  28%|█████████████████████████████▏                                                                         | 592/2088 [1:16:25<2:56:06,  7.06s/it]
+2025-10-06 16:24:57 - ERROR - stderr - 
+2025-10-06 16:24:57 - ERROR - stderr - 
+2025-10-06 16:24:57 - INFO - stdout - {'loss': 1.3409, 'learning_rate': 0.0008408573262747225, 'epoch': 1.7}
+2025-10-06 16:24:57 - ERROR - stderr -  28%|█████████████████████████████▏                                                                         | 592/2088 [1:16:25<2:56:06,  7.06s/it]
+2025-10-06 16:25:04 - ERROR - stderr -  28%|█████████████████████████████▎                                                                         | 593/2088 [1:16:32<2:55:18,  7.04s/it]
+2025-10-06 16:25:04 - ERROR - stderr - 
+2025-10-06 16:25:04 - ERROR - stderr - 
+2025-10-06 16:25:04 - INFO - stdout - {'loss': 1.2753, 'learning_rate': 0.0008402893987160552, 'epoch': 1.7}
+2025-10-06 16:25:04 - ERROR - stderr -  28%|█████████████████████████████▎                                                                         | 593/2088 [1:16:32<2:55:18,  7.04s/it]
+2025-10-06 16:25:10 - ERROR - stderr -  28%|█████���███████████████████████▎                                                                         | 594/2088 [1:16:39<2:51:59,  6.91s/it]
+2025-10-06 16:25:10 - ERROR - stderr - 
+2025-10-06 16:25:10 - ERROR - stderr - 
+2025-10-06 16:25:10 - INFO - stdout - {'loss': 1.2734, 'learning_rate': 0.0008397206521307583, 'epoch': 1.71}
+2025-10-06 16:25:10 - ERROR - stderr -  28%|█████████████████████████████▎                                                                         | 594/2088 [1:16:39<2:51:59,  6.91s/it]
+2025-10-06 16:25:17 - ERROR - stderr -  28%|█████████████████████████████▎                                                                         | 595/2088 [1:16:46<2:51:25,  6.89s/it]
+2025-10-06 16:25:17 - ERROR - stderr - 
+2025-10-06 16:25:17 - ERROR - stderr - 
+2025-10-06 16:25:17 - INFO - stdout - {'loss': 1.222, 'learning_rate': 0.0008391510878877211, 'epoch': 1.71}
+2025-10-06 16:25:17 - ERROR - stderr -  28%|█████████████████████████████▎                                                                         | 595/2088 [1:16:46<2:51:25,  6.89s/it]
+2025-10-06 16:25:25 - ERROR - stderr -  29%|█████████████████████████████▍                                                                         | 596/2088 [1:16:53<2:57:02,  7.12s/it]
+2025-10-06 16:25:25 - ERROR - stderr - 
+2025-10-06 16:25:25 - ERROR - stderr - 
+2025-10-06 16:25:25 - INFO - stdout - {'loss': 1.3198, 'learning_rate': 0.0008385807073578014, 'epoch': 1.71}
+2025-10-06 16:25:25 - ERROR - stderr -  29%|█████████████████████████████▍                                                                         | 596/2088 [1:16:53<2:57:02,  7.12s/it]
+2025-10-06 16:25:32 - ERROR - stderr -  29%|█████████████████████████████▍                                                                         | 597/2088 [1:17:00<2:55:23,  7.06s/it]
+2025-10-06 16:25:32 - ERROR - stderr - 
+2025-10-06 16:25:32 - ERROR - stderr - 
+2025-10-06 16:25:32 - INFO - stdout - {'loss': 1.3423, 'learning_rate': 0.0008380095119138209, 'epoch': 1.72}
+2025-10-06 16:25:32 - ERROR - stderr -  29%|█████████████████████████████▍                                                                         | 597/2088 [1:17:00<2:55:23,  7.06s/it]
+2025-10-06 16:25:40 - ERROR - stderr -  29%|█████████████████████████████▍                                                                         | 598/2088 [1:17:08<3:03:15,  7.38s/it]
+2025-10-06 16:25:40 - ERROR - stderr - 
+2025-10-06 16:25:40 - ERROR - stderr - 
+2025-10-06 16:25:40 - INFO - stdout - {'loss': 1.3286, 'learning_rate': 0.0008374375029305639, 'epoch': 1.72}
+2025-10-06 16:25:40 - ERROR - stderr -  29%|█████████████████████████████▍                                                                         | 598/2088 [1:17:08<3:03:15,  7.38s/it]
+2025-10-06 16:25:47 - ERROR - stderr -  29%|█████████████████████████████▌                                                                         | 599/2088 [1:17:16<3:01:14,  7.30s/it]
+2025-10-06 16:25:47 - ERROR - stderr - 
+2025-10-06 16:25:47 - ERROR - stderr - 
+2025-10-06 16:25:47 - INFO - stdout - {'loss': 1.2325, 'learning_rate': 0.0008368646817847714, 'epoch': 1.72}
+2025-10-06 16:25:47 - ERROR - stderr -  29%|█████████████████████████████▌                                                                         | 599/2088 [1:17:16<3:01:14,  7.30s/it]
+2025-10-06 16:25:55 - ERROR - stderr -  29%|█████████████████████████████▌                                                                         | 600/2088 [1:17:24<3:06:58,  7.54s/it]
+2025-10-06 16:25:55 - ERROR - stderr - 
+2025-10-06 16:25:55 - ERROR - stderr - 
+2025-10-06 16:25:55 - INFO - stdout - {'loss': 1.2494, 'learning_rate': 0.0008362910498551402, 'epoch': 1.72}
+2025-10-06 16:25:55 - ERROR - stderr -  29%|█████████████████████████████▌                                                                         | 600/2088 [1:17:24<3:06:58,  7.54s/it]
+2025-10-06 16:26:02 - ERROR - stderr -  29%|█████████████████████████████▋                                                                         | 601/2088 [1:17:31<3:02:04,  7.35s/it]
+2025-10-06 16:26:02 - ERROR - stderr - 
+2025-10-06 16:26:02 - ERROR - stderr - 
+2025-10-06 16:26:02 - INFO - stdout - {'loss': 1.3176, 'learning_rate': 0.0008357166085223178, 'epoch': 1.73}
+2025-10-06 16:26:02 - ERROR - stderr -  29%|█████████████████████████████▋                                                                         | 601/2088 [1:17:31<3:02:04,  7.35s/it]
+2025-10-06 16:26:09 - ERROR - stderr -  29%|█████████████████████████████▋                                                                         | 602/2088 [1:17:38<3:00:34,  7.29s/it]
+2025-10-06 16:26:09 - ERROR - stderr - 
+2025-10-06 16:26:09 - ERROR - stderr - 
+2025-10-06 16:26:09 - INFO - stdout - {'loss': 1.254, 'learning_rate': 0.0008351413591689006, 'epoch': 1.73}
+2025-10-06 16:26:09 - ERROR - stderr -  29%|█████████████████████████████▋                                                                         | 602/2088 [1:17:38<3:00:34,  7.29s/it]
+2025-10-06 16:26:16 - ERROR - stderr -  29%|█████████████████████████████▋                                                                         | 603/2088 [1:17:45<2:57:02,  7.15s/it]
+2025-10-06 16:26:16 - ERROR - stderr - 
+2025-10-06 16:26:16 - ERROR - stderr - 
+2025-10-06 16:26:16 - INFO - stdout - {'loss': 1.2058, 'learning_rate': 0.0008345653031794292, 'epoch': 1.73}
+2025-10-06 16:26:16 - ERROR - stderr -  29%|█████████████████████████████▋                                                                         | 603/2088 [1:17:45<2:57:02,  7.15s/it]
+2025-10-06 16:26:23 - ERROR - stderr -  29%|█████████████████████████████▊                                                                         | 604/2088 [1:17:52<2:56:02,  7.12s/it]
+2025-10-06 16:26:23 - ERROR - stderr - 
+2025-10-06 16:26:23 - ERROR - stderr - 
+2025-10-06 16:26:23 - INFO - stdout - {'loss': 1.2507, 'learning_rate': 0.0008339884419403856, 'epoch': 1.74}
+2025-10-06 16:26:23 - ERROR - stderr -  29%|█████████████████████████████▊                                                                         | 604/2088 [1:17:52<2:56:02,  7.12s/it]
+2025-10-06 16:26:30 - ERROR - stderr -  29%|█████████████████████████████▊                                                                         | 605/2088 [1:17:58<2:53:43,  7.03s/it]
+2025-10-06 16:26:30 - ERROR - stderr - 
+2025-10-06 16:26:30 - ERROR - stderr - 
+2025-10-06 16:26:30 - INFO - stdout - {'loss': 1.2402, 'learning_rate': 0.0008334107768401902, 'epoch': 1.74}
+2025-10-06 16:26:30 - ERROR - stderr -  29%|█████████████████████████████▊                                                                         | 605/2088 [1:17:58<2:53:43,  7.03s/it]
+2025-10-06 16:26:37 - ERROR - stderr -  29%|█████████████████████████████▉                                                                         | 606/2088 [1:18:06<2:54:37,  7.07s/it]
+2025-10-06 16:26:37 - ERROR - stderr - 
+2025-10-06 16:26:37 - ERROR - stderr - 
+2025-10-06 16:26:37 - INFO - stdout - {'loss': 1.2913, 'learning_rate': 0.0008328323092691984, 'epoch': 1.74}
+2025-10-06 16:26:37 - ERROR - stderr -  29%|█████████████████████████████▉                                                                         | 606/2088 [1:18:06<2:54:37,  7.07s/it]
+2025-10-06 16:26:44 - ERROR - stderr -  29%|█████████████████████████████▉                                                                         | 607/2088 [1:18:13<2:54:56,  7.09s/it]
+2025-10-06 16:26:44 - ERROR - stderr - 
+2025-10-06 16:26:44 - ERROR - stderr - 
+2025-10-06 16:26:44 - INFO - stdout - {'loss': 1.3409, 'learning_rate': 0.0008322530406196963, 'epoch': 1.74}
+2025-10-06 16:26:44 - ERROR - stderr -  29%|█████████████████████████████▉                                                                         | 607/2088 [1:18:13<2:54:56,  7.09s/it]
+2025-10-06 16:26:51 - ERROR - stderr -  29%|█████████████████████████████▉                                                                         | 608/2088 [1:18:20<2:54:22,  7.07s/it]
+2025-10-06 16:26:51 - ERROR - stderr - 
+2025-10-06 16:26:51 - ERROR - stderr - 
+2025-10-06 16:26:51 - INFO - stdout - {'loss': 1.2669, 'learning_rate': 0.0008316729722858987, 'epoch': 1.75}
+2025-10-06 16:26:51 - ERROR - stderr -  29%|█████████████████████████████▉                                                                         | 608/2088 [1:18:20<2:54:22,  7.07s/it]
+2025-10-06 16:26:58 - ERROR - stderr -  29%|██████████████████████████████                                                                         | 609/2088 [1:18:27<2:55:39,  7.13s/it]
+2025-10-06 16:26:58 - ERROR - stderr - 
+2025-10-06 16:26:58 - ERROR - stderr - 
+2025-10-06 16:26:58 - INFO - stdout - {'loss': 1.2624, 'learning_rate': 0.0008310921056639451, 'epoch': 1.75}
+2025-10-06 16:26:58 - ERROR - stderr -  29%|██████████████████████████████                                                                         | 609/2088 [1:18:27<2:55:39,  7.13s/it]
+2025-10-06 16:27:05 - ERROR - stderr -  29%|██████████████████████████████                                                                         | 610/2088 [1:18:34<2:52:59,  7.02s/it]
+2025-10-06 16:27:05 - ERROR - stderr - 
+2025-10-06 16:27:05 - ERROR - stderr - 
+2025-10-06 16:27:05 - INFO - stdout - {'loss': 1.2816, 'learning_rate': 0.0008305104421518958, 'epoch': 1.75}
+2025-10-06 16:27:05 - ERROR - stderr -  29%|██████████████████████████████                                                                         | 610/2088 [1:18:34<2:52:59,  7.02s/it]
+2025-10-06 16:27:12 - ERROR - stderr -  29%|██████████████████████████████▏                                                                        | 611/2088 [1:18:41<2:53:41,  7.06s/it]
+2025-10-06 16:27:12 - ERROR - stderr - 
+2025-10-06 16:27:12 - ERROR - stderr - 
+2025-10-06 16:27:12 - INFO - stdout - {'loss': 1.3373, 'learning_rate': 0.0008299279831497298, 'epoch': 1.76}
+2025-10-06 16:27:12 - ERROR - stderr -  29%|██████████████████████████████▏                                                                        | 611/2088 [1:18:41<2:53:41,  7.06s/it]
+2025-10-06 16:27:13 - INFO - stdout - [Warning] Zero or NaN encountered in pc_norm! pc_id: 87e8e5a7-0aae-571e-882e-0f8e926169d6
+2025-10-06 16:27:13 - INFO - stdout - m: [[0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]
+2025-10-06 16:27:13 - INFO - stdout -  [0.]]
+2025-10-06 16:27:19 - ERROR - stderr -  29%|██████████████████████████████▏                                                                        | 612/2088 [1:18:48<2:52:53,  7.03s/it]
+2025-10-06 16:27:19 - ERROR - stderr - 
+2025-10-06 16:27:19 - ERROR - stderr - 
+2025-10-06 16:27:19 - INFO - stdout - {'loss': 1.2558, 'learning_rate': 0.0008293447300593402, 'epoch': 1.76}
+2025-10-06 16:27:19 - ERROR - stderr -  29%|██████████████████████████████▏                                                                        | 612/2088 [1:18:48<2:52:53,  7.03s/it]
+2025-10-06 16:27:27 - ERROR - stderr -  29%|██████████████████████████████▏                                                                        | 613/2088 [1:18:55<2:54:56,  7.12s/it]
+2025-10-06 16:27:27 - ERROR - stderr - 
+2025-10-06 16:27:27 - ERROR - stderr - 
+2025-10-06 16:27:27 - INFO - stdout - {'loss': 1.3055, 'learning_rate': 0.0008287606842845319, 'epoch': 1.76}
+2025-10-06 16:27:27 - ERROR - stderr -  29%|██████████████████████████████▏                                                                        | 613/2088 [1:18:55<2:54:56,  7.12s/it]
+2025-10-06 16:27:34 - ERROR - stderr -  29%|██████████████████████████████▎                                                                        | 614/2088 [1:19:02<2:56:11,  7.17s/it]
+2025-10-06 16:27:34 - ERROR - stderr - 
+2025-10-06 16:27:34 - ERROR - stderr - 
+2025-10-06 16:27:34 - INFO - stdout - {'loss': 1.2143, 'learning_rate': 0.000828175847231017, 'epoch': 1.76}
+2025-10-06 16:27:34 - ERROR - stderr -  29%|██████████████████████████████▎                                                                        | 614/2088 [1:19:02<2:56:11,  7.17s/it]
+2025-10-06 16:27:41 - ERROR - stderr -  29%|██████████████████████████████▎                                                                        | 615/2088 [1:19:09<2:55:10,  7.14s/it]
+2025-10-06 16:27:41 - ERROR - stderr - 
+2025-10-06 16:27:41 - ERROR - stderr - 
+2025-10-06 16:27:41 - INFO - stdout - {'loss': 1.2676, 'learning_rate': 0.0008275902203064126, 'epoch': 1.77}
+2025-10-06 16:27:41 - ERROR - stderr -  29%|██████████████████████████████▎                                                                        | 615/2088 [1:19:10<2:55:10,  7.14s/it]
+2025-10-06 16:27:48 - ERROR - stderr -  30%|██████████████████████████████▍                                                                        | 616/2088 [1:19:16<2:53:06,  7.06s/it]
+2025-10-06 16:27:48 - ERROR - stderr - 
+2025-10-06 16:27:48 - ERROR - stderr - 
+2025-10-06 16:27:48 - INFO - stdout - {'loss': 1.2161, 'learning_rate': 0.0008270038049202367, 'epoch': 1.77}
+2025-10-06 16:27:48 - ERROR - stderr -  30%|██████████████████████████████▍                                                                        | 616/2088 [1:19:16<2:53:06,  7.06s/it]
+2025-10-06 16:27:55 - ERROR - stderr -  30%|██████████████████████████████▍                                                                        | 617/2088 [1:19:23<2:51:34,  7.00s/it]
+2025-10-06 16:27:55 - ERROR - stderr - 
+2025-10-06 16:27:55 - ERROR - stderr - 
+2025-10-06 16:27:55 - INFO - stdout - {'loss': 1.2389, 'learning_rate': 0.0008264166024839051, 'epoch': 1.77}
+2025-10-06 16:27:55 - ERROR - stderr -  30%|██████████████████████████████▍                                                                        | 617/2088 [1:19:23<2:51:34,  7.00s/it]
+2025-10-06 16:28:02 - ERROR - stderr -  30%|██████████████████████████████▍                                                                        | 618/2088 [1:19:30<2:52:24,  7.04s/it]
+2025-10-06 16:28:02 - ERROR - stderr - 
+2025-10-06 16:28:02 - ERROR - stderr - 
+2025-10-06 16:28:02 - INFO - stdout - {'loss': 1.2129, 'learning_rate': 0.0008258286144107276, 'epoch': 1.78}
+2025-10-06 16:28:02 - ERROR - stderr -  30%|██████████████████████████████▍                                                                        | 618/2088 [1:19:30<2:52:24,  7.04s/it]
+2025-10-06 16:28:09 - ERROR - stderr -  30%|██████████████████████████████▌                                                                        | 619/2088 [1:19:38<2:55:34,  7.17s/it]
+2025-10-06 16:28:09 - ERROR - stderr - 
+2025-10-06 16:28:09 - ERROR - stderr - 
+2025-10-06 16:28:09 - INFO - stdout - {'loss': 1.2601, 'learning_rate': 0.0008252398421159055, 'epoch': 1.78}
+2025-10-06 16:28:09 - ERROR - stderr -  30%|██████████████████████████████▌                                                                        | 619/2088 [1:19:38<2:55:34,  7.17s/it]
+2025-10-06 16:28:16 - ERROR - stderr -  30%|██████████████████████████████▌                                                                        | 620/2088 [1:19:45<2:52:59,  7.07s/it]
+2025-10-06 16:28:16 - ERROR - stderr - 
+2025-10-06 16:28:16 - ERROR - stderr - 
+2025-10-06 16:28:16 - INFO - stdout - {'loss': 1.3371, 'learning_rate': 0.0008246502870165273, 'epoch': 1.78}
+2025-10-06 16:28:16 - ERROR - stderr -  30%|██████████████████████████████▌                                                                        | 620/2088 [1:19:45<2:52:59,  7.07s/it]
+2025-10-06 16:28:23 - ERROR - stderr -  30%|██████████████████████████████▋                                                                        | 621/2088 [1:19:52<2:52:28,  7.05s/it]
+2025-10-06 16:28:23 - ERROR - stderr - 
+2025-10-06 16:28:23 - ERROR - stderr - 
+2025-10-06 16:28:23 - INFO - stdout - {'loss': 1.251, 'learning_rate': 0.0008240599505315655, 'epoch': 1.78}
+2025-10-06 16:28:23 - ERROR - stderr -  30%|██████████████████████████████▋                                                                        | 621/2088 [1:19:52<2:52:28,  7.05s/it]
+2025-10-06 16:28:30 - ERROR - stderr -  30%|██████████████████████████████▋                                                                        | 622/2088 [1:19:59<2:53:47,  7.11s/it]
+2025-10-06 16:28:30 - ERROR - stderr - 
+2025-10-06 16:28:30 - ERROR - stderr - 
+2025-10-06 16:28:30 - INFO - stdout - {'loss': 1.2202, 'learning_rate': 0.0008234688340818733, 'epoch': 1.79}
+2025-10-06 16:28:30 - ERROR - stderr -  30%|██████████████████████████████▋                                                                        | 622/2088 [1:19:59<2:53:47,  7.11s/it]
+2025-10-06 16:28:38 - ERROR - stderr -  30%|██████████████████████████████▋                                                                        | 623/2088 [1:20:06<2:55:38,  7.19s/it]
+2025-10-06 16:28:38 - ERROR - stderr - 
+2025-10-06 16:28:38 - ERROR - stderr - 
+2025-10-06 16:28:38 - INFO - stdout - {'loss': 1.2857, 'learning_rate': 0.0008228769390901811, 'epoch': 1.79}
+2025-10-06 16:28:38 - ERROR - stderr -  30%|██████████████████████████████▋                                                                        | 623/2088 [1:20:06<2:55:38,  7.19s/it]
+2025-10-06 16:28:45 - ERROR - stderr -  30%|██████████████████████████████▊                                                                        | 624/2088 [1:20:13<2:54:53,  7.17s/it]
+2025-10-06 16:28:45 - ERROR - stderr - 
+2025-10-06 16:28:45 - ERROR - stderr - 
+2025-10-06 16:28:45 - INFO - stdout - {'loss': 1.2479, 'learning_rate': 0.0008222842669810935, 'epoch': 1.79}
+2025-10-06 16:28:45 - ERROR - stderr -  30%|██████████████████████████████▊                                                                        | 624/2088 [1:20:13<2:54:53,  7.17s/it]
+2025-10-06 16:28:52 - ERROR - stderr -  30%|██████████████████████████████▊                                                                        | 625/2088 [1:20:21<2:56:14,  7.23s/it]
+2025-10-06 16:28:52 - ERROR - stderr - 
+2025-10-06 16:28:52 - ERROR - stderr - 
+2025-10-06 16:28:52 - INFO - stdout - {'loss': 1.2333, 'learning_rate': 0.0008216908191810852, 'epoch': 1.8}
+2025-10-06 16:28:52 - ERROR - stderr -  30%|██████████████████████████████▊                                                                        | 625/2088 [1:20:21<2:56:14,  7.23s/it]
+2025-10-06 16:28:59 - ERROR - stderr -  30%|██████████████████████████████▉                                                                        | 626/2088 [1:20:27<2:51:34,  7.04s/it]
+2025-10-06 16:28:59 - ERROR - stderr - 
+2025-10-06 16:28:59 - ERROR - stderr - 
+2025-10-06 16:28:59 - INFO - stdout - {'loss': 1.2842, 'learning_rate': 0.0008210965971184979, 'epoch': 1.8}
+2025-10-06 16:28:59 - ERROR - stderr -  30%|██████████████████████████████▉                                                                        | 626/2088 [1:20:27<2:51:34,  7.04s/it]
+2025-10-06 16:29:06 - ERROR - stderr -  30%|██████████████████████████████▉                                                                        | 627/2088 [1:20:35<2:52:06,  7.07s/it]
+2025-10-06 16:29:06 - ERROR - stderr - 
+2025-10-06 16:29:06 - ERROR - stderr - 
+2025-10-06 16:29:06 - INFO - stdout - {'loss': 1.2927, 'learning_rate': 0.0008205016022235367, 'epoch': 1.8}
+2025-10-06 16:29:06 - ERROR - stderr -  30%|██████████████████████████████▉                                                                        | 627/2088 [1:20:35<2:52:06,  7.07s/it]
+2025-10-06 16:29:13 - ERROR - stderr -  30%|██████████████████████████████▉                                                                        | 628/2088 [1:20:42<2:51:40,  7.05s/it]
+2025-10-06 16:29:13 - ERROR - stderr - 
+2025-10-06 16:29:13 - ERROR - stderr - 
+2025-10-06 16:29:13 - INFO - stdout - {'loss': 1.3098, 'learning_rate': 0.0008199058359282674, 'epoch': 1.8}
+2025-10-06 16:29:13 - ERROR - stderr -  30%|██████████████████████████████▉                                                                        | 628/2088 [1:20:42<2:51:40,  7.05s/it]
+2025-10-06 16:29:20 - ERROR - stderr -  30%|███████████████████████████████                                                                        | 629/2088 [1:20:48<2:50:18,  7.00s/it]
+2025-10-06 16:29:20 - ERROR - stderr - 
+2025-10-06 16:29:20 - ERROR - stderr - 
+2025-10-06 16:29:20 - INFO - stdout - {'loss': 1.2432, 'learning_rate': 0.0008193092996666117, 'epoch': 1.81}
+2025-10-06 16:29:20 - ERROR - stderr -  30%|███████████████████████���███████                                                                        | 629/2088 [1:20:48<2:50:18,  7.00s/it]
+2025-10-06 16:29:27 - ERROR - stderr -  30%|███████████████████████████████                                                                        | 630/2088 [1:20:55<2:50:16,  7.01s/it]
+2025-10-06 16:29:27 - ERROR - stderr - 
+2025-10-06 16:29:27 - ERROR - stderr - 
+2025-10-06 16:29:27 - INFO - stdout - {'loss': 1.3965, 'learning_rate': 0.0008187119948743449, 'epoch': 1.81}
+2025-10-06 16:29:27 - ERROR - stderr -  30%|███████████████████████████████                                                                        | 630/2088 [1:20:55<2:50:16,  7.01s/it]
+2025-10-06 16:29:34 - ERROR - stderr -  30%|███████████████████████████████▏                                                                       | 631/2088 [1:21:03<2:53:15,  7.13s/it]
+2025-10-06 16:29:34 - ERROR - stderr - 
+2025-10-06 16:29:34 - ERROR - stderr - 
+2025-10-06 16:29:34 - INFO - stdout - {'loss': 1.2213, 'learning_rate': 0.0008181139229890919, 'epoch': 1.81}
+2025-10-06 16:29:34 - ERROR - stderr -  30%|███████████████████████████████▏                                                                       | 631/2088 [1:21:03<2:53:15,  7.13s/it]
+2025-10-06 16:29:41 - ERROR - stderr -  30%|███████████████████████████████▏                                                                       | 632/2088 [1:21:10<2:52:12,  7.10s/it]
+2025-10-06 16:29:41 - ERROR - stderr - 
+2025-10-06 16:29:41 - ERROR - stderr - 
+2025-10-06 16:29:41 - INFO - stdout - {'loss': 1.2632, 'learning_rate': 0.0008175150854503239, 'epoch': 1.82}
+2025-10-06 16:29:41 - ERROR - stderr -  30%|███████████████████████████████▏                                                                       | 632/2088 [1:21:10<2:52:12,  7.10s/it]
+2025-10-06 16:29:48 - ERROR - stderr -  30%|███████████████████████████████▏                                                                       | 633/2088 [1:21:17<2:50:10,  7.02s/it]
+2025-10-06 16:29:48 - ERROR - stderr - 
+2025-10-06 16:29:48 - ERROR - stderr - 
+2025-10-06 16:29:48 - INFO - stdout - {'loss': 1.2207, 'learning_rate': 0.0008169154836993551, 'epoch': 1.82}
+2025-10-06 16:29:48 - ERROR - stderr -  30%|███████████████████████████████▏                                                                       | 633/2088 [1:21:17<2:50:10,  7.02s/it]
+2025-10-06 16:29:55 - ERROR - stderr -  30%|███████████████████████████████▎                                                                       | 634/2088 [1:21:24<2:49:05,  6.98s/it]
+2025-10-06 16:29:55 - ERROR - stderr - 
+2025-10-06 16:29:55 - ERROR - stderr - 
+2025-10-06 16:29:55 - INFO - stdout - {'loss': 1.3216, 'learning_rate': 0.000816315119179339, 'epoch': 1.82}
+2025-10-06 16:29:55 - ERROR - stderr -  30%|███████████████████████████████▎                                                                       | 634/2088 [1:21:24<2:49:05,  6.98s/it]
+2025-10-06 16:30:02 - ERROR - stderr -  30%|███████████████████████████████▎                                                                       | 635/2088 [1:21:31<2:48:28,  6.96s/it]
+2025-10-06 16:30:02 - ERROR - stderr - 
+2025-10-06 16:30:02 - ERROR - stderr - 
+2025-10-06 16:30:02 - INFO - stdout - {'loss': 1.2689, 'learning_rate': 0.0008157139933352644, 'epoch': 1.82}
+2025-10-06 16:30:02 - ERROR - stderr -  30%|███████████████████████████████▎                                                                       | 635/2088 [1:21:31<2:48:28,  6.96s/it]
+2025-10-06 16:30:09 - ERROR - stderr -  30%|███████████████████████████████▎                                                                       | 636/2088 [1:21:38<2:49:54,  7.02s/it]
+2025-10-06 16:30:09 - ERROR - stderr - 
+2025-10-06 16:30:09 - ERROR - stderr - 
+2025-10-06 16:30:09 - INFO - stdout - {'loss': 1.3096, 'learning_rate': 0.0008151121076139533, 'epoch': 1.83}
+2025-10-06 16:30:09 - ERROR - stderr -  30%|███████████████████████████████▎                                                                       | 636/2088 [1:21:38<2:49:54,  7.02s/it]
+2025-10-06 16:30:16 - ERROR - stderr -  31%|███████████████████████████████▍                                                                       | 637/2088 [1:21:45<2:50:40,  7.06s/it]
+2025-10-06 16:30:16 - ERROR - stderr - 
+2025-10-06 16:30:16 - ERROR - stderr - 
+2025-10-06 16:30:16 - INFO - stdout - {'loss': 1.3367, 'learning_rate': 0.0008145094634640562, 'epoch': 1.83}
+2025-10-06 16:30:16 - ERROR - stderr -  31%|███████████████████████████████▍                                                                       | 637/2088 [1:21:45<2:50:40,  7.06s/it]
+2025-10-06 16:30:23 - ERROR - stderr -  31%|███████████████████████████████▍                                                                       | 638/2088 [1:21:52<2:48:19,  6.96s/it]
+2025-10-06 16:30:23 - ERROR - stderr - 
+2025-10-06 16:30:23 - ERROR - stderr - 
+2025-10-06 16:30:23 - INFO - stdout - {'loss': 1.2335, 'learning_rate': 0.0008139060623360494, 'epoch': 1.83}
+2025-10-06 16:30:23 - ERROR - stderr -  31%|███████████████████████████████▍                                                                       | 638/2088 [1:21:52<2:48:19,  6.96s/it]
+2025-10-06 16:30:30 - ERROR - stderr -  31%|███████████████████████████████▌                                                                       | 639/2088 [1:21:59<2:48:47,  6.99s/it]
+2025-10-06 16:30:30 - ERROR - stderr - 
+2025-10-06 16:30:30 - ERROR - stderr - 
+2025-10-06 16:30:30 - INFO - stdout - {'loss': 1.2841, 'learning_rate': 0.0008133019056822303, 'epoch': 1.84}
+2025-10-06 16:30:30 - ERROR - stderr -  31%|███████████████████████████████▌                                                                       | 639/2088 [1:21:59<2:48:47,  6.99s/it]
+2025-10-06 16:30:37 - ERROR - stderr -  31%|███████████████████████████████▌                                                                       | 640/2088 [1:22:06<2:50:01,  7.05s/it]
+2025-10-06 16:30:37 - ERROR - stderr - 
+2025-10-06 16:30:37 - ERROR - stderr - 
+2025-10-06 16:30:37 - INFO - stdout - {'loss': 1.2068, 'learning_rate': 0.0008126969949567156, 'epoch': 1.84}
+2025-10-06 16:30:37 - ERROR - stderr -  31%|███████████████████████████████▌                                                                       | 640/2088 [1:22:06<2:50:01,  7.05s/it]
+2025-10-06 16:30:44 - ERROR - stderr -  31%|███████████████████████████████▌                                                                       | 641/2088 [1:22:13<2:49:16,  7.02s/it]
+2025-10-06 16:30:44 - ERROR - stderr - 
+2025-10-06 16:30:44 - ERROR - stderr - 
+2025-10-06 16:30:44 - INFO - stdout - {'loss': 1.1934, 'learning_rate': 0.0008120913316154365, 'epoch': 1.84}
+2025-10-06 16:30:44 - ERROR - stderr -  31%|███████████████████████████████▌                                                                       | 641/2088 [1:22:13<2:49:16,  7.02s/it]
+2025-10-06 16:30:52 - ERROR - stderr -  31%|███████████████████████████████▋                                                                       | 642/2088 [1:22:21<2:54:33,  7.24s/it]
+2025-10-06 16:30:52 - ERROR - stderr - 
+2025-10-06 16:30:52 - ERROR - stderr - 
+2025-10-06 16:30:52 - INFO - stdout - {'loss': 1.2504, 'learning_rate': 0.0008114849171161361, 'epoch': 1.84}
+2025-10-06 16:30:52 - ERROR - stderr -  31%|███████████████████████████████▋                                                                       | 642/2088 [1:22:21<2:54:33,  7.24s/it]
+2025-10-06 16:30:59 - ERROR - stderr -  31%|███████████████████████████████▋                                                                       | 643/2088 [1:22:27<2:52:17,  7.15s/it]
+2025-10-06 16:30:59 - ERROR - stderr - 
+2025-10-06 16:30:59 - ERROR - stderr - 
+2025-10-06 16:30:59 - INFO - stdout - {'loss': 1.2598, 'learning_rate': 0.0008108777529183644, 'epoch': 1.85}
+2025-10-06 16:30:59 - ERROR - stderr -  31%|███████████████████████████████▋                                                                       | 643/2088 [1:22:27<2:52:17,  7.15s/it]
+2025-10-06 16:31:06 - ERROR - stderr -  31%|███████████████████████████████▊                                                                       | 644/2088 [1:22:35<2:51:44,  7.14s/it]
+2025-10-06 16:31:06 - ERROR - stderr - 
+2025-10-06 16:31:06 - ERROR - stderr - 
+2025-10-06 16:31:06 - INFO - stdout - {'loss': 1.216, 'learning_rate': 0.0008102698404834772, 'epoch': 1.85}
+2025-10-06 16:31:06 - ERROR - stderr -  31%|███████████████████████████████▊                                                                       | 644/2088 [1:22:35<2:51:44,  7.14s/it]
+2025-10-06 16:31:13 - ERROR - stderr -  31%|███████████████████████████████▊                                                                       | 645/2088 [1:22:41<2:49:15,  7.04s/it]
+2025-10-06 16:31:13 - ERROR - stderr - 
+2025-10-06 16:31:13 - ERROR - stderr - 
+2025-10-06 16:31:13 - INFO - stdout - {'loss': 1.1882, 'learning_rate': 0.0008096611812746301, 'epoch': 1.85}
+2025-10-06 16:31:13 - ERROR - stderr -  31%|███████████████████████████████▊                                                                       | 645/2088 [1:22:41<2:49:15,  7.04s/it]
+2025-10-06 16:31:20 - ERROR - stderr -  31%|███████████████████████████████▊                                                                       | 646/2088 [1:22:48<2:48:55,  7.03s/it]
+2025-10-06 16:31:20 - ERROR - stderr - 
+2025-10-06 16:31:20 - ERROR - stderr - 
+2025-10-06 16:31:20 - INFO - stdout - {'loss': 1.3034, 'learning_rate': 0.0008090517767567764, 'epoch': 1.86}
+2025-10-06 16:31:20 - ERROR - stderr -  31%|███████████████████████████████▊                                                                       | 646/2088 [1:22:48<2:48:55,  7.03s/it]
+2025-10-06 16:31:27 - ERROR - stderr -  31%|███████████████████████████████▉                                                                       | 647/2088 [1:22:55<2:48:57,  7.04s/it]
+2025-10-06 16:31:27 - ERROR - stderr - 
+2025-10-06 16:31:27 - ERROR - stderr - 
+2025-10-06 16:31:27 - INFO - stdout - {'loss': 1.2061, 'learning_rate': 0.0008084416283966636, 'epoch': 1.86}
+2025-10-06 16:31:27 - ERROR - stderr -  31%|███████████████████████████████▉                                                                       | 647/2088 [1:22:55<2:48:57,  7.04s/it]
+2025-10-06 16:31:34 - ERROR - stderr -  31%|███████████████████████████████▉                                                                       | 648/2088 [1:23:03<2:49:30,  7.06s/it]
+2025-10-06 16:31:34 - ERROR - stderr - 
+2025-10-06 16:31:34 - ERROR - stderr - 
+2025-10-06 16:31:34 - INFO - stdout - {'loss': 1.2224, 'learning_rate': 0.0008078307376628291, 'epoch': 1.86}
+2025-10-06 16:31:34 - ERROR - stderr -  31%|███████████████████████████████▉                                                                       | 648/2088 [1:23:03<2:49:30,  7.06s/it]
+2025-10-06 16:31:41 - ERROR - stderr -  31%|████████████████████████████████                                                                       | 649/2088 [1:23:10<2:50:14,  7.10s/it]
+2025-10-06 16:31:41 - ERROR - stderr - 
+2025-10-06 16:31:41 - ERROR - stderr - 
+2025-10-06 16:31:41 - INFO - stdout - {'loss': 1.2573, 'learning_rate': 0.0008072191060255973, 'epoch': 1.86}
+2025-10-06 16:31:41 - ERROR - stderr -  31%|████████████████████████████████                                                                       | 649/2088 [1:23:10<2:50:14,  7.10s/it]
+2025-10-06 16:31:48 - ERROR - stderr -  31%|████████████████████████████████                                                                       | 650/2088 [1:23:17<2:50:39,  7.12s/it]
+2025-10-06 16:31:48 - ERROR - stderr - 
+2025-10-06 16:31:48 - ERROR - stderr - 
+2025-10-06 16:31:48 - INFO - stdout - {'loss': 1.2226, 'learning_rate': 0.0008066067349570756, 'epoch': 1.87}
+2025-10-06 16:31:48 - ERROR - stderr -  31%|████████████████████████████████                                                                       | 650/2088 [1:23:17<2:50:39,  7.12s/it]
+2025-10-06 16:31:55 - ERROR - stderr -  31%|████████████████████████████████                                                                       | 651/2088 [1:23:24<2:48:59,  7.06s/it]
+2025-10-06 16:31:55 - ERROR - stderr - 
+2025-10-06 16:31:55 - ERROR - stderr - 
+2025-10-06 16:31:55 - INFO - stdout - {'loss': 1.278, 'learning_rate': 0.0008059936259311513, 'epoch': 1.87}
+2025-10-06 16:31:55 - ERROR - stderr -  31%|████████████████████���███████████                                                                       | 651/2088 [1:23:24<2:48:59,  7.06s/it]
+2025-10-06 16:32:02 - ERROR - stderr -  31%|████████████████████████████████▏                                                                      | 652/2088 [1:23:31<2:48:49,  7.05s/it]
+2025-10-06 16:32:02 - ERROR - stderr - 
+2025-10-06 16:32:02 - ERROR - stderr - 
+2025-10-06 16:32:02 - INFO - stdout - {'loss': 1.2811, 'learning_rate': 0.0008053797804234882, 'epoch': 1.87}
+2025-10-06 16:32:02 - ERROR - stderr -  31%|████████████████████████████████▏                                                                      | 652/2088 [1:23:31<2:48:49,  7.05s/it]
+2025-10-06 16:32:09 - ERROR - stderr -  31%|████████████████████████████████▏                                                                      | 653/2088 [1:23:38<2:48:47,  7.06s/it]
+2025-10-06 16:32:09 - ERROR - stderr - 
+2025-10-06 16:32:09 - ERROR - stderr - 
+2025-10-06 16:32:09 - INFO - stdout - {'loss': 1.2231, 'learning_rate': 0.0008047651999115216, 'epoch': 1.88}
+2025-10-06 16:32:09 - ERROR - stderr -  31%|████████████████████████████████▏                                                                      | 653/2088 [1:23:38<2:48:47,  7.06s/it]
+2025-10-06 16:32:17 - ERROR - stderr -  31%|████████████████████████████████▎                                                                      | 654/2088 [1:23:45<2:49:21,  7.09s/it]
+2025-10-06 16:32:17 - ERROR - stderr - 
+2025-10-06 16:32:17 - ERROR - stderr - 
+2025-10-06 16:32:17 - INFO - stdout - {'loss': 1.286, 'learning_rate': 0.0008041498858744571, 'epoch': 1.88}
+2025-10-06 16:32:17 - ERROR - stderr -  31%|████████████████████████████████▎                                                                      | 654/2088 [1:23:45<2:49:21,  7.09s/it]
+2025-10-06 16:32:24 - ERROR - stderr -  31%|████████████████████████████████▎                                                                      | 655/2088 [1:23:52<2:49:11,  7.08s/it]
+2025-10-06 16:32:24 - ERROR - stderr - 
+2025-10-06 16:32:24 - ERROR - stderr - 
+2025-10-06 16:32:24 - INFO - stdout - {'loss': 1.2627, 'learning_rate': 0.0008035338397932652, 'epoch': 1.88}
+2025-10-06 16:32:24 - ERROR - stderr -  31%|████████████████████████████████▎                                                                      | 655/2088 [1:23:52<2:49:11,  7.08s/it]
+2025-10-06 16:32:31 - ERROR - stderr -  31%|████████████████████████████████▎                                                                      | 656/2088 [1:24:00<2:51:25,  7.18s/it]
+2025-10-06 16:32:31 - ERROR - stderr - 
+2025-10-06 16:32:31 - ERROR - stderr - 
+2025-10-06 16:32:31 - INFO - stdout - {'loss': 1.2633, 'learning_rate': 0.0008029170631506785, 'epoch': 1.89}
+2025-10-06 16:32:31 - ERROR - stderr -  31%|████████████████████████████████▎                                                                      | 656/2088 [1:24:00<2:51:25,  7.18s/it]
+2025-10-06 16:32:38 - ERROR - stderr -  31%|████████████████████████████████▍                                                                      | 657/2088 [1:24:07<2:50:55,  7.17s/it]
+2025-10-06 16:32:38 - ERROR - stderr - 
+2025-10-06 16:32:38 - ERROR - stderr - 
+2025-10-06 16:32:38 - INFO - stdout - {'loss': 1.2814, 'learning_rate': 0.0008022995574311875, 'epoch': 1.89}
+2025-10-06 16:32:38 - ERROR - stderr -  31%|████████████████████████████████▍                                                                      | 657/2088 [1:24:07<2:50:55,  7.17s/it]
+2025-10-06 16:32:45 - ERROR - stderr -  32%|████████████████████████████████▍                                                                      | 658/2088 [1:24:14<2:50:19,  7.15s/it]
+2025-10-06 16:32:45 - ERROR - stderr - 
+2025-10-06 16:32:45 - ERROR - stderr - 
+2025-10-06 16:32:45 - INFO - stdout - {'loss': 1.2839, 'learning_rate': 0.0008016813241210379, 'epoch': 1.89}
+2025-10-06 16:32:45 - ERROR - stderr -  32%|████████████████████████████████▍                                                                      | 658/2088 [1:24:14<2:50:19,  7.15s/it]
+2025-10-06 16:32:52 - ERROR - stderr -  32%|██��█████████████████████████████▌                                                                      | 659/2088 [1:24:21<2:48:43,  7.08s/it]
+2025-10-06 16:32:52 - ERROR - stderr - 
+2025-10-06 16:32:52 - ERROR - stderr - 
+2025-10-06 16:32:52 - INFO - stdout - {'loss': 1.2662, 'learning_rate': 0.0008010623647082268, 'epoch': 1.89}
+2025-10-06 16:32:52 - ERROR - stderr -  32%|████████████████████████████████▌                                                                      | 659/2088 [1:24:21<2:48:43,  7.08s/it]
+2025-10-06 16:32:59 - ERROR - stderr -  32%|████████████████████████████████▌                                                                      | 660/2088 [1:24:28<2:48:21,  7.07s/it]
+2025-10-06 16:32:59 - ERROR - stderr - 
+2025-10-06 16:32:59 - ERROR - stderr - 
+2025-10-06 16:32:59 - INFO - stdout - {'loss': 1.2516, 'learning_rate': 0.0008004426806824984, 'epoch': 1.9}
+2025-10-06 16:32:59 - ERROR - stderr -  32%|████████████████████████████████▌                                                                      | 660/2088 [1:24:28<2:48:21,  7.07s/it]
+2025-10-06 16:33:06 - ERROR - stderr -  32%|████████████████████████████████▌                                                                      | 661/2088 [1:24:35<2:45:37,  6.96s/it]
+2025-10-06 16:33:06 - ERROR - stderr - 
+2025-10-06 16:33:06 - ERROR - stderr - 
+2025-10-06 16:33:06 - INFO - stdout - {'loss': 1.23, 'learning_rate': 0.0007998222735353411, 'epoch': 1.9}
+2025-10-06 16:33:06 - ERROR - stderr -  32%|████████████████████████████████▌                                                                      | 661/2088 [1:24:35<2:45:37,  6.96s/it]
+2025-10-06 16:33:13 - ERROR - stderr -  32%|████████████████████████████████▋                                                                      | 662/2088 [1:24:41<2:44:42,  6.93s/it]
+2025-10-06 16:33:13 - ERROR - stderr - 
+2025-10-06 16:33:13 - ERROR - stderr - 
+2025-10-06 16:33:13 - INFO - stdout - {'loss': 1.1748, 'learning_rate': 0.0007992011447599841, 'epoch': 1.9}
+2025-10-06 16:33:13 - ERROR - stderr -  32%|████████████████████████████████▋                                                                      | 662/2088 [1:24:41<2:44:42,  6.93s/it]
+2025-10-06 16:33:20 - ERROR - stderr -  32%|████████████████████████████████▋                                                                      | 663/2088 [1:24:49<2:47:50,  7.07s/it]
+2025-10-06 16:33:20 - ERROR - stderr - 
+2025-10-06 16:33:20 - ERROR - stderr - 
+2025-10-06 16:33:20 - INFO - stdout - {'loss': 1.279, 'learning_rate': 0.0007985792958513931, 'epoch': 1.91}
+2025-10-06 16:33:20 - ERROR - stderr -  32%|████████████████████████████████▋                                                                      | 663/2088 [1:24:49<2:47:50,  7.07s/it]
+2025-10-06 16:33:27 - ERROR - stderr -  32%|████████████████████████████████▊                                                                      | 664/2088 [1:24:56<2:47:41,  7.07s/it]
+2025-10-06 16:33:27 - ERROR - stderr - 
+2025-10-06 16:33:27 - ERROR - stderr - 
+2025-10-06 16:33:27 - INFO - stdout - {'loss': 1.2593, 'learning_rate': 0.000797956728306267, 'epoch': 1.91}
+2025-10-06 16:33:27 - ERROR - stderr -  32%|████████████████████████████████▊                                                                      | 664/2088 [1:24:56<2:47:41,  7.07s/it]
+2025-10-06 16:33:34 - ERROR - stderr -  32%|████████████████████████████████▊                                                                      | 665/2088 [1:25:03<2:46:43,  7.03s/it]
+2025-10-06 16:33:34 - ERROR - stderr - 
+2025-10-06 16:33:34 - ERROR - stderr - 
+2025-10-06 16:33:34 - INFO - stdout - {'loss': 1.2644, 'learning_rate': 0.0007973334436230346, 'epoch': 1.91}
+2025-10-06 16:33:34 - ERROR - stderr -  32%|████████████████████████████████▊                                                                      | 665/2088 [1:25:03<2:46:43,  7.03s/it]
+2025-10-06 16:33:41 - ERROR - stderr -  32%|████████████████████████████████▊                                                                      | 666/2088 [1:25:10<2:44:47,  6.95s/it]
+2025-10-06 16:33:41 - ERROR - stderr - 
+2025-10-06 16:33:41 - ERROR - stderr - 
+2025-10-06 16:33:41 - INFO - stdout - {'loss': 1.214, 'learning_rate': 0.0007967094433018508, 'epoch': 1.91}
+2025-10-06 16:33:41 - ERROR - stderr -  32%|████████████████████████████████▊                                                                      | 666/2088 [1:25:10<2:44:47,  6.95s/it]
+2025-10-06 16:33:48 - ERROR - stderr -  32%|████████████████████████████████▉                                                                      | 667/2088 [1:25:17<2:46:00,  7.01s/it]
+2025-10-06 16:33:48 - ERROR - stderr - 
+2025-10-06 16:33:48 - ERROR - stderr - 
+2025-10-06 16:33:48 - INFO - stdout - {'loss': 1.2344, 'learning_rate': 0.0007960847288445924, 'epoch': 1.92}
+2025-10-06 16:33:48 - ERROR - stderr -  32%|████████████████████████████████▉                                                                      | 667/2088 [1:25:17<2:46:00,  7.01s/it]
+2025-10-06 16:33:55 - ERROR - stderr -  32%|████████████████████████████████▉                                                                      | 668/2088 [1:25:24<2:47:40,  7.08s/it]
+2025-10-06 16:33:55 - ERROR - stderr - 
+2025-10-06 16:33:55 - ERROR - stderr - 
+2025-10-06 16:33:55 - INFO - stdout - {'loss': 1.229, 'learning_rate': 0.0007954593017548556, 'epoch': 1.92}
+2025-10-06 16:33:55 - ERROR - stderr -  32%|████████████████████████████████▉                                                                      | 668/2088 [1:25:24<2:47:40,  7.08s/it]
+2025-10-06 16:34:02 - ERROR - stderr -  32%|█████████████████████████████████                                                                      | 669/2088 [1:25:31<2:46:45,  7.05s/it]
+2025-10-06 16:34:02 - ERROR - stderr - 
+2025-10-06 16:34:02 - ERROR - stderr - 
+2025-10-06 16:34:02 - INFO - stdout - {'loss': 1.2538, 'learning_rate': 0.0007948331635379516, 'epoch': 1.92}
+2025-10-06 16:34:02 - ERROR - stderr -  32%|█████████████████████████████████                                                                      | 669/2088 [1:25:31<2:46:45,  7.05s/it]
+2025-10-06 16:34:09 - ERROR - stderr -  32%|█████████████████████████████████                                                                      | 670/2088 [1:25:38<2:45:00,  6.98s/it]
+2025-10-06 16:34:09 - ERROR - stderr - 
+2025-10-06 16:34:09 - ERROR - stderr - 
+2025-10-06 16:34:09 - INFO - stdout - {'loss': 1.3289, 'learning_rate': 0.0007942063157009031, 'epoch': 1.93}
+2025-10-06 16:34:09 - ERROR - stderr -  32%|█████████████████████████████████                                                                      | 670/2088 [1:25:38<2:45:00,  6.98s/it]
+2025-10-06 16:34:16 - ERROR - stderr -  32%|█████████████████████████████████                                                                      | 671/2088 [1:25:45<2:43:57,  6.94s/it]
+2025-10-06 16:34:16 - ERROR - stderr - 
+2025-10-06 16:34:16 - ERROR - stderr - 
+2025-10-06 16:34:16 - INFO - stdout - {'loss': 1.2659, 'learning_rate': 0.000793578759752441, 'epoch': 1.93}
+2025-10-06 16:34:16 - ERROR - stderr -  32%|█████████████████████████████████                                                                      | 671/2088 [1:25:45<2:43:57,  6.94s/it]
+2025-10-06 16:34:23 - ERROR - stderr -  32%|█████████████████████████████████▏                                                                     | 672/2088 [1:25:52<2:46:14,  7.04s/it]
+2025-10-06 16:34:23 - ERROR - stderr - 
+2025-10-06 16:34:23 - ERROR - stderr - 
+2025-10-06 16:34:23 - INFO - stdout - {'loss': 1.2832, 'learning_rate': 0.0007929504972030003, 'epoch': 1.93}
+2025-10-06 16:34:23 - ERROR - stderr -  32%|█████████████████████████████████▏                                                                     | 672/2088 [1:25:52<2:46:14,  7.04s/it]
+2025-10-06 16:34:31 - ERROR - stderr -  32%|█████████████████████████████████▏                                                                     | 673/2088 [1:25:59<2:46:55,  7.08s/it]
+2025-10-06 16:34:31 - ERROR - stderr - 
+2025-10-06 16:34:31 - ERROR - stderr - 
+2025-10-06 16:34:31 - INFO - stdout - {'loss': 1.3282, 'learning_rate': 0.0007923215295647166, 'epoch': 1.93}
+2025-10-06 16:34:31 - ERROR - stderr -  32%|█████████████████████████████████▏                                                                     | 673/2088 [1:25:59<2:46:55,  7.08s/it]
+2025-10-06 16:34:38 - ERROR - stderr -  32%|█████████████████████████████████▏                                                                     | 674/2088 [1:26:06<2:47:11,  7.09s/it]
+2025-10-06 16:34:38 - ERROR - stderr - 
+2025-10-06 16:34:38 - ERROR - stderr - 
+2025-10-06 16:34:38 - INFO - stdout - {'loss': 1.199, 'learning_rate': 0.0007916918583514227, 'epoch': 1.94}
+2025-10-06 16:34:38 - ERROR - stderr -  32%|█████████████████████████████████▏                                                                     | 674/2088 [1:26:06<2:47:11,  7.09s/it]
+2025-10-06 16:34:45 - ERROR - stderr -  32%|█████████████████████████████████▎                                                                     | 675/2088 [1:26:13<2:46:14,  7.06s/it]
+2025-10-06 16:34:45 - ERROR - stderr - 
+2025-10-06 16:34:45 - ERROR - stderr - 
+2025-10-06 16:34:45 - INFO - stdout - {'loss': 1.2298, 'learning_rate': 0.0007910614850786447, 'epoch': 1.94}
+2025-10-06 16:34:45 - ERROR - stderr -  32%|█████████████████████████████████▎                                                                     | 675/2088 [1:26:13<2:46:14,  7.06s/it]
+2025-10-06 16:34:52 - ERROR - stderr -  32%|█████████████████████████████████▎                                                                     | 676/2088 [1:26:20<2:46:26,  7.07s/it]
+2025-10-06 16:34:52 - ERROR - stderr - 
+2025-10-06 16:34:52 - ERROR - stderr - 
+2025-10-06 16:34:52 - INFO - stdout - {'loss': 1.1962, 'learning_rate': 0.0007904304112635988, 'epoch': 1.94}
+2025-10-06 16:34:52 - ERROR - stderr -  32%|█████████████████████████████████▎                                                                     | 676/2088 [1:26:20<2:46:26,  7.07s/it]
+2025-10-06 16:34:59 - ERROR - stderr -  32%|█████████████████████████████████▍                                                                     | 677/2088 [1:26:27<2:46:13,  7.07s/it]
+2025-10-06 16:34:59 - ERROR - stderr - 
+2025-10-06 16:34:59 - ERROR - stderr - 
+2025-10-06 16:34:59 - INFO - stdout - {'loss': 1.2191, 'learning_rate': 0.0007897986384251868, 'epoch': 1.95}
+2025-10-06 16:34:59 - ERROR - stderr -  32%|█████████████████████████████████▍                                                                     | 677/2088 [1:26:27<2:46:13,  7.07s/it]
+2025-10-06 16:35:06 - ERROR - stderr -  32%|█████████████████████████████████▍                                                                     | 678/2088 [1:26:34<2:44:09,  6.99s/it]
+2025-10-06 16:35:06 - ERROR - stderr - 
+2025-10-06 16:35:06 - ERROR - stderr - 
+2025-10-06 16:35:06 - INFO - stdout - {'loss': 1.1527, 'learning_rate': 0.0007891661680839932, 'epoch': 1.95}
+2025-10-06 16:35:06 - ERROR - stderr -  32%|█████████████████████████████████▍                                                                     | 678/2088 [1:26:34<2:44:09,  6.99s/it]
+2025-10-06 16:35:13 - ERROR - stderr -  33%|█████████████████████████████████▍                                                                     | 679/2088 [1:26:41<2:44:02,  6.99s/it]
+2025-10-06 16:35:13 - ERROR - stderr - 
+2025-10-06 16:35:13 - ERROR - stderr - 
+2025-10-06 16:35:13 - INFO - stdout - {'loss': 1.2055, 'learning_rate': 0.0007885330017622815, 'epoch': 1.95}
+2025-10-06 16:35:13 - ERROR - stderr -  33%|█████████████████████████████████▍                                                                     | 679/2088 [1:26:41<2:44:02,  6.99s/it]
+2025-10-06 16:35:20 - ERROR - stderr -  33%|█████████████████████████████████▌                                                                     | 680/2088 [1:26:48<2:46:58,  7.12s/it]
+2025-10-06 16:35:20 - ERROR - stderr - 
+2025-10-06 16:35:20 - ERROR - stderr - 
+2025-10-06 16:35:20 - INFO - stdout - {'loss': 1.3235, 'learning_rate': 0.0007878991409839898, 'epoch': 1.95}
+2025-10-06 16:35:20 - ERROR - stderr -  33%|█████████████████████████████████▌                                                                     | 680/2088 [1:26:48<2:46:58,  7.12s/it]
+2025-10-06 16:35:27 - ERROR - stderr -  33%|█████████████████████████████████▌                                                                     | 681/2088 [1:26:56<2:49:20,  7.22s/it]
+2025-10-06 16:35:27 - ERROR - stderr - 
+2025-10-06 16:35:27 - ERROR - stderr - 
+2025-10-06 16:35:27 - INFO - stdout - {'loss': 1.1858, 'learning_rate': 0.0007872645872747282, 'epoch': 1.96}
+2025-10-06 16:35:27 - ERROR - stderr -  33%|█████████████████████████████████▌                                                                     | 681/2088 [1:26:56<2:49:20,  7.22s/it]
+2025-10-06 16:35:35 - ERROR - stderr -  33%|█████████████████████████████████▋                                                                     | 682/2088 [1:27:03<2:50:02,  7.26s/it]
+2025-10-06 16:35:35 - ERROR - stderr - 
+2025-10-06 16:35:35 - ERROR - stderr - 
+2025-10-06 16:35:35 - INFO - stdout - {'loss': 1.2867, 'learning_rate': 0.000786629342161774, 'epoch': 1.96}
+2025-10-06 16:35:35 - ERROR - stderr -  33%|█████████████████████████████████▋                                                                     | 682/2088 [1:27:03<2:50:02,  7.26s/it]
+2025-10-06 16:35:42 - ERROR - stderr -  33%|█████████████████████████████████▋                                                                     | 683/2088 [1:27:10<2:47:54,  7.17s/it]
+2025-10-06 16:35:42 - ERROR - stderr - 
+2025-10-06 16:35:42 - ERROR - stderr - 
+2025-10-06 16:35:42 - INFO - stdout - {'loss': 1.3074, 'learning_rate': 0.0007859934071740692, 'epoch': 1.96}
+2025-10-06 16:35:42 - ERROR - stderr -  33%|█████████████████████████████████▋                                                                     | 683/2088 [1:27:10<2:47:54,  7.17s/it]
+2025-10-06 16:35:49 - ERROR - stderr -  33%|█████████████████████████████████▋                                                                     | 684/2088 [1:27:17<2:46:54,  7.13s/it]
+2025-10-06 16:35:49 - ERROR - stderr - 
+2025-10-06 16:35:49 - ERROR - stderr - 
+2025-10-06 16:35:49 - INFO - stdout - {'loss': 1.3113, 'learning_rate': 0.000785356783842216, 'epoch': 1.97}
+2025-10-06 16:35:49 - ERROR - stderr -  33%|█████████████████████████████████▋                                                                     | 684/2088 [1:27:17<2:46:54,  7.13s/it]
+2025-10-06 16:35:56 - ERROR - stderr -  33%|█████████████████████████████████▊                                                                     | 685/2088 [1:27:24<2:46:33,  7.12s/it]
+2025-10-06 16:35:56 - ERROR - stderr - 
+2025-10-06 16:35:56 - ERROR - stderr - 
+2025-10-06 16:35:56 - INFO - stdout - {'loss': 1.3093, 'learning_rate': 0.0007847194736984729, 'epoch': 1.97}
+2025-10-06 16:35:56 - ERROR - stderr -  33%|█████████████████████████████████▊                                                                     | 685/2088 [1:27:24<2:46:33,  7.12s/it]
+2025-10-06 16:36:03 - ERROR - stderr -  33%|█████████████████████████████████▊                                                                     | 686/2088 [1:27:31<2:45:02,  7.06s/it]
+2025-10-06 16:36:03 - ERROR - stderr - 
+2025-10-06 16:36:03 - ERROR - stderr - 
+2025-10-06 16:36:03 - INFO - stdout - {'loss': 1.1601, 'learning_rate': 0.0007840814782767525, 'epoch': 1.97}
+2025-10-06 16:36:03 - ERROR - stderr -  33%|█████████████████████████████████▊                                                                     | 686/2088 [1:27:31<2:45:02,  7.06s/it]
+2025-10-06 16:36:11 - ERROR - stderr -  33%|█████████████████████████████████▉                                                                     | 687/2088 [1:27:39<2:50:57,  7.32s/it]
+2025-10-06 16:36:11 - ERROR - stderr - 
+2025-10-06 16:36:11 - ERROR - stderr - 
+2025-10-06 16:36:11 - INFO - stdout - {'loss': 1.2467, 'learning_rate': 0.0007834427991126155, 'epoch': 1.97}
+2025-10-06 16:36:11 - ERROR - stderr -  33%|█████████████████████████████████▉                                                                     | 687/2088 [1:27:39<2:50:57,  7.32s/it]
+2025-10-06 16:36:18 - ERROR - stderr -  33%|████████████████��████████████████▉                                                                     | 688/2088 [1:27:46<2:48:29,  7.22s/it]
+2025-10-06 16:36:18 - ERROR - stderr - 
+2025-10-06 16:36:18 - ERROR - stderr - 
+2025-10-06 16:36:18 - INFO - stdout - {'loss': 1.2161, 'learning_rate': 0.0007828034377432694, 'epoch': 1.98}
+2025-10-06 16:36:18 - ERROR - stderr -  33%|█████████████████████████████████▉                                                                     | 688/2088 [1:27:46<2:48:29,  7.22s/it]
+2025-10-06 16:36:25 - ERROR - stderr -  33%|█████████████████████████████████▉                                                                     | 689/2088 [1:27:54<2:49:16,  7.26s/it]
+2025-10-06 16:36:25 - ERROR - stderr - 
+2025-10-06 16:36:25 - ERROR - stderr - 
+2025-10-06 16:36:25 - INFO - stdout - {'loss': 1.2403, 'learning_rate': 0.0007821633957075627, 'epoch': 1.98}
+2025-10-06 16:36:25 - ERROR - stderr -  33%|█████████████████████████████████▉                                                                     | 689/2088 [1:27:54<2:49:16,  7.26s/it]
+2025-10-06 16:36:32 - ERROR - stderr -  33%|██████████████████████████████████                                                                     | 690/2088 [1:28:01<2:47:32,  7.19s/it]
+2025-10-06 16:36:32 - ERROR - stderr - 
+2025-10-06 16:36:32 - ERROR - stderr - 
+2025-10-06 16:36:32 - INFO - stdout - {'loss': 1.3021, 'learning_rate': 0.0007815226745459831, 'epoch': 1.98}
+2025-10-06 16:36:32 - ERROR - stderr -  33%|██████████████████████████████████                                                                     | 690/2088 [1:28:01<2:47:32,  7.19s/it]
+2025-10-06 16:36:40 - ERROR - stderr -  33%|██████████████████████████████████                                                                     | 691/2088 [1:28:08<2:51:50,  7.38s/it]
+2025-10-06 16:36:40 - ERROR - stderr - 
+2025-10-06 16:36:40 - ERROR - stderr - 
+2025-10-06 16:36:40 - INFO - stdout - {'loss': 1.2711, 'learning_rate': 0.000780881275800652, 'epoch': 1.99}
+2025-10-06 16:36:40 - ERROR - stderr -  33%|██████████████████████████████████                                                                     | 691/2088 [1:28:08<2:51:50,  7.38s/it]
+2025-10-06 16:36:47 - ERROR - stderr -  33%|██████████████████████████████████▏                                                                    | 692/2088 [1:28:16<2:49:56,  7.30s/it]
+2025-10-06 16:36:47 - ERROR - stderr - 
+2025-10-06 16:36:47 - ERROR - stderr - 
+2025-10-06 16:36:47 - INFO - stdout - {'loss': 1.2456, 'learning_rate': 0.0007802392010153223, 'epoch': 1.99}
+2025-10-06 16:36:47 - ERROR - stderr -  33%|██████████████████████████████████▏                                                                    | 692/2088 [1:28:16<2:49:56,  7.30s/it]
+2025-10-06 16:36:54 - ERROR - stderr -  33%|██████████████████████████████████▏                                                                    | 693/2088 [1:28:23<2:48:12,  7.23s/it]
+2025-10-06 16:36:54 - ERROR - stderr - 
+2025-10-06 16:36:54 - ERROR - stderr - 
+2025-10-06 16:36:54 - INFO - stdout - {'loss': 1.291, 'learning_rate': 0.0007795964517353734, 'epoch': 1.99}
+2025-10-06 16:36:54 - ERROR - stderr -  33%|██████████████████████████████████▏                                                                    | 693/2088 [1:28:23<2:48:12,  7.23s/it]
+2025-10-06 16:37:01 - ERROR - stderr -  33%|██████████████████████████████████▏                                                                    | 694/2088 [1:28:30<2:46:10,  7.15s/it]
+2025-10-06 16:37:01 - ERROR - stderr - 
+2025-10-06 16:37:01 - ERROR - stderr - 
+2025-10-06 16:37:01 - INFO - stdout - {'loss': 1.2443, 'learning_rate': 0.0007789530295078089, 'epoch': 1.99}
+2025-10-06 16:37:01 - ERROR - stderr -  33%|██████████████████████████████████▏                                                                    | 694/2088 [1:28:30<2:46:10,  7.15s/it]
+2025-10-06 16:37:08 - ERROR - stderr -  33%|██████████████████████████████████▎                                                                    | 695/2088 [1:28:37<2:44:33,  7.09s/it]
+2025-10-06 16:37:08 - ERROR - stderr - 
+2025-10-06 16:37:08 - ERROR - stderr - 
+2025-10-06 16:37:08 - INFO - stdout - {'loss': 1.1918, 'learning_rate': 0.0007783089358812513, 'epoch': 2.0}
+2025-10-06 16:37:08 - ERROR - stderr -  33%|██████████████████████████████████▎                                                                    | 695/2088 [1:28:37<2:44:33,  7.09s/it]
+2025-10-06 16:37:12 - ERROR - stderr -  33%|██████████████████████████████████▎                                                                    | 696/2088 [1:28:41<2:24:02,  6.21s/it]
+2025-10-06 16:37:12 - ERROR - stderr - 
+2025-10-06 16:37:12 - ERROR - stderr - 
+2025-10-06 16:37:12 - INFO - stdout - {'loss': 1.1849, 'learning_rate': 0.0007776641724059396, 'epoch': 2.0}
+2025-10-06 16:37:12 - ERROR - stderr -  33%|██████████████████████████████████▎                                                                    | 696/2088 [1:28:41<2:24:02,  6.21s/it]
+2025-10-06 16:37:20 - ERROR - stderr -  33%|██████████████████████████████████▍                                                                    | 697/2088 [1:28:48<2:31:39,  6.54s/it]
+2025-10-06 16:37:20 - ERROR - stderr - 
+2025-10-06 16:37:20 - ERROR - stderr - 
+2025-10-06 16:37:20 - INFO - stdout - {'loss': 1.1555, 'learning_rate': 0.0007770187406337248, 'epoch': 2.0}
+2025-10-06 16:37:20 - ERROR - stderr -  33%|██████████████████████████████████▍                                                                    | 697/2088 [1:28:48<2:31:39,  6.54s/it]
+2025-10-06 16:37:27 - ERROR - stderr -  33%|██████████████████████████████████▍                                                                    | 698/2088 [1:28:55<2:35:06,  6.70s/it]
+2025-10-06 16:37:27 - ERROR - stderr - 
+2025-10-06 16:37:27 - ERROR - stderr - 
+2025-10-06 16:37:27 - INFO - stdout - {'loss': 1.1984, 'learning_rate': 0.0007763726421180664, 'epoch': 2.01}
+2025-10-06 16:37:27 - ERROR - stderr -  33%|██████████████████████████████████▍                                                                    | 698/2088 [1:28:55<2:35:06,  6.70s/it]
+2025-10-06 16:37:34 - ERROR - stderr -  33%|██████████████████████████████████▍                                                                    | 699/2088 [1:29:02<2:37:21,  6.80s/it]
+2025-10-06 16:37:34 - ERROR - stderr - 
+2025-10-06 16:37:34 - ERROR - stderr - 
+2025-10-06 16:37:34 - INFO - stdout - {'loss': 1.2279, 'learning_rate': 0.0007757258784140287, 'epoch': 2.01}
+2025-10-06 16:37:34 - ERROR - stderr -  33%|██████████████████████████████████▍                                                                    | 699/2088 [1:29:02<2:37:21,  6.80s/it]
+2025-10-06 16:37:40 - ERROR - stderr -  34%|██████████████████████████████████▌                                                                    | 700/2088 [1:29:09<2:37:27,  6.81s/it]
+2025-10-06 16:37:40 - ERROR - stderr - 
+2025-10-06 16:37:40 - ERROR - stderr - 
+2025-10-06 16:37:40 - INFO - stdout - {'loss': 1.194, 'learning_rate': 0.000775078451078277, 'epoch': 2.01}
+2025-10-06 16:37:40 - ERROR - stderr -  34%|██████████████████████████████████▌                                                                    | 700/2088 [1:29:09<2:37:27,  6.81s/it]
+2025-10-06 16:37:47 - ERROR - stderr -  34%|██████████████████████████████████▌                                                                    | 701/2088 [1:29:16<2:38:48,  6.87s/it]
+2025-10-06 16:37:47 - ERROR - stderr - 
+2025-10-06 16:37:47 - ERROR - stderr - 
+2025-10-06 16:37:47 - INFO - stdout - {'loss': 1.1813, 'learning_rate': 0.0007744303616690738, 'epoch': 2.01}
+2025-10-06 16:37:47 - ERROR - stderr -  34%|██████████████████████████████████▌                                                                    | 701/2088 [1:29:16<2:38:48,  6.87s/it]
+2025-10-06 16:37:55 - ERROR - stderr -  34%|██████████████████████████████████▋                                                                    | 702/2088 [1:29:23<2:42:16,  7.02s/it]
+2025-10-06 16:37:55 - ERROR - stderr - 
+2025-10-06 16:37:55 - ERROR - stderr - 
+2025-10-06 16:37:55 - INFO - stdout - {'loss': 1.1434, 'learning_rate': 0.0007737816117462751, 'epoch': 2.02}
+2025-10-06 16:37:55 - ERROR - stderr -  34%|██████████████████████████████████▋                                                                    | 702/2088 [1:29:23<2:42:16,  7.02s/it]
+2025-10-06 16:38:02 - ERROR - stderr -  34%|██████████████████████████████████▋                                                                    | 703/2088 [1:29:31<2:43:13,  7.07s/it]
+2025-10-06 16:38:02 - ERROR - stderr - 
+2025-10-06 16:38:02 - ERROR - stderr - 
+2025-10-06 16:38:02 - INFO - stdout - {'loss': 1.2536, 'learning_rate': 0.000773132202871327, 'epoch': 2.02}
+2025-10-06 16:38:02 - ERROR - stderr -  34%|██████████████████████████████████▋                                                                    | 703/2088 [1:29:31<2:43:13,  7.07s/it]
+2025-10-06 16:38:09 - ERROR - stderr -  34%|██████████████████████████████████▋                                                                    | 704/2088 [1:29:37<2:42:11,  7.03s/it]
+2025-10-06 16:38:09 - ERROR - stderr - 
+2025-10-06 16:38:09 - ERROR - stderr - 
+2025-10-06 16:38:09 - INFO - stdout - {'loss': 1.2158, 'learning_rate': 0.0007724821366072612, 'epoch': 2.02}
+2025-10-06 16:38:09 - ERROR - stderr -  34%|██████████████████████████████████▋                                                                    | 704/2088 [1:29:37<2:42:11,  7.03s/it]
+2025-10-06 16:38:16 - ERROR - stderr -  34%|██████████████████████████████████▊                                                                    | 705/2088 [1:29:45<2:43:31,  7.09s/it]
+2025-10-06 16:38:16 - ERROR - stderr - 
+2025-10-06 16:38:16 - ERROR - stderr - 
+2025-10-06 16:38:16 - INFO - stdout - {'loss': 1.1762, 'learning_rate': 0.0007718314145186917, 'epoch': 2.03}
+2025-10-06 16:38:16 - ERROR - stderr -  34%|██████████████████████████████████▊                                                                    | 705/2088 [1:29:45<2:43:31,  7.09s/it]
+2025-10-06 16:38:23 - ERROR - stderr -  34%|██████████████████████████████████▊                                                                    | 706/2088 [1:29:52<2:42:23,  7.05s/it]
+2025-10-06 16:38:23 - ERROR - stderr - 
+2025-10-06 16:38:23 - ERROR - stderr - 
+2025-10-06 16:38:23 - INFO - stdout - {'loss': 1.2076, 'learning_rate': 0.0007711800381718111, 'epoch': 2.03}
+2025-10-06 16:38:23 - ERROR - stderr -  34%|██████████████████████████████████▊                                                                    | 706/2088 [1:29:52<2:42:23,  7.05s/it]
+2025-10-06 16:38:30 - ERROR - stderr -  34%|██████████████████████████████████▉                                                                    | 707/2088 [1:29:59<2:41:21,  7.01s/it]
+2025-10-06 16:38:30 - ERROR - stderr - 
+2025-10-06 16:38:30 - ERROR - stderr - 
+2025-10-06 16:38:30 - INFO - stdout - {'loss': 1.1205, 'learning_rate': 0.0007705280091343867, 'epoch': 2.03}
+2025-10-06 16:38:30 - ERROR - stderr -  34%|██████████████████████████████████▉                                                                    | 707/2088 [1:29:59<2:41:21,  7.01s/it]
+2025-10-06 16:38:37 - ERROR - stderr -  34%|██████████████████████████████████▉                                                                    | 708/2088 [1:30:06<2:41:42,  7.03s/it]
+2025-10-06 16:38:37 - ERROR - stderr - 
+2025-10-06 16:38:37 - ERROR - stderr - 
+2025-10-06 16:38:37 - INFO - stdout - {'loss': 1.2154, 'learning_rate': 0.0007698753289757565, 'epoch': 2.03}
+2025-10-06 16:38:37 - ERROR - stderr -  34%|██████████████████████████████████▉                                                                    | 708/2088 [1:30:06<2:41:42,  7.03s/it]
+2025-10-06 16:38:44 - ERROR - stderr -  34%|██████████████████████████████████▉                                                                    | 709/2088 [1:30:13<2:40:31,  6.98s/it]
+2025-10-06 16:38:44 - ERROR - stderr - 
+2025-10-06 16:38:44 - ERROR - stderr - 
+2025-10-06 16:38:44 - INFO - stdout - {'loss': 1.2317, 'learning_rate': 0.0007692219992668261, 'epoch': 2.04}
+2025-10-06 16:38:44 - ERROR - stderr -  34%|██████████████████████████████████▉                                                                    | 709/2088 [1:30:13<2:40:31,  6.98s/it]
+2025-10-06 16:38:51 - ERROR - stderr -  34%|███████████████████████████████████                                                                    | 710/2088 [1:30:20<2:42:19,  7.07s/it]
+2025-10-06 16:38:51 - ERROR - stderr - 
+2025-10-06 16:38:51 - ERROR - stderr - 
+2025-10-06 16:38:51 - INFO - stdout - {'loss': 1.1582, 'learning_rate': 0.0007685680215800639, 'epoch': 2.04}
+2025-10-06 16:38:51 - ERROR - stderr -  34%|███████████████████████████████████                                                                    | 710/2088 [1:30:20<2:42:19,  7.07s/it]
+2025-10-06 16:38:58 - ERROR - stderr -  34%|███████████████████████████████████                                                                    | 711/2088 [1:30:27<2:43:06,  7.11s/it]
+2025-10-06 16:38:58 - ERROR - stderr - 
+2025-10-06 16:38:58 - ERROR - stderr - 
+2025-10-06 16:38:58 - INFO - stdout - {'loss': 1.2153, 'learning_rate': 0.0007679133974894983, 'epoch': 2.04}
+2025-10-06 16:38:58 - ERROR - stderr -  34%|███████████████████████████████████                                                                    | 711/2088 [1:30:27<2:43:06,  7.11s/it]
+2025-10-06 16:39:05 - ERROR - stderr -  34%|███████████████████████████████████                                                                    | 712/2088 [1:30:34<2:42:01,  7.06s/it]
+2025-10-06 16:39:05 - ERROR - stderr - 
+2025-10-06 16:39:05 - ERROR - stderr - 
+2025-10-06 16:39:05 - INFO - stdout - {'loss': 1.1358, 'learning_rate': 0.0007672581285707136, 'epoch': 2.05}
+2025-10-06 16:39:05 - ERROR - stderr -  34%|███████████████████████████████████                                                                    | 712/2088 [1:30:34<2:42:01,  7.06s/it]
+2025-10-06 16:39:13 - ERROR - stderr -  34%|███████████████████████████████████▏                                                                   | 713/2088 [1:30:41<2:42:44,  7.10s/it]
+2025-10-06 16:39:13 - ERROR - stderr - 
+2025-10-06 16:39:13 - ERROR - stderr - 
+2025-10-06 16:39:13 - INFO - stdout - {'loss': 1.1708, 'learning_rate': 0.0007666022164008457, 'epoch': 2.05}
+2025-10-06 16:39:13 - ERROR - stderr -  34%|███████████████████████████████████▏                                                                   | 713/2088 [1:30:41<2:42:44,  7.10s/it]
+2025-10-06 16:39:20 - ERROR - stderr -  34%|███████████████████████████████████▏                                                                   | 714/2088 [1:30:48<2:42:38,  7.10s/it]
+2025-10-06 16:39:20 - ERROR - stderr - 
+2025-10-06 16:39:20 - ERROR - stderr - 
+2025-10-06 16:39:20 - INFO - stdout - {'loss': 1.2703, 'learning_rate': 0.0007659456625585789, 'epoch': 2.05}
+2025-10-06 16:39:20 - ERROR - stderr -  34%|███████████████████████████████████▏                                                                   | 714/2088 [1:30:48<2:42:38,  7.10s/it]
+2025-10-06 16:39:28 - ERROR - stderr -  34%|███████████████████████████████████▎                                                                   | 715/2088 [1:30:56<2:48:17,  7.35s/it]
+2025-10-06 16:39:28 - ERROR - stderr - 
+2025-10-06 16:39:28 - ERROR - stderr - 
+2025-10-06 16:39:28 - INFO - stdout - {'loss': 1.2445, 'learning_rate': 0.0007652884686241419, 'epoch': 2.05}
+2025-10-06 16:39:28 - ERROR - stderr -  34%|███████████████████████████████████▎                                                                   | 715/2088 [1:30:56<2:48:17,  7.35s/it]
+2025-10-06 16:39:35 - ERROR - stderr -  34%|███████████████████████████████████▎                                                                   | 716/2088 [1:31:03<2:45:43,  7.25s/it]
+2025-10-06 16:39:35 - ERROR - stderr - 
+2025-10-06 16:39:35 - ERROR - stderr - 
+2025-10-06 16:39:35 - INFO - stdout - {'loss': 1.1885, 'learning_rate': 0.0007646306361793042, 'epoch': 2.06}
+2025-10-06 16:39:35 - ERROR - stderr -  34%|███████████████████████████████████▎                                                                   | 716/2088 [1:31:03<2:45:43,  7.25s/it]
+2025-10-06 16:39:42 - ERROR - stderr -  34%|███████████████████████████████████▎                                                                   | 717/2088 [1:31:10<2:45:10,  7.23s/it]
+2025-10-06 16:39:42 - ERROR - stderr - 
+2025-10-06 16:39:42 - ERROR - stderr - 
+2025-10-06 16:39:42 - INFO - stdout - {'loss': 1.314, 'learning_rate': 0.0007639721668073718, 'epoch': 2.06}
+2025-10-06 16:39:42 - ERROR - stderr -  34%|███████████████████████████████████▎                                                                   | 717/2088 [1:31:10<2:45:10,  7.23s/it]
+2025-10-06 16:39:49 - ERROR - stderr -  34%|███████████████████████████████████▍                                                                   | 718/2088 [1:31:18<2:46:01,  7.27s/it]
+2025-10-06 16:39:49 - ERROR - stderr - 
+2025-10-06 16:39:49 - ERROR - stderr - 
+2025-10-06 16:39:49 - INFO - stdout - {'loss': 1.1903, 'learning_rate': 0.0007633130620931837, 'epoch': 2.06}
+2025-10-06 16:39:49 - ERROR - stderr -  34%|███████████████████████████████████▍                                                                   | 718/2088 [1:31:18<2:46:01,  7.27s/it]
+2025-10-06 16:39:56 - ERROR - stderr -  34%|███████████████████████████████████▍                                                                   | 719/2088 [1:31:25<2:44:32,  7.21s/it]
+2025-10-06 16:39:56 - ERROR - stderr - 
+2025-10-06 16:39:56 - ERROR - stderr - 
+2025-10-06 16:39:56 - INFO - stdout - {'loss': 1.2797, 'learning_rate': 0.0007626533236231084, 'epoch': 2.07}
+2025-10-06 16:39:56 - ERROR - stderr -  34%|███████████████████████████████████▍                                                                   | 719/2088 [1:31:25<2:44:32,  7.21s/it]
+2025-10-06 16:40:03 - ERROR - stderr -  34%|███████████████████████████████████▌                                                                   | 720/2088 [1:31:32<2:43:49,  7.19s/it]
+2025-10-06 16:40:03 - ERROR - stderr - 
+2025-10-06 16:40:03 - ERROR - stderr - 
+2025-10-06 16:40:03 - INFO - stdout - {'loss': 1.2206, 'learning_rate': 0.0007619929529850397, 'epoch': 2.07}
+2025-10-06 16:40:03 - ERROR - stderr -  34%|███████████████████████████████████▌                                                                   | 720/2088 [1:31:32<2:43:49,  7.19s/it]
+2025-10-06 16:40:10 - ERROR - stderr -  35%|███████████████████████████████████▌                                                                   | 721/2088 [1:31:39<2:41:47,  7.10s/it]
+2025-10-06 16:40:10 - ERROR - stderr - 
+2025-10-06 16:40:10 - ERROR - stderr - 
+2025-10-06 16:40:10 - INFO - stdout - {'loss': 1.1575, 'learning_rate': 0.0007613319517683924, 'epoch': 2.07}
+2025-10-06 16:40:10 - ERROR - stderr -  35%|███████████████████████████████████▌                                                                   | 721/2088 [1:31:39<2:41:47,  7.10s/it]
+2025-10-06 16:40:17 - ERROR - stderr -  35%|███████████████████████████████████▌                                                                   | 722/2088 [1:31:46<2:39:36,  7.01s/it]
+2025-10-06 16:40:17 - ERROR - stderr - 
+2025-10-06 16:40:17 - ERROR - stderr - 
+2025-10-06 16:40:17 - INFO - stdout - {'loss': 1.1287, 'learning_rate': 0.0007606703215640994, 'epoch': 2.07}
+2025-10-06 16:40:17 - ERROR - stderr -  35%|███████████████████████████████████▌                                                                   | 722/2088 [1:31:46<2:39:36,  7.01s/it]
+2025-10-06 16:40:24 - ERROR - stderr -  35%|███████████████████████████████████▋                                                                   | 723/2088 [1:31:52<2:38:27,  6.97s/it]
+2025-10-06 16:40:24 - ERROR - stderr - 
+2025-10-06 16:40:24 - ERROR - stderr - 
+2025-10-06 16:40:24 - INFO - stdout - {'loss': 1.2098, 'learning_rate': 0.0007600080639646077, 'epoch': 2.08}
+2025-10-06 16:40:24 - ERROR - stderr -  35%|███████████████████████████████████▋                                                                   | 723/2088 [1:31:53<2:38:27,  6.97s/it]
+2025-10-06 16:40:31 - ERROR - stderr -  35%|███████████��███████████████████████▋                                                                   | 724/2088 [1:32:00<2:40:56,  7.08s/it]
+2025-10-06 16:40:31 - ERROR - stderr - 
+2025-10-06 16:40:31 - ERROR - stderr - 
+2025-10-06 16:40:31 - INFO - stdout - {'loss': 1.1805, 'learning_rate': 0.0007593451805638742, 'epoch': 2.08}
+2025-10-06 16:40:31 - ERROR - stderr -  35%|███████████████████████████████████▋                                                                   | 724/2088 [1:32:00<2:40:56,  7.08s/it]
+2025-10-06 16:40:38 - ERROR - stderr -  35%|███████████████████████████████████▊                                                                   | 725/2088 [1:32:07<2:38:24,  6.97s/it]
+2025-10-06 16:40:38 - ERROR - stderr - 
+2025-10-06 16:40:38 - ERROR - stderr - 
+2025-10-06 16:40:38 - INFO - stdout - {'loss': 1.2756, 'learning_rate': 0.0007586816729573617, 'epoch': 2.08}
+2025-10-06 16:40:38 - ERROR - stderr -  35%|███████████████████████████████████▊                                                                   | 725/2088 [1:32:07<2:38:24,  6.97s/it]
+2025-10-06 16:40:45 - ERROR - stderr -  35%|███████████████████████████████████▊                                                                   | 726/2088 [1:32:13<2:37:57,  6.96s/it]
+2025-10-06 16:40:45 - ERROR - stderr - 
+2025-10-06 16:40:45 - ERROR - stderr - 
+2025-10-06 16:40:45 - INFO - stdout - {'loss': 1.2654, 'learning_rate': 0.0007580175427420357, 'epoch': 2.09}
+2025-10-06 16:40:45 - ERROR - stderr -  35%|███████████████████████████████████▊                                                                   | 726/2088 [1:32:13<2:37:57,  6.96s/it]
+2025-10-06 16:40:52 - ERROR - stderr -  35%|███████████████████████████████████▊                                                                   | 727/2088 [1:32:20<2:37:53,  6.96s/it]
+2025-10-06 16:40:52 - ERROR - stderr - 
+2025-10-06 16:40:52 - ERROR - stderr - 
+2025-10-06 16:40:52 - INFO - stdout - {'loss': 1.168, 'learning_rate': 0.0007573527915163602, 'epoch': 2.09}
+2025-10-06 16:40:52 - ERROR - stderr -  35%|███████████████████████████████████▊                                                                   | 727/2088 [1:32:20<2:37:53,  6.96s/it]
+2025-10-06 16:40:59 - ERROR - stderr -  35%|███████████████████████████████████▉                                                                   | 728/2088 [1:32:27<2:38:14,  6.98s/it]
+2025-10-06 16:40:59 - ERROR - stderr - 
+2025-10-06 16:40:59 - ERROR - stderr - 
+2025-10-06 16:40:59 - INFO - stdout - {'loss': 1.1808, 'learning_rate': 0.0007566874208802939, 'epoch': 2.09}
+2025-10-06 16:40:59 - ERROR - stderr -  35%|███████████████████████████████████▉                                                                   | 728/2088 [1:32:27<2:38:14,  6.98s/it]
+2025-10-06 16:41:06 - ERROR - stderr -  35%|███████████████████████████████████▉                                                                   | 729/2088 [1:32:34<2:36:11,  6.90s/it]
+2025-10-06 16:41:06 - ERROR - stderr - 
+2025-10-06 16:41:06 - ERROR - stderr - 
+2025-10-06 16:41:06 - INFO - stdout - {'loss': 1.2017, 'learning_rate': 0.0007560214324352858, 'epoch': 2.09}
+2025-10-06 16:41:06 - ERROR - stderr -  35%|███████████████████████████████████▉                                                                   | 729/2088 [1:32:34<2:36:11,  6.90s/it]
+2025-10-06 16:41:13 - ERROR - stderr -  35%|████████████████████████████████████                                                                   | 730/2088 [1:32:41<2:38:27,  7.00s/it]
+2025-10-06 16:41:13 - ERROR - stderr - 
+2025-10-06 16:41:13 - ERROR - stderr - 
+2025-10-06 16:41:13 - INFO - stdout - {'loss': 1.1901, 'learning_rate': 0.0007553548277842727, 'epoch': 2.1}
+2025-10-06 16:41:13 - ERROR - stderr -  35%|████████████████████████████████████                                                                   | 730/2088 [1:32:41<2:38:27,  7.00s/it]
+2025-10-06 16:41:20 - ERROR - stderr -  35%|████████████████████████████████████                                                                   | 731/2088 [1:32:49<2:39:27,  7.05s/it]
+2025-10-06 16:41:20 - ERROR - stderr - 
+2025-10-06 16:41:20 - ERROR - stderr - 
+2025-10-06 16:41:20 - INFO - stdout - {'loss': 1.1695, 'learning_rate': 0.0007546876085316742, 'epoch': 2.1}
+2025-10-06 16:41:20 - ERROR - stderr -  35%|████████████████████████████████████                                                                   | 731/2088 [1:32:49<2:39:27,  7.05s/it]
+2025-10-06 16:41:27 - ERROR - stderr -  35%|████████████████████████████████████                                                                   | 732/2088 [1:32:56<2:41:05,  7.13s/it]
+2025-10-06 16:41:27 - ERROR - stderr - 
+2025-10-06 16:41:27 - ERROR - stderr - 
+2025-10-06 16:41:27 - INFO - stdout - {'loss': 1.2689, 'learning_rate': 0.0007540197762833889, 'epoch': 2.1}
+2025-10-06 16:41:27 - ERROR - stderr -  35%|████████████████████████████████████                                                                   | 732/2088 [1:32:56<2:41:05,  7.13s/it]
+2025-10-06 16:41:34 - ERROR - stderr -  35%|████████████████████████████████████▏                                                                  | 733/2088 [1:33:03<2:38:36,  7.02s/it]
+2025-10-06 16:41:34 - ERROR - stderr - 
+2025-10-06 16:41:34 - ERROR - stderr - 
+2025-10-06 16:41:34 - INFO - stdout - {'loss': 1.1781, 'learning_rate': 0.0007533513326467912, 'epoch': 2.11}
+2025-10-06 16:41:34 - ERROR - stderr -  35%|████████████████████████████████████▏                                                                  | 733/2088 [1:33:03<2:38:36,  7.02s/it]
+2025-10-06 16:41:42 - ERROR - stderr -  35%|████████████████████████████████████▏                                                                  | 734/2088 [1:33:10<2:41:04,  7.14s/it]
+2025-10-06 16:41:42 - ERROR - stderr - 
+2025-10-06 16:41:42 - ERROR - stderr - 
+2025-10-06 16:41:42 - INFO - stdout - {'loss': 1.2157, 'learning_rate': 0.0007526822792307266, 'epoch': 2.11}
+2025-10-06 16:41:42 - ERROR - stderr -  35%|████████████████████████████████████▏                                                                  | 734/2088 [1:33:10<2:41:04,  7.14s/it]
+2025-10-06 16:41:49 - ERROR - stderr -  35%|████████████████████████████████████▎                                                                  | 735/2088 [1:33:17<2:39:53,  7.09s/it]
+2025-10-06 16:41:49 - ERROR - stderr - 
+2025-10-06 16:41:49 - ERROR - stderr - 
+2025-10-06 16:41:49 - INFO - stdout - {'loss': 1.2479, 'learning_rate': 0.0007520126176455083, 'epoch': 2.11}
+2025-10-06 16:41:49 - ERROR - stderr -  35%|████████████████████████████████████▎                                                                  | 735/2088 [1:33:17<2:39:53,  7.09s/it]
+2025-10-06 16:41:56 - ERROR - stderr -  35%|████████████████████████████████████▎                                                                  | 736/2088 [1:33:24<2:39:19,  7.07s/it]
+2025-10-06 16:41:56 - ERROR - stderr - 
+2025-10-06 16:41:56 - ERROR - stderr - 
+2025-10-06 16:41:56 - INFO - stdout - {'loss': 1.2777, 'learning_rate': 0.0007513423495029139, 'epoch': 2.11}
+2025-10-06 16:41:56 - ERROR - stderr -  35%|████████████████████████████████████▎                                                                  | 736/2088 [1:33:24<2:39:19,  7.07s/it]
+2025-10-06 16:42:03 - ERROR - stderr -  35%|████████████████████████████████████▎                                                                  | 737/2088 [1:33:31<2:39:52,  7.10s/it]
+2025-10-06 16:42:03 - ERROR - stderr - 
+2025-10-06 16:42:03 - ERROR - stderr - 
+2025-10-06 16:42:03 - INFO - stdout - {'loss': 1.1869, 'learning_rate': 0.00075067147641618, 'epoch': 2.12}
+2025-10-06 16:42:03 - ERROR - stderr -  35%|████████████████████████████████████▎                                                                  | 737/2088 [1:33:31<2:39:52,  7.10s/it]
+2025-10-06 16:42:10 - ERROR - stderr -  35%|████████████████████████████████████▍                                                                  | 738/2088 [1:33:38<2:40:40,  7.14s/it]
+2025-10-06 16:42:10 - ERROR - stderr - 
+2025-10-06 16:42:10 - ERROR - stderr - 
+2025-10-06 16:42:10 - INFO - stdout - {'loss': 1.2998, 'learning_rate': 0.00075, 'epoch': 2.12}
+2025-10-06 16:42:10 - ERROR - stderr -  35%|████████████████████████████████████▍                                                                  | 738/2088 [1:33:39<2:40:40,  7.14s/it]
+2025-10-06 16:42:17 - ERROR - stderr -  35%|████████████████████████████████████▍                                                                  | 739/2088 [1:33:46<2:40:43,  7.15s/it]
+2025-10-06 16:42:17 - ERROR - stderr - 
+2025-10-06 16:42:17 - ERROR - stderr - 
+2025-10-06 16:42:17 - INFO - stdout - {'loss': 1.1676, 'learning_rate': 0.0007493279218705189, 'epoch': 2.12}
+2025-10-06 16:42:17 - ERROR - stderr -  35%|████████████████████████████████████▍                                                                  | 739/2088 [1:33:46<2:40:43,  7.15s/it]
+2025-10-06 16:42:24 - ERROR - stderr -  35%|████████████████████████████████████▌                                                                  | 740/2088 [1:33:52<2:38:13,  7.04s/it]
+2025-10-06 16:42:24 - ERROR - stderr - 
+2025-10-06 16:42:24 - ERROR - stderr - 
+2025-10-06 16:42:24 - INFO - stdout - {'loss': 1.1974, 'learning_rate': 0.00074865524364533, 'epoch': 2.13}
+2025-10-06 16:42:24 - ERROR - stderr -  35%|████████████████████████████████████▌                                                                  | 740/2088 [1:33:52<2:38:13,  7.04s/it]
+2025-10-06 16:42:31 - ERROR - stderr -  35%|████████████████████████████████████▌                                                                  | 741/2088 [1:33:59<2:36:57,  6.99s/it]
+2025-10-06 16:42:31 - ERROR - stderr - 
+2025-10-06 16:42:31 - ERROR - stderr - 
+2025-10-06 16:42:31 - INFO - stdout - {'loss': 1.1823, 'learning_rate': 0.0007479819669434711, 'epoch': 2.13}
+2025-10-06 16:42:31 - ERROR - stderr -  35%|████████████████████████████████████▌                                                                  | 741/2088 [1:33:59<2:36:57,  6.99s/it]
+2025-10-06 16:42:38 - ERROR - stderr -  36%|████████████████████████████████████▌                                                                  | 742/2088 [1:34:06<2:36:52,  6.99s/it]
+2025-10-06 16:42:38 - ERROR - stderr - 
+2025-10-06 16:42:38 - ERROR - stderr - 
+2025-10-06 16:42:38 - INFO - stdout - {'loss': 1.1944, 'learning_rate': 0.0007473080933854204, 'epoch': 2.13}
+2025-10-06 16:42:38 - ERROR - stderr -  36%|████████████████████████████████████▌                                                                  | 742/2088 [1:34:06<2:36:52,  6.99s/it]
+2025-10-06 16:42:45 - ERROR - stderr -  36%|████████████████████████████████████▋                                                                  | 743/2088 [1:34:14<2:38:12,  7.06s/it]
+2025-10-06 16:42:45 - ERROR - stderr - 
+2025-10-06 16:42:45 - ERROR - stderr - 
+2025-10-06 16:42:45 - INFO - stdout - {'loss': 1.2239, 'learning_rate': 0.0007466336245930927, 'epoch': 2.14}
+2025-10-06 16:42:45 - ERROR - stderr -  36%|████████████████████████████████████▋                                                                  | 743/2088 [1:34:14<2:38:12,  7.06s/it]
+2025-10-06 16:42:52 - ERROR - stderr -  36%|████████████████████████████████████▋                                                                  | 744/2088 [1:34:20<2:37:04,  7.01s/it]
+2025-10-06 16:42:52 - ERROR - stderr - 
+2025-10-06 16:42:52 - ERROR - stderr - 
+2025-10-06 16:42:52 - INFO - stdout - {'loss': 1.1953, 'learning_rate': 0.0007459585621898353, 'epoch': 2.14}
+2025-10-06 16:42:52 - ERROR - stderr -  36%|████████████████████████████████████▋                                                                  | 744/2088 [1:34:20<2:37:04,  7.01s/it]
+2025-10-06 16:42:59 - ERROR - stderr -  36%|████████████████████████████████████▊                                                                  | 745/2088 [1:34:28<2:37:57,  7.06s/it]
+2025-10-06 16:42:59 - ERROR - stderr - 
+2025-10-06 16:42:59 - ERROR - stderr - 
+2025-10-06 16:42:59 - INFO - stdout - {'loss': 1.1727, 'learning_rate': 0.0007452829078004245, 'epoch': 2.14}
+2025-10-06 16:42:59 - ERROR - stderr -  36%|████████████████████████████████████▊                                                                  | 745/2088 [1:34:28<2:37:57,  7.06s/it]
+2025-10-06 16:43:06 - ERROR - stderr -  36%|████████████████████████████████████▊                                                                  | 746/2088 [1:34:35<2:38:35,  7.09s/it]
+2025-10-06 16:43:06 - ERROR - stderr - 
+2025-10-06 16:43:06 - ERROR - stderr - 
+2025-10-06 16:43:06 - INFO - stdout - {'loss': 1.1727, 'learning_rate': 0.0007446066630510609, 'epoch': 2.14}
+2025-10-06 16:43:06 - ERROR - stderr -  36%|████████████████████████████████████▊                                                                  | 746/2088 [1:34:35<2:38:35,  7.09s/it]
+2025-10-06 16:43:13 - ERROR - stderr -  36%|████████████████████████████████████▊                                                                  | 747/2088 [1:34:42<2:38:26,  7.09s/it]
+2025-10-06 16:43:13 - ERROR - stderr - 
+2025-10-06 16:43:13 - ERROR - stderr - 
+2025-10-06 16:43:13 - INFO - stdout - {'loss': 1.1814, 'learning_rate': 0.0007439298295693664, 'epoch': 2.15}
+2025-10-06 16:43:13 - ERROR - stderr -  36%|████████████████████████████████████▊                                                                  | 747/2088 [1:34:42<2:38:26,  7.09s/it]
+2025-10-06 16:43:20 - ERROR - stderr -  36%|████████████████████████████████████▉                                                                  | 748/2088 [1:34:49<2:38:37,  7.10s/it]
+2025-10-06 16:43:21 - ERROR - stderr - 
+2025-10-06 16:43:21 - ERROR - stderr - 
+2025-10-06 16:43:21 - INFO - stdout - {'loss': 1.2628, 'learning_rate': 0.0007432524089843799, 'epoch': 2.15}
+2025-10-06 16:43:21 - ERROR - stderr -  36%|████████████████████████████████████▉                                                                  | 748/2088 [1:34:49<2:38:37,  7.10s/it]
+2025-10-06 16:43:27 - ERROR - stderr -  36%|████████████████████████████████████▉                                                                  | 749/2088 [1:34:56<2:37:37,  7.06s/it]
+2025-10-06 16:43:27 - ERROR - stderr - 
+2025-10-06 16:43:27 - ERROR - stderr - 
+2025-10-06 16:43:27 - INFO - stdout - {'loss': 1.1427, 'learning_rate': 0.0007425744029265535, 'epoch': 2.15}
+2025-10-06 16:43:27 - ERROR - stderr -  36%|████████████████████████████████████▉                                                                  | 749/2088 [1:34:56<2:37:37,  7.06s/it]
+2025-10-06 16:43:35 - ERROR - stderr -  36%|████████████████████████████████████▉                                                                  | 750/2088 [1:35:04<2:41:25,  7.24s/it]
+2025-10-06 16:43:35 - ERROR - stderr - 
+2025-10-06 16:43:35 - ERROR - stderr - 
+2025-10-06 16:43:35 - INFO - stdout - {'loss': 1.2016, 'learning_rate': 0.0007418958130277482, 'epoch': 2.16}
+2025-10-06 16:43:35 - ERROR - stderr -  36%|████████████████████████████████████▉                                                                  | 750/2088 [1:35:04<2:41:25,  7.24s/it]
+2025-10-06 16:43:42 - ERROR - stderr -  36%|█████████████████████████████████████                                                                  | 751/2088 [1:35:11<2:39:39,  7.16s/it]
+2025-10-06 16:43:42 - ERROR - stderr - 
+2025-10-06 16:43:42 - ERROR - stderr - 
+2025-10-06 16:43:42 - INFO - stdout - {'loss': 1.1896, 'learning_rate': 0.00074121664092123, 'epoch': 2.16}
+2025-10-06 16:43:42 - ERROR - stderr -  36%|█████████████████████████████████████                                                                  | 751/2088 [1:35:11<2:39:39,  7.16s/it]
+2025-10-06 16:43:49 - ERROR - stderr -  36%|█████████████████████████████████████                                                                  | 752/2088 [1:35:18<2:38:58,  7.14s/it]
+2025-10-06 16:43:49 - ERROR - stderr - 
+2025-10-06 16:43:49 - ERROR - stderr - 
+2025-10-06 16:43:49 - INFO - stdout - {'loss': 1.2848, 'learning_rate': 0.0007405368882416667, 'epoch': 2.16}
+2025-10-06 16:43:49 - ERROR - stderr -  36%|█████████████████████████████████████                                                                  | 752/2088 [1:35:18<2:38:58,  7.14s/it]
+2025-10-06 16:43:57 - ERROR - stderr -  36%|█████████████████████████████████████▏                                                                 | 753/2088 [1:35:25<2:40:46,  7.23s/it]
+2025-10-06 16:43:57 - ERROR - stderr - 
+2025-10-06 16:43:57 - ERROR - stderr - 
+2025-10-06 16:43:57 - INFO - stdout - {'loss': 1.2178, 'learning_rate': 0.0007398565566251232, 'epoch': 2.16}
+2025-10-06 16:43:57 - ERROR - stderr -  36%|█████████████████████████████████████▏                                                                 | 753/2088 [1:35:25<2:40:46,  7.23s/it]
+2025-10-06 16:44:04 - ERROR - stderr -  36%|█████████████████████████████████████▏                                                                 | 754/2088 [1:35:32<2:40:55,  7.24s/it]
+2025-10-06 16:44:04 - ERROR - stderr - 
+2025-10-06 16:44:04 - ERROR - stderr - 
+2025-10-06 16:44:04 - INFO - stdout - {'loss': 1.1474, 'learning_rate': 0.0007391756477090576, 'epoch': 2.17}
+2025-10-06 16:44:04 - ERROR - stderr -  36%|█████████████████████████████████████▏                                                                 | 754/2088 [1:35:32<2:40:55,  7.24s/it]
+2025-10-06 16:44:11 - ERROR - stderr -  36%|█████████████████████████████████████▏                                                                 | 755/2088 [1:35:40<2:40:49,  7.24s/it]
+2025-10-06 16:44:11 - ERROR - stderr - 
+2025-10-06 16:44:11 - ERROR - stderr - 
+2025-10-06 16:44:11 - INFO - stdout - {'loss': 1.2614, 'learning_rate': 0.000738494163132318, 'epoch': 2.17}
+2025-10-06 16:44:11 - ERROR - stderr -  36%|█████████████████████████████████████▏                                                                 | 755/2088 [1:35:40<2:40:49,  7.24s/it]
+2025-10-06 16:44:18 - ERROR - stderr -  36%|█████████████████████████████████████▎                                                                 | 756/2088 [1:35:47<2:39:16,  7.17s/it]
+2025-10-06 16:44:18 - ERROR - stderr - 
+2025-10-06 16:44:18 - ERROR - stderr - 
+2025-10-06 16:44:18 - INFO - stdout - {'loss': 1.2518, 'learning_rate': 0.0007378121045351377, 'epoch': 2.17}
+2025-10-06 16:44:18 - ERROR - stderr -  36%|█████████████████████████████████████▎                                                                 | 756/2088 [1:35:47<2:39:16,  7.17s/it]
+2025-10-06 16:44:25 - ERROR - stderr -  36%|█████████████████████████████████████▎                                                                 | 757/2088 [1:35:54<2:37:33,  7.10s/it]
+2025-10-06 16:44:25 - ERROR - stderr - 
+2025-10-06 16:44:25 - ERROR - stderr - 
+2025-10-06 16:44:25 - INFO - stdout - {'loss': 1.2274, 'learning_rate': 0.0007371294735591314, 'epoch': 2.18}
+2025-10-06 16:44:25 - ERROR - stderr -  36%|█████████████████████████████████████▎                                                                 | 757/2088 [1:35:54<2:37:33,  7.10s/it]
+2025-10-06 16:44:32 - ERROR - stderr -  36%|█████████████████████████████████████▍                                                                 | 758/2088 [1:36:01<2:38:02,  7.13s/it]
+2025-10-06 16:44:32 - ERROR - stderr - 
+2025-10-06 16:44:32 - ERROR - stderr - 
+2025-10-06 16:44:32 - INFO - stdout - {'loss': 1.1583, 'learning_rate': 0.0007364462718472918, 'epoch': 2.18}
+2025-10-06 16:44:32 - ERROR - stderr -  36%|█████████████████████████████████████▍                                                                 | 758/2088 [1:36:01<2:38:02,  7.13s/it]
+2025-10-06 16:44:39 - ERROR - stderr -  36%|█████████████████████████████████████▍                                                                 | 759/2088 [1:36:08<2:37:44,  7.12s/it]
+2025-10-06 16:44:39 - ERROR - stderr - 
+2025-10-06 16:44:39 - ERROR - stderr - 
+2025-10-06 16:44:39 - INFO - stdout - {'loss': 1.1966, 'learning_rate': 0.0007357625010439852, 'epoch': 2.18}
+2025-10-06 16:44:39 - ERROR - stderr -  36%|████████████████���████████████████████▍                                                                 | 759/2088 [1:36:08<2:37:44,  7.12s/it]
+2025-10-06 16:44:46 - ERROR - stderr -  36%|█████████████████████████████████████▍                                                                 | 760/2088 [1:36:15<2:36:54,  7.09s/it]
+2025-10-06 16:44:46 - ERROR - stderr - 
+2025-10-06 16:44:46 - ERROR - stderr - 
+2025-10-06 16:44:46 - INFO - stdout - {'loss': 1.2213, 'learning_rate': 0.0007350781627949475, 'epoch': 2.18}
+2025-10-06 16:44:46 - ERROR - stderr -  36%|█████████████████████████████████████▍                                                                 | 760/2088 [1:36:15<2:36:54,  7.09s/it]
+2025-10-06 16:44:54 - ERROR - stderr -  36%|█████████████████████████████████████▌                                                                 | 761/2088 [1:36:22<2:37:52,  7.14s/it]
+2025-10-06 16:44:54 - ERROR - stderr - 
+2025-10-06 16:44:54 - ERROR - stderr - 
+2025-10-06 16:44:54 - INFO - stdout - {'loss': 1.157, 'learning_rate': 0.0007343932587472803, 'epoch': 2.19}
+2025-10-06 16:44:54 - ERROR - stderr -  36%|█████████████████████████████████████▌                                                                 | 761/2088 [1:36:22<2:37:52,  7.14s/it]
+2025-10-06 16:45:01 - ERROR - stderr -  36%|█████████████████████████████████████▌                                                                 | 762/2088 [1:36:29<2:36:25,  7.08s/it]
+2025-10-06 16:45:01 - ERROR - stderr - 
+2025-10-06 16:45:01 - ERROR - stderr - 
+2025-10-06 16:45:01 - INFO - stdout - {'loss': 1.2594, 'learning_rate': 0.0007337077905494472, 'epoch': 2.19}
+2025-10-06 16:45:01 - ERROR - stderr -  36%|█████████████████████████████████████▌                                                                 | 762/2088 [1:36:29<2:36:25,  7.08s/it]
+2025-10-06 16:45:08 - ERROR - stderr -  37%|█████████████████████████████████████▋                                                                 | 763/2088 [1:36:37<2:38:53,  7.20s/it]
+2025-10-06 16:45:08 - ERROR - stderr - 
+2025-10-06 16:45:08 - ERROR - stderr - 
+2025-10-06 16:45:08 - INFO - stdout - {'loss': 1.15, 'learning_rate': 0.0007330217598512695, 'epoch': 2.19}
+2025-10-06 16:45:08 - ERROR - stderr -  37%|█████████████████████████████████████▋                                                                 | 763/2088 [1:36:37<2:38:53,  7.20s/it]
+2025-10-06 16:45:15 - ERROR - stderr -  37%|█████████████████████████████████████▋                                                                 | 764/2088 [1:36:43<2:35:58,  7.07s/it]
+2025-10-06 16:45:15 - ERROR - stderr - 
+2025-10-06 16:45:15 - ERROR - stderr - 
+2025-10-06 16:45:15 - INFO - stdout - {'loss': 1.124, 'learning_rate': 0.0007323351683039223, 'epoch': 2.2}
+2025-10-06 16:45:15 - ERROR - stderr -  37%|█████████████████████████████████████▋                                                                 | 764/2088 [1:36:43<2:35:58,  7.07s/it]
+2025-10-06 16:45:22 - ERROR - stderr -  37%|█████████████████████████████████████▋                                                                 | 765/2088 [1:36:50<2:35:25,  7.05s/it]
+2025-10-06 16:45:22 - ERROR - stderr - 
+2025-10-06 16:45:22 - ERROR - stderr - 
+2025-10-06 16:45:22 - INFO - stdout - {'loss': 1.2586, 'learning_rate': 0.0007316480175599309, 'epoch': 2.2}
+2025-10-06 16:45:22 - ERROR - stderr -  37%|█████████████████████████████████████▋                                                                 | 765/2088 [1:36:50<2:35:25,  7.05s/it]
+2025-10-06 16:45:29 - ERROR - stderr -  37%|█████████████████████████████████████▊                                                                 | 766/2088 [1:36:58<2:36:38,  7.11s/it]
+2025-10-06 16:45:29 - ERROR - stderr - 
+2025-10-06 16:45:29 - ERROR - stderr - 
+2025-10-06 16:45:29 - INFO - stdout - {'loss': 1.1638, 'learning_rate': 0.000730960309273166, 'epoch': 2.2}
+2025-10-06 16:45:29 - ERROR - stderr -  37%|█████████████████████████████████████▊                                                                 | 766/2088 [1:36:58<2:36:38,  7.11s/it]
+2025-10-06 16:45:36 - ERROR - stderr -  37%|█████████████████████████████████████▊                                                                 | 767/2088 [1:37:05<2:37:10,  7.14s/it]
+2025-10-06 16:45:36 - ERROR - stderr - 
+2025-10-06 16:45:36 - ERROR - stderr - 
+2025-10-06 16:45:36 - INFO - stdout - {'loss': 1.2584, 'learning_rate': 0.0007302720450988407, 'epoch': 2.2}
+2025-10-06 16:45:36 - ERROR - stderr -  37%|█████████████████████████████████████▊                                                                 | 767/2088 [1:37:05<2:37:10,  7.14s/it]
+2025-10-06 16:45:44 - ERROR - stderr -  37%|█████████████████████████████████████▉                                                                 | 768/2088 [1:37:12<2:37:58,  7.18s/it]
+2025-10-06 16:45:44 - ERROR - stderr - 
+2025-10-06 16:45:44 - ERROR - stderr - 
+2025-10-06 16:45:44 - INFO - stdout - {'loss': 1.2063, 'learning_rate': 0.0007295832266935059, 'epoch': 2.21}
+2025-10-06 16:45:44 - ERROR - stderr -  37%|█████████████████████████████████████▉                                                                 | 768/2088 [1:37:12<2:37:58,  7.18s/it]
+2025-10-06 16:45:51 - ERROR - stderr -  37%|█████████████████████████████████████▉                                                                 | 769/2088 [1:37:19<2:37:14,  7.15s/it]
+2025-10-06 16:45:51 - ERROR - stderr - 
+2025-10-06 16:45:51 - ERROR - stderr - 
+2025-10-06 16:45:51 - INFO - stdout - {'loss': 1.1813, 'learning_rate': 0.000728893855715046, 'epoch': 2.21}
+2025-10-06 16:45:51 - ERROR - stderr -  37%|█████████████████████████████████████▉                                                                 | 769/2088 [1:37:19<2:37:14,  7.15s/it]
+2025-10-06 16:45:57 - ERROR - stderr -  37%|█████████████████████████████████████▉                                                                 | 770/2088 [1:37:26<2:34:05,  7.01s/it]
+2025-10-06 16:45:57 - ERROR - stderr - 
+2025-10-06 16:45:57 - ERROR - stderr - 
+2025-10-06 16:45:57 - INFO - stdout - {'loss': 1.2691, 'learning_rate': 0.0007282039338226763, 'epoch': 2.21}
+2025-10-06 16:45:57 - ERROR - stderr -  37%|█████████████████████████████████████▉                                                                 | 770/2088 [1:37:26<2:34:05,  7.01s/it]
+2025-10-06 16:46:04 - ERROR - stderr -  37%|██████████████████████████████████████                                                                 | 771/2088 [1:37:33<2:33:33,  7.00s/it]
+2025-10-06 16:46:04 - ERROR - stderr - 
+2025-10-06 16:46:04 - ERROR - stderr - 
+2025-10-06 16:46:04 - INFO - stdout - {'loss': 1.2323, 'learning_rate': 0.0007275134626769369, 'epoch': 2.22}
+2025-10-06 16:46:04 - ERROR - stderr -  37%|██████████████████████████████████████                                                                 | 771/2088 [1:37:33<2:33:33,  7.00s/it]
+2025-10-06 16:46:11 - ERROR - stderr -  37%|██████████████████████████████████████                                                                 | 772/2088 [1:37:40<2:31:38,  6.91s/it]
+2025-10-06 16:46:11 - ERROR - stderr - 
+2025-10-06 16:46:11 - ERROR - stderr - 
+2025-10-06 16:46:11 - INFO - stdout - {'loss': 1.2579, 'learning_rate': 0.0007268224439396909, 'epoch': 2.22}
+2025-10-06 16:46:11 - ERROR - stderr -  37%|██████████████████████████████████████                                                                 | 772/2088 [1:37:40<2:31:38,  6.91s/it]
+2025-10-06 16:46:18 - ERROR - stderr -  37%|██████████████████████████████████████▏                                                                | 773/2088 [1:37:46<2:31:58,  6.93s/it]
+2025-10-06 16:46:18 - ERROR - stderr - 
+2025-10-06 16:46:18 - ERROR - stderr - 
+2025-10-06 16:46:18 - INFO - stdout - {'loss': 1.1843, 'learning_rate': 0.0007261308792741188, 'epoch': 2.22}
+2025-10-06 16:46:18 - ERROR - stderr -  37%|██████████████████████████████████████▏                                                                | 773/2088 [1:37:47<2:31:58,  6.93s/it]
+2025-10-06 16:46:25 - ERROR - stderr -  37%|██████████████████████████████████████▏                                                                | 774/2088 [1:37:54<2:32:55,  6.98s/it]
+2025-10-06 16:46:25 - ERROR - stderr - 
+2025-10-06 16:46:25 - ERROR - stderr - 
+2025-10-06 16:46:25 - INFO - stdout - {'loss': 1.1835, 'learning_rate': 0.0007254387703447154, 'epoch': 2.22}
+2025-10-06 16:46:25 - ERROR - stderr -  37%|██████████████████████████████████████▏                                                                | 774/2088 [1:37:54<2:32:55,  6.98s/it]
+2025-10-06 16:46:32 - ERROR - stderr -  37%|██████████████████████████████████████▏                                                                | 775/2088 [1:38:01<2:32:21,  6.96s/it]
+2025-10-06 16:46:32 - ERROR - stderr - 
+2025-10-06 16:46:32 - ERROR - stderr - 
+2025-10-06 16:46:32 - INFO - stdout - {'loss': 1.2046, 'learning_rate': 0.0007247461188172852, 'epoch': 2.23}
+2025-10-06 16:46:32 - ERROR - stderr -  37%|██████████████████████████████████████▏                                                                | 775/2088 [1:38:01<2:32:21,  6.96s/it]
+2025-10-06 16:46:39 - ERROR - stderr -  37%|██████████████████████████████████████▎                                                                | 776/2088 [1:38:08<2:32:39,  6.98s/it]
+2025-10-06 16:46:39 - ERROR - stderr - 
+2025-10-06 16:46:39 - ERROR - stderr - 
+2025-10-06 16:46:39 - INFO - stdout - {'loss': 1.2086, 'learning_rate': 0.0007240529263589387, 'epoch': 2.23}
+2025-10-06 16:46:39 - ERROR - stderr -  37%|██████████████████████████████████████▎                                                                | 776/2088 [1:38:08<2:32:39,  6.98s/it]
+2025-10-06 16:46:46 - ERROR - stderr -  37%|██████████████████████████████████████▎                                                                | 777/2088 [1:38:15<2:34:03,  7.05s/it]
+2025-10-06 16:46:46 - ERROR - stderr - 
+2025-10-06 16:46:46 - ERROR - stderr - 
+2025-10-06 16:46:46 - INFO - stdout - {'loss': 1.1944, 'learning_rate': 0.0007233591946380884, 'epoch': 2.23}
+2025-10-06 16:46:46 - ERROR - stderr -  37%|██████████████████████████████████████▎                                                                | 777/2088 [1:38:15<2:34:03,  7.05s/it]
+2025-10-06 16:46:53 - ERROR - stderr -  37%|██████████████████████████████████████▍                                                                | 778/2088 [1:38:22<2:34:48,  7.09s/it]
+2025-10-06 16:46:53 - ERROR - stderr - 
+2025-10-06 16:46:53 - ERROR - stderr - 
+2025-10-06 16:46:53 - INFO - stdout - {'loss': 1.2069, 'learning_rate': 0.0007226649253244447, 'epoch': 2.24}
+2025-10-06 16:46:53 - ERROR - stderr -  37%|██████████████████████████████████████▍                                                                | 778/2088 [1:38:22<2:34:48,  7.09s/it]
+2025-10-06 16:47:01 - ERROR - stderr -  37%|██████████████████████████████████████▍                                                                | 779/2088 [1:38:29<2:35:46,  7.14s/it]
+2025-10-06 16:47:01 - ERROR - stderr - 
+2025-10-06 16:47:01 - ERROR - stderr - 
+2025-10-06 16:47:01 - INFO - stdout - {'loss': 1.1781, 'learning_rate': 0.000721970120089012, 'epoch': 2.24}
+2025-10-06 16:47:01 - ERROR - stderr -  37%|██████████████████████████████████████▍                                                                | 779/2088 [1:38:29<2:35:46,  7.14s/it]
+2025-10-06 16:47:08 - ERROR - stderr -  37%|██████████████████████████████████████▍                                                                | 780/2088 [1:38:36<2:36:04,  7.16s/it]
+2025-10-06 16:47:08 - ERROR - stderr - 
+2025-10-06 16:47:08 - ERROR - stderr - 
+2025-10-06 16:47:08 - INFO - stdout - {'loss': 1.166, 'learning_rate': 0.0007212747806040845, 'epoch': 2.24}
+2025-10-06 16:47:08 - ERROR - stderr -  37%|██████████████████████████████████████▍                                                                | 780/2088 [1:38:36<2:36:04,  7.16s/it]
+2025-10-06 16:47:15 - ERROR - stderr -  37%|██████████████████████████████████████▌                                                                | 781/2088 [1:38:44<2:36:04,  7.16s/it]
+2025-10-06 16:47:15 - ERROR - stderr - 
+2025-10-06 16:47:15 - ERROR - stderr - 
+2025-10-06 16:47:15 - INFO - stdout - {'loss': 1.21, 'learning_rate': 0.0007205789085432422, 'epoch': 2.24}
+2025-10-06 16:47:15 - ERROR - stderr -  37%|██████████████████████████████████████▌                                                                | 781/2088 [1:38:44<2:36:04,  7.16s/it]
+2025-10-06 16:47:22 - ERROR - stderr -  37%|██████████████████████████████████████▌                                                                | 782/2088 [1:38:51<2:36:05,  7.17s/it]
+2025-10-06 16:47:22 - ERROR - stderr - 
+2025-10-06 16:47:22 - ERROR - stderr - 
+2025-10-06 16:47:22 - INFO - stdout - {'loss': 1.2072, 'learning_rate': 0.000719882505581347, 'epoch': 2.25}
+2025-10-06 16:47:22 - ERROR - stderr -  37%|██████████████████████████████████████▌                                                                | 782/2088 [1:38:51<2:36:05,  7.17s/it]
+2025-10-06 16:47:29 - ERROR - stderr -  38%|██████████████████████████████████████▋                                                                | 783/2088 [1:38:58<2:34:19,  7.10s/it]
+2025-10-06 16:47:29 - ERROR - stderr - 
+2025-10-06 16:47:29 - ERROR - stderr - 
+2025-10-06 16:47:29 - INFO - stdout - {'loss': 1.1883, 'learning_rate': 0.0007191855733945387, 'epoch': 2.25}
+2025-10-06 16:47:29 - ERROR - stderr -  38%|██████████████████████████████████████▋                                                                | 783/2088 [1:38:58<2:34:19,  7.10s/it]
+2025-10-06 16:47:37 - ERROR - stderr -  38%|██████████████████████████████████████▋                                                                | 784/2088 [1:39:05<2:36:44,  7.21s/it]
+2025-10-06 16:47:37 - ERROR - stderr - 
+2025-10-06 16:47:37 - ERROR - stderr - 
+2025-10-06 16:47:37 - INFO - stdout - {'loss': 1.1572, 'learning_rate': 0.0007184881136602308, 'epoch': 2.25}
+2025-10-06 16:47:37 - ERROR - stderr -  38%|██████████████████████████████████████▋                                                                | 784/2088 [1:39:05<2:36:44,  7.21s/it]
+2025-10-06 16:47:44 - ERROR - stderr -  38%|██████████████████████████████████████▋                                                                | 785/2088 [1:39:12<2:37:29,  7.25s/it]
+2025-10-06 16:47:44 - ERROR - stderr - 
+2025-10-06 16:47:44 - ERROR - stderr - 
+2025-10-06 16:47:44 - INFO - stdout - {'loss': 1.2424, 'learning_rate': 0.0007177901280571063, 'epoch': 2.26}
+2025-10-06 16:47:44 - ERROR - stderr -  38%|██████████████████████████████████████▋                                                                | 785/2088 [1:39:13<2:37:29,  7.25s/it]
+2025-10-06 16:47:51 - ERROR - stderr -  38%|██████████████████████████████████████▊                                                                | 786/2088 [1:39:20<2:36:14,  7.20s/it]
+2025-10-06 16:47:51 - ERROR - stderr - 
+2025-10-06 16:47:51 - ERROR - stderr - 
+2025-10-06 16:47:51 - INFO - stdout - {'loss': 1.1676, 'learning_rate': 0.000717091618265114, 'epoch': 2.26}
+2025-10-06 16:47:51 - ERROR - stderr -  38%|██████████████████████████████████████▊                                                                | 786/2088 [1:39:20<2:36:14,  7.20s/it]
+2025-10-06 16:47:58 - ERROR - stderr -  38%|██████████████████████████████████████▊                                                                | 787/2088 [1:39:27<2:36:04,  7.20s/it]
+2025-10-06 16:47:58 - ERROR - stderr - 
+2025-10-06 16:47:58 - ERROR - stderr - 
+2025-10-06 16:47:58 - INFO - stdout - {'loss': 1.1507, 'learning_rate': 0.0007163925859654649, 'epoch': 2.26}
+2025-10-06 16:47:58 - ERROR - stderr -  38%|██████████████████████████████████████▊                                                                | 787/2088 [1:39:27<2:36:04,  7.20s/it]
+2025-10-06 16:47:58 - INFO - stdout - [Warning] Zero or NaN encountered in pc_norm! pc_id: 87e8e5a7-0aae-571e-882e-0f8e926169d6
+2025-10-06 16:47:58 - INFO - stdout - m: [[0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]
+2025-10-06 16:47:58 - INFO - stdout -  [0.]]
+2025-10-06 16:48:06 - ERROR - stderr -  38%|██████████████████████████████████████▊                                                                | 788/2088 [1:39:34<2:38:43,  7.33s/it]
+2025-10-06 16:48:06 - ERROR - stderr - 
+2025-10-06 16:48:06 - ERROR - stderr - 
+2025-10-06 16:48:06 - INFO - stdout - {'loss': 1.2171, 'learning_rate': 0.0007156930328406268, 'epoch': 2.26}
+2025-10-06 16:48:06 - ERROR - stderr -  38%|██████████████████████████████████████▊                                                                | 788/2088 [1:39:34<2:38:43,  7.33s/it]
+2025-10-06 16:48:13 - ERROR - stderr -  38%|██████████████████████████████████████▉                                                                | 789/2088 [1:39:41<2:36:28,  7.23s/it]
+2025-10-06 16:48:13 - ERROR - stderr - 
+2025-10-06 16:48:13 - ERROR - stderr - 
+2025-10-06 16:48:13 - INFO - stdout - {'loss': 1.2667, 'learning_rate': 0.0007149929605743214, 'epoch': 2.27}
+2025-10-06 16:48:13 - ERROR - stderr -  38%|██████████████████████████████████████▉                                                                | 789/2088 [1:39:41<2:36:28,  7.23s/it]
+2025-10-06 16:48:20 - ERROR - stderr -  38%|██████████████████████████████████████▉                                                                | 790/2088 [1:39:48<2:35:04,  7.17s/it]
+2025-10-06 16:48:20 - ERROR - stderr - 
+2025-10-06 16:48:20 - ERROR - stderr - 
+2025-10-06 16:48:20 - INFO - stdout - {'loss': 1.2108, 'learning_rate': 0.0007142923708515199, 'epoch': 2.27}
+2025-10-06 16:48:20 - ERROR - stderr -  38%|██████████████████████████████████████▉                                                                | 790/2088 [1:39:48<2:35:04,  7.17s/it]
+2025-10-06 16:48:27 - ERROR - stderr -  38%|███████████████████████████████████████                                                                | 791/2088 [1:39:55<2:33:00,  7.08s/it]
+2025-10-06 16:48:27 - ERROR - stderr - 
+2025-10-06 16:48:27 - ERROR - stderr - 
+2025-10-06 16:48:27 - INFO - stdout - {'loss': 1.2379, 'learning_rate': 0.0007135912653584389, 'epoch': 2.27}
+2025-10-06 16:48:27 - ERROR - stderr -  38%|███████████████████████████████████████                                                                | 791/2088 [1:39:55<2:33:00,  7.08s/it]
+2025-10-06 16:48:34 - ERROR - stderr -  38%|███████████████████████████████████████                                                                | 792/2088 [1:40:03<2:34:10,  7.14s/it]
+2025-10-06 16:48:34 - ERROR - stderr - 
+2025-10-06 16:48:34 - ERROR - stderr - 
+2025-10-06 16:48:34 - INFO - stdout - {'loss': 1.2768, 'learning_rate': 0.0007128896457825364, 'epoch': 2.28}
+2025-10-06 16:48:34 - ERROR - stderr -  38%|███████████████████████████████████████                                                                | 792/2088 [1:40:03<2:34:10,  7.14s/it]
+2025-10-06 16:48:41 - ERROR - stderr -  38%|███████████████████████████████████████                                                                | 793/2088 [1:40:09<2:32:26,  7.06s/it]
+2025-10-06 16:48:41 - ERROR - stderr - 
+2025-10-06 16:48:41 - ERROR - stderr - 
+2025-10-06 16:48:41 - INFO - stdout - {'loss': 1.2527, 'learning_rate': 0.0007121875138125077, 'epoch': 2.28}
+2025-10-06 16:48:41 - ERROR - stderr -  38%|███████████████████████████████████████                                                                | 793/2088 [1:40:09<2:32:26,  7.06s/it]
+2025-10-06 16:48:48 - ERROR - stderr -  38%|███████████████████████████████████████▏                                                               | 794/2088 [1:40:16<2:31:53,  7.04s/it]
+2025-10-06 16:48:48 - ERROR - stderr - 
+2025-10-06 16:48:48 - ERROR - stderr - 
+2025-10-06 16:48:48 - INFO - stdout - {'loss': 1.1553, 'learning_rate': 0.0007114848711382815, 'epoch': 2.28}
+2025-10-06 16:48:48 - ERROR - stderr -  38%|███████████████████████████████████████▏                                                               | 794/2088 [1:40:16<2:31:53,  7.04s/it]
+2025-10-06 16:48:55 - ERROR - stderr -  38%|███████████████████████████████████████▏                                                               | 795/2088 [1:40:24<2:33:24,  7.12s/it]
+2025-10-06 16:48:55 - ERROR - stderr - 
+2025-10-06 16:48:55 - ERROR - stderr - 
+2025-10-06 16:48:55 - INFO - stdout - {'loss': 1.134, 'learning_rate': 0.0007107817194510156, 'epoch': 2.28}
+2025-10-06 16:48:55 - ERROR - stderr -  38%|███████████████████████████████████████▏                                                               | 795/2088 [1:40:24<2:33:24,  7.12s/it]
+2025-10-06 16:49:02 - ERROR - stderr -  38%|███████████████████████████████████████▎                                                               | 796/2088 [1:40:31<2:31:51,  7.05s/it]
+2025-10-06 16:49:02 - ERROR - stderr - 
+2025-10-06 16:49:02 - ERROR - stderr - 
+2025-10-06 16:49:02 - INFO - stdout - {'loss': 1.1948, 'learning_rate': 0.0007100780604430928, 'epoch': 2.29}
+2025-10-06 16:49:02 - ERROR - stderr -  38%|███████████████████████████████████████▎                                                               | 796/2088 [1:40:31<2:31:51,  7.05s/it]
+2025-10-06 16:49:09 - ERROR - stderr -  38%|███████████████████████████████████████▎                                                               | 797/2088 [1:40:38<2:32:15,  7.08s/it]
+2025-10-06 16:49:09 - ERROR - stderr - 
+2025-10-06 16:49:09 - ERROR - stderr - 
+2025-10-06 16:49:09 - INFO - stdout - {'loss': 1.1314, 'learning_rate': 0.0007093738958081168, 'epoch': 2.29}
+2025-10-06 16:49:09 - ERROR - stderr -  38%|███████████████████████████████████████▎                                                               | 797/2088 [1:40:38<2:32:15,  7.08s/it]
+2025-10-06 16:49:16 - ERROR - stderr -  38%|███████████████████████████████████████▎                                                               | 798/2088 [1:40:45<2:31:02,  7.03s/it]
+2025-10-06 16:49:16 - ERROR - stderr - 
+2025-10-06 16:49:16 - ERROR - stderr - 
+2025-10-06 16:49:16 - INFO - stdout - {'loss': 1.2322, 'learning_rate': 0.000708669227240909, 'epoch': 2.29}
+2025-10-06 16:49:16 - ERROR - stderr -  38%|███████████████████████████████████████▎                                                               | 798/2088 [1:40:45<2:31:02,  7.03s/it]
+2025-10-06 16:49:23 - ERROR - stderr -  38%|███████████████████████████████████████▍                                                               | 799/2088 [1:40:52<2:31:47,  7.07s/it]
+2025-10-06 16:49:23 - ERROR - stderr - 
+2025-10-06 16:49:23 - ERROR - stderr - 
+2025-10-06 16:49:23 - INFO - stdout - {'loss': 1.1523, 'learning_rate': 0.0007079640564375028, 'epoch': 2.3}
+2025-10-06 16:49:23 - ERROR - stderr -  38%|███████████████████████████████████████▍                                                               | 799/2088 [1:40:52<2:31:47,  7.07s/it]
+2025-10-06 16:49:30 - ERROR - stderr -  38%|███████████████████████████████████████▍                                                               | 800/2088 [1:40:59<2:31:55,  7.08s/it]
+2025-10-06 16:49:30 - ERROR - stderr - 
+2025-10-06 16:49:30 - ERROR - stderr - 
+2025-10-06 16:49:30 - INFO - stdout - {'loss': 1.2105, 'learning_rate': 0.0007072583850951411, 'epoch': 2.3}
+2025-10-06 16:49:30 - ERROR - stderr -  38%|███████████████████████████████████████▍                                                               | 800/2088 [1:40:59<2:31:55,  7.08s/it]
+2025-10-06 16:49:31 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800
+2025-10-06 16:49:31 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800
+2025-10-06 16:49:31 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/config.json
+2025-10-06 16:49:31 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/config.json
+2025-10-06 16:49:31 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/generation_config.json
+2025-10-06 16:49:31 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/generation_config.json
+2025-10-06 16:50:11 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/pytorch_model.bin.index.json.
+2025-10-06 16:50:11 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/pytorch_model.bin.index.json.
+2025-10-06 16:50:11 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/tokenizer_config.json
+2025-10-06 16:50:11 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/tokenizer_config.json
+2025-10-06 16:50:11 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/special_tokens_map.json
+2025-10-06 16:50:11 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/special_tokens_map.json
+2025-10-06 16:50:11 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/added_tokens.json
+2025-10-06 16:50:11 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800/added_tokens.json
+2025-10-06 16:50:13 - INFO - transformers.trainer - Deleting older checkpoint [epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400] due to args.save_total_limit
+2025-10-06 16:50:13 - INFO - transformers.trainer - Deleting older checkpoint [epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-400] due to args.save_total_limit
+2025-10-06 16:50:18 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 16:50:18 - ERROR - stderr -   warnings.warn(
+2025-10-06 16:50:22 - ERROR - stderr -  38%|███████████████████████████████████████▌                                                               | 801/2088 [1:41:51<7:19:21, 20.48s/it]
+2025-10-06 16:50:22 - ERROR - stderr - 
+2025-10-06 16:50:22 - ERROR - stderr - 
+2025-10-06 16:50:22 - INFO - stdout - {'loss': 1.1566, 'learning_rate': 0.000706552214912271, 'epoch': 2.3}
+2025-10-06 16:50:22 - ERROR - stderr -  38%|███████████████████████████████████████▌                                                               | 801/2088 [1:41:51<7:19:21, 20.48s/it]
+2025-10-06 16:50:29 - ERROR - stderr -  38%|███████████████████████████████████████▌                                                               | 802/2088 [1:41:58<5:51:49, 16.41s/it]
+2025-10-06 16:50:29 - ERROR - stderr - 
+2025-10-06 16:50:29 - ERROR - stderr - 
+2025-10-06 16:50:29 - INFO - stdout - {'loss': 1.2123, 'learning_rate': 0.0007058455475885405, 'epoch': 2.3}
+2025-10-06 16:50:29 - ERROR - stderr -  38%|████████████████████████████��██████████▌                                                               | 802/2088 [1:41:58<5:51:49, 16.41s/it]
+2025-10-06 16:50:36 - ERROR - stderr -  38%|███████████████████████████████████████▌                                                               | 803/2088 [1:42:05<4:51:46, 13.62s/it]
+2025-10-06 16:50:36 - ERROR - stderr - 
+2025-10-06 16:50:36 - ERROR - stderr - 
+2025-10-06 16:50:36 - INFO - stdout - {'loss': 1.2024, 'learning_rate': 0.0007051383848247942, 'epoch': 2.31}
+2025-10-06 16:50:36 - ERROR - stderr -  38%|███████████████████████████████████████▌                                                               | 803/2088 [1:42:05<4:51:46, 13.62s/it]
+2025-10-06 16:50:43 - ERROR - stderr -  39%|███████████████████████████████████████▋                                                               | 804/2088 [1:42:12<4:07:31, 11.57s/it]
+2025-10-06 16:50:43 - ERROR - stderr - 
+2025-10-06 16:50:43 - ERROR - stderr - 
+2025-10-06 16:50:43 - INFO - stdout - {'loss': 1.1633, 'learning_rate': 0.000704430728323069, 'epoch': 2.31}
+2025-10-06 16:50:43 - ERROR - stderr -  39%|███████████████████████████████████████▋                                                               | 804/2088 [1:42:12<4:07:31, 11.57s/it]
+2025-10-06 16:50:50 - ERROR - stderr -  39%|███████████████████████████████████████▋                                                               | 805/2088 [1:42:18<3:37:18, 10.16s/it]
+2025-10-06 16:50:50 - ERROR - stderr - 
+2025-10-06 16:50:50 - ERROR - stderr - 
+2025-10-06 16:50:50 - INFO - stdout - {'loss': 1.1965, 'learning_rate': 0.0007037225797865902, 'epoch': 2.31}
+2025-10-06 16:50:50 - ERROR - stderr -  39%|███████████████████████████████████████▋                                                               | 805/2088 [1:42:18<3:37:18, 10.16s/it]
+2025-10-06 16:50:57 - ERROR - stderr -  39%|███████████████████████████████████████▊                                                               | 806/2088 [1:42:25<3:15:52,  9.17s/it]
+2025-10-06 16:50:57 - ERROR - stderr - 
+2025-10-06 16:50:57 - ERROR - stderr - 
+2025-10-06 16:50:57 - INFO - stdout - {'loss': 1.1422, 'learning_rate': 0.0007030139409197676, 'epoch': 2.32}
+2025-10-06 16:50:57 - ERROR - stderr -  39%|███████████████████████████████████████▊                                                               | 806/2088 [1:42:25<3:15:52,  9.17s/it]
+2025-10-06 16:51:04 - ERROR - stderr -  39%|███████████████████████████████████████▊                                                               | 807/2088 [1:42:32<3:01:39,  8.51s/it]
+2025-10-06 16:51:04 - ERROR - stderr - 
+2025-10-06 16:51:04 - ERROR - stderr - 
+2025-10-06 16:51:04 - INFO - stdout - {'loss': 1.1593, 'learning_rate': 0.0007023048134281906, 'epoch': 2.32}
+2025-10-06 16:51:04 - ERROR - stderr -  39%|███████████████████████████████████████▊                                                               | 807/2088 [1:42:32<3:01:39,  8.51s/it]
+2025-10-06 16:51:11 - ERROR - stderr -  39%|███████████████████████████████████████▊                                                               | 808/2088 [1:42:39<2:52:57,  8.11s/it]
+2025-10-06 16:51:11 - ERROR - stderr - 
+2025-10-06 16:51:11 - ERROR - stderr - 
+2025-10-06 16:51:11 - INFO - stdout - {'loss': 1.2575, 'learning_rate': 0.0007015951990186251, 'epoch': 2.32}
+2025-10-06 16:51:11 - ERROR - stderr -  39%|███████████████████████████████████████▊                                                               | 808/2088 [1:42:39<2:52:57,  8.11s/it]
+2025-10-06 16:51:18 - ERROR - stderr -  39%|███████████████████████████████████████▉                                                               | 809/2088 [1:42:46<2:46:24,  7.81s/it]
+2025-10-06 16:51:18 - ERROR - stderr - 
+2025-10-06 16:51:18 - ERROR - stderr - 
+2025-10-06 16:51:18 - INFO - stdout - {'loss': 1.2021, 'learning_rate': 0.000700885099399009, 'epoch': 2.32}
+2025-10-06 16:51:18 - ERROR - stderr -  39%|██████████████████████████████���████████▉                                                               | 809/2088 [1:42:46<2:46:24,  7.81s/it]
+2025-10-06 16:51:25 - ERROR - stderr -  39%|███████████████████████████████████████▉                                                               | 810/2088 [1:42:54<2:44:20,  7.72s/it]
+2025-10-06 16:51:26 - ERROR - stderr - 
+2025-10-06 16:51:26 - ERROR - stderr - 
+2025-10-06 16:51:26 - INFO - stdout - {'loss': 1.1476, 'learning_rate': 0.0007001745162784476, 'epoch': 2.33}
+2025-10-06 16:51:26 - ERROR - stderr -  39%|███████████████████████████████████████▉                                                               | 810/2088 [1:42:54<2:44:20,  7.72s/it]
+2025-10-06 16:51:33 - ERROR - stderr -  39%|████████████████████████████████████████                                                               | 811/2088 [1:43:01<2:41:05,  7.57s/it]
+2025-10-06 16:51:33 - ERROR - stderr - 
+2025-10-06 16:51:33 - ERROR - stderr - 
+2025-10-06 16:51:33 - INFO - stdout - {'loss': 1.0767, 'learning_rate': 0.0006994634513672101, 'epoch': 2.33}
+2025-10-06 16:51:33 - ERROR - stderr -  39%|████████████████████████████████████████                                                               | 811/2088 [1:43:01<2:41:05,  7.57s/it]
+2025-10-06 16:51:40 - ERROR - stderr -  39%|████████████████████████████████████████                                                               | 812/2088 [1:43:09<2:40:33,  7.55s/it]
+2025-10-06 16:51:40 - ERROR - stderr - 
+2025-10-06 16:51:40 - ERROR - stderr - 
+2025-10-06 16:51:40 - INFO - stdout - {'loss': 1.2395, 'learning_rate': 0.0006987519063767256, 'epoch': 2.33}
+2025-10-06 16:51:40 - ERROR - stderr -  39%|████████████████████████████████████████                                                               | 812/2088 [1:43:09<2:40:33,  7.55s/it]
+2025-10-06 16:51:47 - ERROR - stderr -  39%|████████████████████████████████████████                                                               | 813/2088 [1:43:16<2:37:47,  7.43s/it]
+2025-10-06 16:51:47 - ERROR - stderr - 
+2025-10-06 16:51:47 - ERROR - stderr - 
+2025-10-06 16:51:47 - INFO - stdout - {'loss': 1.1671, 'learning_rate': 0.0006980398830195785, 'epoch': 2.34}
+2025-10-06 16:51:47 - ERROR - stderr -  39%|████████████████████████████████████████                                                               | 813/2088 [1:43:16<2:37:47,  7.43s/it]
+2025-10-06 16:51:54 - ERROR - stderr -  39%|████████████████████████████████████████▏                                                              | 814/2088 [1:43:23<2:35:13,  7.31s/it]
+2025-10-06 16:51:54 - ERROR - stderr - 
+2025-10-06 16:51:54 - ERROR - stderr - 
+2025-10-06 16:51:54 - INFO - stdout - {'loss': 1.1685, 'learning_rate': 0.0006973273830095042, 'epoch': 2.34}
+2025-10-06 16:51:54 - ERROR - stderr -  39%|████████████████████████████████████████▏                                                              | 814/2088 [1:43:23<2:35:13,  7.31s/it]
+2025-10-06 16:52:01 - ERROR - stderr -  39%|████████████████████████████████████████▏                                                              | 815/2088 [1:43:30<2:32:29,  7.19s/it]
+2025-10-06 16:52:01 - ERROR - stderr - 
+2025-10-06 16:52:01 - ERROR - stderr - 
+2025-10-06 16:52:01 - INFO - stdout - {'loss': 1.2131, 'learning_rate': 0.0006966144080613858, 'epoch': 2.34}
+2025-10-06 16:52:01 - ERROR - stderr -  39%|████████████████████████████████████████▏                                                              | 815/2088 [1:43:30<2:32:29,  7.19s/it]
+2025-10-06 16:52:09 - ERROR - stderr -  39%|████████████████████████████████████████▎                                                              | 816/2088 [1:43:37<2:35:11,  7.32s/it]
+2025-10-06 16:52:09 - ERROR - stderr - 
+2025-10-06 16:52:09 - ERROR - stderr - 
+2025-10-06 16:52:09 - INFO - stdout - {'loss': 1.1373, 'learning_rate': 0.0006959009598912492, 'epoch': 2.34}
+2025-10-06 16:52:09 - ERROR - stderr -  39%|████████████████████████████████████████▎                                                              | 816/2088 [1:43:37<2:35:11,  7.32s/it]
+2025-10-06 16:52:16 - ERROR - stderr -  39%|████████████████████████████████████████▎                                                              | 817/2088 [1:43:44<2:32:53,  7.22s/it]
+2025-10-06 16:52:16 - ERROR - stderr - 
+2025-10-06 16:52:16 - ERROR - stderr - 
+2025-10-06 16:52:16 - INFO - stdout - {'loss': 1.1954, 'learning_rate': 0.0006951870402162597, 'epoch': 2.35}
+2025-10-06 16:52:16 - ERROR - stderr -  39%|████████████████████████████████████████▎                                                              | 817/2088 [1:43:44<2:32:53,  7.22s/it]
+2025-10-06 16:52:23 - ERROR - stderr -  39%|████████████████████████████████████████▎                                                              | 818/2088 [1:43:52<2:32:35,  7.21s/it]
+2025-10-06 16:52:23 - ERROR - stderr - 
+2025-10-06 16:52:23 - ERROR - stderr - 
+2025-10-06 16:52:23 - INFO - stdout - {'loss': 1.1569, 'learning_rate': 0.0006944726507547168, 'epoch': 2.35}
+2025-10-06 16:52:23 - ERROR - stderr -  39%|████████████████████████████████████████▎                                                              | 818/2088 [1:43:52<2:32:35,  7.21s/it]
+2025-10-06 16:52:30 - ERROR - stderr -  39%|████████████████████████████████████████▍                                                              | 819/2088 [1:43:59<2:31:08,  7.15s/it]
+2025-10-06 16:52:30 - ERROR - stderr - 
+2025-10-06 16:52:30 - ERROR - stderr - 
+2025-10-06 16:52:30 - INFO - stdout - {'loss': 1.2331, 'learning_rate': 0.0006937577932260515, 'epoch': 2.35}
+2025-10-06 16:52:30 - ERROR - stderr -  39%|████████████████████████████████████████▍                                                              | 819/2088 [1:43:59<2:31:08,  7.15s/it]
+2025-10-06 16:52:37 - ERROR - stderr -  39%|████████████████████████████████████████▍                                                              | 820/2088 [1:44:06<2:30:37,  7.13s/it]
+2025-10-06 16:52:37 - ERROR - stderr - 
+2025-10-06 16:52:37 - ERROR - stderr - 
+2025-10-06 16:52:37 - INFO - stdout - {'loss': 1.1988, 'learning_rate': 0.0006930424693508206, 'epoch': 2.36}
+2025-10-06 16:52:37 - ERROR - stderr -  39%|████████████████████████████████████████▍                                                              | 820/2088 [1:44:06<2:30:37,  7.13s/it]
+2025-10-06 16:52:44 - ERROR - stderr -  39%|████████████████████████████████████████▍                                                              | 821/2088 [1:44:13<2:30:45,  7.14s/it]
+2025-10-06 16:52:44 - ERROR - stderr - 
+2025-10-06 16:52:44 - ERROR - stderr - 
+2025-10-06 16:52:44 - INFO - stdout - {'loss': 1.2639, 'learning_rate': 0.0006923266808507037, 'epoch': 2.36}
+2025-10-06 16:52:44 - ERROR - stderr -  39%|████████████████████████████████████████▍                                                              | 821/2088 [1:44:13<2:30:45,  7.14s/it]
+2025-10-06 16:52:51 - ERROR - stderr -  39%|████████████████████████████████████████▌                                                              | 822/2088 [1:44:20<2:29:22,  7.08s/it]
+2025-10-06 16:52:51 - ERROR - stderr - 
+2025-10-06 16:52:51 - ERROR - stderr - 
+2025-10-06 16:52:51 - INFO - stdout - {'loss': 1.1916, 'learning_rate': 0.0006916104294484987, 'epoch': 2.36}
+2025-10-06 16:52:51 - ERROR - stderr -  39%|████████████████████████████████████████▌                                                              | 822/2088 [1:44:20<2:29:22,  7.08s/it]
+2025-10-06 16:52:59 - ERROR - stderr -  39%|████████████████████████████████████████▌                                                              | 823/2088 [1:44:27<2:30:29,  7.14s/it]
+2025-10-06 16:52:59 - ERROR - stderr - 
+2025-10-06 16:52:59 - ERROR - stderr - 
+2025-10-06 16:52:59 - INFO - stdout - {'loss': 1.1541, 'learning_rate': 0.0006908937168681175, 'epoch': 2.36}
+2025-10-06 16:52:59 - ERROR - stderr -  39%|███████████████████��████████████████████▌                                                              | 823/2088 [1:44:27<2:30:29,  7.14s/it]
+2025-10-06 16:53:06 - ERROR - stderr -  39%|████████████████████████████████████████▋                                                              | 824/2088 [1:44:34<2:32:10,  7.22s/it]
+2025-10-06 16:53:06 - ERROR - stderr - 
+2025-10-06 16:53:06 - ERROR - stderr - 
+2025-10-06 16:53:06 - INFO - stdout - {'loss': 1.1777, 'learning_rate': 0.0006901765448345822, 'epoch': 2.37}
+2025-10-06 16:53:06 - ERROR - stderr -  39%|████████████████████████████████████████▋                                                              | 824/2088 [1:44:34<2:32:10,  7.22s/it]
+2025-10-06 16:53:13 - ERROR - stderr -  40%|████████████████████████████████████████▋                                                              | 825/2088 [1:44:42<2:32:17,  7.23s/it]
+2025-10-06 16:53:13 - ERROR - stderr - 
+2025-10-06 16:53:13 - ERROR - stderr - 
+2025-10-06 16:53:13 - INFO - stdout - {'loss': 1.2299, 'learning_rate': 0.0006894589150740207, 'epoch': 2.37}
+2025-10-06 16:53:13 - ERROR - stderr -  40%|████████████████████████████████████████▋                                                              | 825/2088 [1:44:42<2:32:17,  7.23s/it]
+2025-10-06 16:53:20 - ERROR - stderr -  40%|████████████████████████████████████████▋                                                              | 826/2088 [1:44:48<2:28:48,  7.07s/it]
+2025-10-06 16:53:20 - ERROR - stderr - 
+2025-10-06 16:53:20 - ERROR - stderr - 
+2025-10-06 16:53:20 - INFO - stdout - {'loss': 1.1368, 'learning_rate': 0.0006887408293136621, 'epoch': 2.37}
+2025-10-06 16:53:20 - ERROR - stderr -  40%|████████████████████████████████████████▋                                                              | 826/2088 [1:44:48<2:28:48,  7.07s/it]
+2025-10-06 16:53:27 - ERROR - stderr -  40%|████████████████████████████████████████▊                                                              | 827/2088 [1:44:56<2:31:39,  7.22s/it]
+2025-10-06 16:53:28 - ERROR - stderr - 
+2025-10-06 16:53:28 - ERROR - stderr - 
+2025-10-06 16:53:28 - INFO - stdout - {'loss': 1.264, 'learning_rate': 0.000688022289281834, 'epoch': 2.38}
+2025-10-06 16:53:28 - ERROR - stderr -  40%|████████████████████████████████████████▊                                                              | 827/2088 [1:44:56<2:31:39,  7.22s/it]
+2025-10-06 16:53:34 - ERROR - stderr -  40%|████████████████████████████████████████▊                                                              | 828/2088 [1:45:03<2:29:03,  7.10s/it]
+2025-10-06 16:53:34 - ERROR - stderr - 
+2025-10-06 16:53:34 - ERROR - stderr - 
+2025-10-06 16:53:34 - INFO - stdout - {'loss': 1.1442, 'learning_rate': 0.0006873032967079561, 'epoch': 2.38}
+2025-10-06 16:53:34 - ERROR - stderr -  40%|████████████████████████████████████████▊                                                              | 828/2088 [1:45:03<2:29:03,  7.10s/it]
+2025-10-06 16:53:41 - ERROR - stderr -  40%|████████████████████████████████████████▉                                                              | 829/2088 [1:45:10<2:28:18,  7.07s/it]
+2025-10-06 16:53:41 - ERROR - stderr - 
+2025-10-06 16:53:41 - ERROR - stderr - 
+2025-10-06 16:53:41 - INFO - stdout - {'loss': 1.2316, 'learning_rate': 0.0006865838533225383, 'epoch': 2.38}
+2025-10-06 16:53:41 - ERROR - stderr -  40%|████████████████████████████████████████▉                                                              | 829/2088 [1:45:10<2:28:18,  7.07s/it]
+2025-10-06 16:53:49 - ERROR - stderr -  40%|████████████████████████████████████████▉                                                              | 830/2088 [1:45:17<2:29:05,  7.11s/it]
+2025-10-06 16:53:49 - ERROR - stderr - 
+2025-10-06 16:53:49 - ERROR - stderr - 
+2025-10-06 16:53:49 - INFO - stdout - {'loss': 1.2249, 'learning_rate': 0.0006858639608571753, 'epoch': 2.39}
+2025-10-06 16:53:49 - ERROR - stderr -  40%|████████████████████████████████████████▉                                                              | 830/2088 [1:45:17<2:29:05,  7.11s/it]
+2025-10-06 16:53:55 - ERROR - stderr -  40%|████████████████████████████████████████▉                                                              | 831/2088 [1:45:24<2:27:58,  7.06s/it]
+2025-10-06 16:53:55 - ERROR - stderr - 
+2025-10-06 16:53:55 - ERROR - stderr - 
+2025-10-06 16:53:55 - INFO - stdout - {'loss': 1.1791, 'learning_rate': 0.0006851436210445427, 'epoch': 2.39}
+2025-10-06 16:53:55 - ERROR - stderr -  40%|████████████████████████████████████████▉                                                              | 831/2088 [1:45:24<2:27:58,  7.06s/it]
+2025-10-06 16:54:04 - ERROR - stderr -  40%|█████████████████████████████████████████                                                              | 832/2088 [1:45:32<2:34:15,  7.37s/it]
+2025-10-06 16:54:04 - ERROR - stderr - 
+2025-10-06 16:54:04 - ERROR - stderr - 
+2025-10-06 16:54:04 - INFO - stdout - {'loss': 1.2359, 'learning_rate': 0.0006844228356183924, 'epoch': 2.39}
+2025-10-06 16:54:04 - ERROR - stderr -  40%|█████████████████████████████████████████                                                              | 832/2088 [1:45:32<2:34:15,  7.37s/it]
+2025-10-06 16:54:11 - ERROR - stderr -  40%|█████████████████████████████████████████                                                              | 833/2088 [1:45:39<2:32:11,  7.28s/it]
+2025-10-06 16:54:11 - ERROR - stderr - 
+2025-10-06 16:54:11 - ERROR - stderr - 
+2025-10-06 16:54:11 - INFO - stdout - {'loss': 1.2519, 'learning_rate': 0.0006837016063135491, 'epoch': 2.39}
+2025-10-06 16:54:11 - ERROR - stderr -  40%|█████████████████████████████████████████                                                              | 833/2088 [1:45:39<2:32:11,  7.28s/it]
+2025-10-06 16:54:18 - ERROR - stderr -  40%|█████████████████████████████████████████▏                                                             | 834/2088 [1:45:46<2:29:53,  7.17s/it]
+2025-10-06 16:54:18 - ERROR - stderr - 
+2025-10-06 16:54:18 - ERROR - stderr - 
+2025-10-06 16:54:18 - INFO - stdout - {'loss': 1.2299, 'learning_rate': 0.000682979934865906, 'epoch': 2.4}
+2025-10-06 16:54:18 - ERROR - stderr -  40%|█████████████████████████████████████████▏                                                             | 834/2088 [1:45:46<2:29:53,  7.17s/it]
+2025-10-06 16:54:24 - ERROR - stderr -  40%|█████████████████████████████████████████▏                                                             | 835/2088 [1:45:53<2:28:23,  7.11s/it]
+2025-10-06 16:54:25 - ERROR - stderr - 
+2025-10-06 16:54:25 - ERROR - stderr - 
+2025-10-06 16:54:25 - INFO - stdout - {'loss': 1.1473, 'learning_rate': 0.0006822578230124206, 'epoch': 2.4}
+2025-10-06 16:54:25 - ERROR - stderr -  40%|█████████████████████████████████████████▏                                                             | 835/2088 [1:45:53<2:28:23,  7.11s/it]
+2025-10-06 16:54:32 - ERROR - stderr -  40%|█████████████████████████████████████████▏                                                             | 836/2088 [1:46:00<2:29:13,  7.15s/it]
+2025-10-06 16:54:32 - ERROR - stderr - 
+2025-10-06 16:54:32 - ERROR - stderr - 
+2025-10-06 16:54:32 - INFO - stdout - {'loss': 1.2009, 'learning_rate': 0.0006815352724911095, 'epoch': 2.4}
+2025-10-06 16:54:32 - ERROR - stderr -  40%|█████████████████████████████████████████▏                                                             | 836/2088 [1:46:00<2:29:13,  7.15s/it]
+2025-10-06 16:54:39 - ERROR - stderr -  40%|█████████████████████████████████████████▎                                                             | 837/2088 [1:46:07<2:28:47,  7.14s/it]
+2025-10-06 16:54:39 - ERROR - stderr - 
+2025-10-06 16:54:39 - ERROR - stderr - 
+2025-10-06 16:54:39 - INFO - stdout - {'loss': 1.2532, 'learning_rate': 0.000680812285041046, 'epoch': 2.41}
+2025-10-06 16:54:39 - ERROR - stderr -  40%|��████████████████████████████████████████▎                                                             | 837/2088 [1:46:07<2:28:47,  7.14s/it]
+2025-10-06 16:54:46 - ERROR - stderr -  40%|█████████████████████████████████████████▎                                                             | 838/2088 [1:46:14<2:27:53,  7.10s/it]
+2025-10-06 16:54:46 - ERROR - stderr - 
+2025-10-06 16:54:46 - ERROR - stderr - 
+2025-10-06 16:54:46 - INFO - stdout - {'loss': 1.2071, 'learning_rate': 0.0006800888624023553, 'epoch': 2.41}
+2025-10-06 16:54:46 - ERROR - stderr -  40%|█████████████████████████████████████████▎                                                             | 838/2088 [1:46:14<2:27:53,  7.10s/it]
+2025-10-06 16:54:53 - ERROR - stderr -  40%|█████████████████████████████████████████▍                                                             | 839/2088 [1:46:21<2:27:11,  7.07s/it]
+2025-10-06 16:54:53 - ERROR - stderr - 
+2025-10-06 16:54:53 - ERROR - stderr - 
+2025-10-06 16:54:53 - INFO - stdout - {'loss': 1.1213, 'learning_rate': 0.0006793650063162086, 'epoch': 2.41}
+2025-10-06 16:54:53 - ERROR - stderr -  40%|█████████████████████████████████████████▍                                                             | 839/2088 [1:46:21<2:27:11,  7.07s/it]
+2025-10-06 16:55:00 - ERROR - stderr -  40%|█████████████████████████████████████████▍                                                             | 840/2088 [1:46:28<2:26:37,  7.05s/it]
+2025-10-06 16:55:00 - ERROR - stderr - 
+2025-10-06 16:55:00 - ERROR - stderr - 
+2025-10-06 16:55:00 - INFO - stdout - {'loss': 1.171, 'learning_rate': 0.000678640718524822, 'epoch': 2.41}
+2025-10-06 16:55:00 - ERROR - stderr -  40%|█████████████████████████████████████████▍                                                             | 840/2088 [1:46:28<2:26:37,  7.05s/it]
+2025-10-06 16:55:07 - ERROR - stderr -  40%|█████████████████████████████████████████▍                                                             | 841/2088 [1:46:35<2:25:41,  7.01s/it]
+2025-10-06 16:55:07 - ERROR - stderr - 
+2025-10-06 16:55:07 - ERROR - stderr - 
+2025-10-06 16:55:07 - INFO - stdout - {'loss': 1.2456, 'learning_rate': 0.0006779160007714494, 'epoch': 2.42}
+2025-10-06 16:55:07 - ERROR - stderr -  40%|█████████████████████████████████████████▍                                                             | 841/2088 [1:46:35<2:25:41,  7.01s/it]
+2025-10-06 16:55:14 - ERROR - stderr -  40%|█████████████████████████████████████████▌                                                             | 842/2088 [1:46:43<2:27:52,  7.12s/it]
+2025-10-06 16:55:14 - ERROR - stderr - 
+2025-10-06 16:55:14 - ERROR - stderr - 
+2025-10-06 16:55:14 - INFO - stdout - {'loss': 1.1979, 'learning_rate': 0.0006771908548003803, 'epoch': 2.42}
+2025-10-06 16:55:14 - ERROR - stderr -  40%|█████████████████████████████████████████▌                                                             | 842/2088 [1:46:43<2:27:52,  7.12s/it]
+2025-10-06 16:55:22 - ERROR - stderr -  40%|█████████████████████████████████████████▌                                                             | 843/2088 [1:46:50<2:29:18,  7.20s/it]
+2025-10-06 16:55:22 - ERROR - stderr - 
+2025-10-06 16:55:22 - ERROR - stderr - 
+2025-10-06 16:55:22 - INFO - stdout - {'loss': 1.2318, 'learning_rate': 0.0006764652823569344, 'epoch': 2.42}
+2025-10-06 16:55:22 - ERROR - stderr -  40%|█████████████████████████████████████████▌                                                             | 843/2088 [1:46:50<2:29:18,  7.20s/it]
+2025-10-06 16:55:29 - ERROR - stderr -  40%|█████████████████████████████████████████▋                                                             | 844/2088 [1:46:57<2:30:35,  7.26s/it]
+2025-10-06 16:55:29 - ERROR - stderr - 
+2025-10-06 16:55:29 - ERROR - stderr - 
+2025-10-06 16:55:29 - INFO - stdout - {'loss': 1.2371, 'learning_rate': 0.0006757392851874584, 'epoch': 2.43}
+2025-10-06 16:55:29 - ERROR - stderr -  40%|█████████████████████████████████████████▋                                                             | 844/2088 [1:46:57<2:30:35,  7.26s/it]
+2025-10-06 16:55:36 - ERROR - stderr -  40%|█████████████████████████████████████████▋                                                             | 845/2088 [1:47:04<2:27:43,  7.13s/it]
+2025-10-06 16:55:36 - ERROR - stderr - 
+2025-10-06 16:55:36 - ERROR - stderr - 
+2025-10-06 16:55:36 - INFO - stdout - {'loss': 1.2724, 'learning_rate': 0.0006750128650393206, 'epoch': 2.43}
+2025-10-06 16:55:36 - ERROR - stderr -  40%|█████████████████████████████████████████▋                                                             | 845/2088 [1:47:04<2:27:43,  7.13s/it]
+2025-10-06 16:55:43 - ERROR - stderr -  41%|█████████████████████████████████████████▋                                                             | 846/2088 [1:47:11<2:26:59,  7.10s/it]
+2025-10-06 16:55:43 - ERROR - stderr - 
+2025-10-06 16:55:43 - ERROR - stderr - 
+2025-10-06 16:55:43 - INFO - stdout - {'loss': 1.3096, 'learning_rate': 0.0006742860236609076, 'epoch': 2.43}
+2025-10-06 16:55:43 - ERROR - stderr -  41%|█████████████████████████████████████████▋                                                             | 846/2088 [1:47:11<2:26:59,  7.10s/it]
+2025-10-06 16:55:50 - ERROR - stderr -  41%|█████████████████████████████████████████▊                                                             | 847/2088 [1:47:18<2:25:19,  7.03s/it]
+2025-10-06 16:55:50 - ERROR - stderr - 
+2025-10-06 16:55:50 - ERROR - stderr - 
+2025-10-06 16:55:50 - INFO - stdout - {'loss': 1.2087, 'learning_rate': 0.0006735587628016203, 'epoch': 2.43}
+2025-10-06 16:55:50 - ERROR - stderr -  41%|█████████████████████████████████████████▊                                                             | 847/2088 [1:47:18<2:25:19,  7.03s/it]
+2025-10-06 16:55:57 - ERROR - stderr -  41%|█████████████████████████████████████████▊                                                             | 848/2088 [1:47:25<2:25:52,  7.06s/it]
+2025-10-06 16:55:57 - ERROR - stderr - 
+2025-10-06 16:55:57 - ERROR - stderr - 
+2025-10-06 16:55:57 - INFO - stdout - {'loss': 1.188, 'learning_rate': 0.0006728310842118683, 'epoch': 2.44}
+2025-10-06 16:55:57 - ERROR - stderr -  41%|█████████████████████████████████████████▊                                                             | 848/2088 [1:47:25<2:25:52,  7.06s/it]
+2025-10-06 16:56:03 - ERROR - stderr -  41%|█████████████████████████████████████████▉                                                             | 849/2088 [1:47:32<2:23:13,  6.94s/it]
+2025-10-06 16:56:03 - ERROR - stderr - 
+2025-10-06 16:56:03 - ERROR - stderr - 
+2025-10-06 16:56:03 - INFO - stdout - {'loss': 1.1758, 'learning_rate': 0.0006721029896430677, 'epoch': 2.44}
+2025-10-06 16:56:03 - ERROR - stderr -  41%|█████████████████████████████████████████▉                                                             | 849/2088 [1:47:32<2:23:13,  6.94s/it]
+2025-10-06 16:56:11 - ERROR - stderr -  41%|█████████████████████████████████████████▉                                                             | 850/2088 [1:47:39<2:24:42,  7.01s/it]
+2025-10-06 16:56:11 - ERROR - stderr - 
+2025-10-06 16:56:11 - ERROR - stderr - 
+2025-10-06 16:56:11 - INFO - stdout - {'loss': 1.1643, 'learning_rate': 0.0006713744808476349, 'epoch': 2.44}
+2025-10-06 16:56:11 - ERROR - stderr -  41%|█████████████████████████████████████████▉                                                             | 850/2088 [1:47:39<2:24:42,  7.01s/it]
+2025-10-06 16:56:18 - ERROR - stderr -  41%|█████████████████████████████████████████▉                                                             | 851/2088 [1:47:46<2:24:11,  6.99s/it]
+2025-10-06 16:56:18 - ERROR - stderr - 
+2025-10-06 16:56:18 - ERROR - stderr - 
+2025-10-06 16:56:18 - INFO - stdout - {'loss': 1.1233, 'learning_rate': 0.0006706455595789836, 'epoch': 2.45}
+2025-10-06 16:56:18 - ERROR - stderr -  41%|█████████████████████████████████████████▉                                                             | 851/2088 [1:47:46<2:24:11,  6.99s/it]
+2025-10-06 16:56:25 - ERROR - stderr -  41%|██████████████████████████████████████████                                                             | 852/2088 [1:47:53<2:26:23,  7.11s/it]
+2025-10-06 16:56:25 - ERROR - stderr - 
+2025-10-06 16:56:25 - ERROR - stderr - 
+2025-10-06 16:56:25 - INFO - stdout - {'loss': 1.2158, 'learning_rate': 0.0006699162275915207, 'epoch': 2.45}
+2025-10-06 16:56:25 - ERROR - stderr -  41%|██████████████████████████████████████████                                                             | 852/2088 [1:47:53<2:26:23,  7.11s/it]
+2025-10-06 16:56:32 - ERROR - stderr -  41%|██████████████████████████████████████████                                                             | 853/2088 [1:48:01<2:27:49,  7.18s/it]
+2025-10-06 16:56:32 - ERROR - stderr - 
+2025-10-06 16:56:32 - ERROR - stderr - 
+2025-10-06 16:56:32 - INFO - stdout - {'loss': 1.147, 'learning_rate': 0.0006691864866406407, 'epoch': 2.45}
+2025-10-06 16:56:32 - ERROR - stderr -  41%|██████████████████████████████████████████                                                             | 853/2088 [1:48:01<2:27:49,  7.18s/it]
+2025-10-06 16:56:39 - ERROR - stderr -  41%|██████████████████████████████████████████▏                                                            | 854/2088 [1:48:08<2:26:23,  7.12s/it]
+2025-10-06 16:56:39 - ERROR - stderr - 
+2025-10-06 16:56:39 - ERROR - stderr - 
+2025-10-06 16:56:39 - INFO - stdout - {'loss': 1.1856, 'learning_rate': 0.0006684563384827232, 'epoch': 2.45}
+2025-10-06 16:56:39 - ERROR - stderr -  41%|██████████████████████████████████████████▏                                                            | 854/2088 [1:48:08<2:26:23,  7.12s/it]
+2025-10-06 16:56:47 - ERROR - stderr -  41%|██████████████████████████████████████████▏                                                            | 855/2088 [1:48:15<2:29:04,  7.25s/it]
+2025-10-06 16:56:47 - ERROR - stderr - 
+2025-10-06 16:56:47 - ERROR - stderr - 
+2025-10-06 16:56:47 - INFO - stdout - {'loss': 1.2566, 'learning_rate': 0.0006677257848751275, 'epoch': 2.46}
+2025-10-06 16:56:47 - ERROR - stderr -  41%|██████████████████████████████████████████▏                                                            | 855/2088 [1:48:15<2:29:04,  7.25s/it]
+2025-10-06 16:56:54 - ERROR - stderr -  41%|██████████████████████████████████████████▏                                                            | 856/2088 [1:48:22<2:25:55,  7.11s/it]
+2025-10-06 16:56:54 - ERROR - stderr - 
+2025-10-06 16:56:54 - ERROR - stderr - 
+2025-10-06 16:56:54 - INFO - stdout - {'loss': 1.1634, 'learning_rate': 0.0006669948275761892, 'epoch': 2.46}
+2025-10-06 16:56:54 - ERROR - stderr -  41%|██████████████████████████████████████████▏                                                            | 856/2088 [1:48:22<2:25:55,  7.11s/it]
+2025-10-06 16:57:01 - ERROR - stderr -  41%|██████████████████████████████████████████▎                                                            | 857/2088 [1:48:29<2:24:33,  7.05s/it]
+2025-10-06 16:57:01 - ERROR - stderr - 
+2025-10-06 16:57:01 - ERROR - stderr - 
+2025-10-06 16:57:01 - INFO - stdout - {'loss': 1.1817, 'learning_rate': 0.0006662634683452149, 'epoch': 2.46}
+2025-10-06 16:57:01 - ERROR - stderr -  41%|██████████████████████████████████████████▎                                                            | 857/2088 [1:48:29<2:24:33,  7.05s/it]
+2025-10-06 16:57:07 - ERROR - stderr -  41%|██████████████████████████████████████████▎                                                            | 858/2088 [1:48:36<2:23:14,  6.99s/it]
+2025-10-06 16:57:07 - ERROR - stderr - 
+2025-10-06 16:57:07 - ERROR - stderr - 
+2025-10-06 16:57:07 - INFO - stdout - {'loss': 1.1942, 'learning_rate': 0.0006655317089424791, 'epoch': 2.47}
+2025-10-06 16:57:07 - ERROR - stderr -  41%|██████████████████████████████████████████▎                                                            | 858/2088 [1:48:36<2:23:14,  6.99s/it]
+2025-10-06 16:57:14 - ERROR - stderr -  41%|██████████████████████████████████████████▎                                                            | 859/2088 [1:48:43<2:23:40,  7.01s/it]
+2025-10-06 16:57:14 - ERROR - stderr - 
+2025-10-06 16:57:14 - ERROR - stderr - 
+2025-10-06 16:57:14 - INFO - stdout - {'loss': 1.2102, 'learning_rate': 0.0006647995511292191, 'epoch': 2.47}
+2025-10-06 16:57:14 - ERROR - stderr -  41%|██████████████████████████████████████████▎                                                            | 859/2088 [1:48:43<2:23:40,  7.01s/it]
+2025-10-06 16:57:22 - ERROR - stderr -  41%|██████████████████████████████████████████▍                                                            | 860/2088 [1:48:50<2:23:52,  7.03s/it]
+2025-10-06 16:57:22 - ERROR - stderr - 
+2025-10-06 16:57:22 - ERROR - stderr - 
+2025-10-06 16:57:22 - INFO - stdout - {'loss': 1.2346, 'learning_rate': 0.0006640669966676316, 'epoch': 2.47}
+2025-10-06 16:57:22 - ERROR - stderr -  41%|██████████████████████████████████████████▍                                                            | 860/2088 [1:48:50<2:23:52,  7.03s/it]
+2025-10-06 16:57:29 - ERROR - stderr -  41%|██████████████████████████████████████████▍                                                            | 861/2088 [1:48:57<2:24:23,  7.06s/it]
+2025-10-06 16:57:29 - ERROR - stderr - 
+2025-10-06 16:57:29 - ERROR - stderr - 
+2025-10-06 16:57:29 - INFO - stdout - {'loss': 1.2372, 'learning_rate': 0.0006633340473208672, 'epoch': 2.47}
+2025-10-06 16:57:29 - ERROR - stderr -  41%|██████████████████████████████████████████▍                                                            | 861/2088 [1:48:57<2:24:23,  7.06s/it]
+2025-10-06 16:57:36 - ERROR - stderr -  41%|██████████████████████████████████████████▌                                                            | 862/2088 [1:49:04<2:24:36,  7.08s/it]
+2025-10-06 16:57:36 - ERROR - stderr - 
+2025-10-06 16:57:36 - ERROR - stderr - 
+2025-10-06 16:57:36 - INFO - stdout - {'loss': 1.2162, 'learning_rate': 0.0006626007048530276, 'epoch': 2.48}
+2025-10-06 16:57:36 - ERROR - stderr -  41%|██████████████████████████████████████████▌                                                            | 862/2088 [1:49:04<2:24:36,  7.08s/it]
+2025-10-06 16:57:43 - ERROR - stderr -  41%|██████████████████████████████████████████▌                                                            | 863/2088 [1:49:11<2:24:01,  7.05s/it]
+2025-10-06 16:57:43 - ERROR - stderr - 
+2025-10-06 16:57:43 - ERROR - stderr - 
+2025-10-06 16:57:43 - INFO - stdout - {'loss': 1.215, 'learning_rate': 0.0006618669710291606, 'epoch': 2.48}
+2025-10-06 16:57:43 - ERROR - stderr -  41%|██████████████████████████████████████████▌                                                            | 863/2088 [1:49:11<2:24:01,  7.05s/it]
+2025-10-06 16:57:50 - ERROR - stderr -  41%|██████████████████████████████████████████▌                                                            | 864/2088 [1:49:18<2:23:06,  7.02s/it]
+2025-10-06 16:57:50 - ERROR - stderr - 
+2025-10-06 16:57:50 - ERROR - stderr - 
+2025-10-06 16:57:50 - INFO - stdout - {'loss': 1.1908, 'learning_rate': 0.0006611328476152556, 'epoch': 2.48}
+2025-10-06 16:57:50 - ERROR - stderr -  41%|██████████████████████████████████████████▌                                                            | 864/2088 [1:49:18<2:23:06,  7.02s/it]
+2025-10-06 16:57:57 - ERROR - stderr -  41%|██████████████████████████████████████████▋                                                            | 865/2088 [1:49:25<2:23:28,  7.04s/it]
+2025-10-06 16:57:57 - ERROR - stderr - 
+2025-10-06 16:57:57 - ERROR - stderr - 
+2025-10-06 16:57:57 - INFO - stdout - {'loss': 1.2289, 'learning_rate': 0.00066039833637824, 'epoch': 2.49}
+2025-10-06 16:57:57 - ERROR - stderr -  41%|██████████████████████████████████████████▋                                                            | 865/2088 [1:49:25<2:23:28,  7.04s/it]
+2025-10-06 16:58:04 - ERROR - stderr -  41%|██████████████████████████████████████████▋                                                            | 866/2088 [1:49:33<2:24:37,  7.10s/it]
+2025-10-06 16:58:04 - ERROR - stderr - 
+2025-10-06 16:58:04 - ERROR - stderr - 
+2025-10-06 16:58:04 - INFO - stdout - {'loss': 1.1446, 'learning_rate': 0.0006596634390859745, 'epoch': 2.49}
+2025-10-06 16:58:04 - ERROR - stderr -  41%|██████████████████████████████████████████▋                                                            | 866/2088 [1:49:33<2:24:37,  7.10s/it]
+2025-10-06 16:58:11 - ERROR - stderr -  42%|██████████████████████████████████████████▊                                                            | 867/2088 [1:49:39<2:22:41,  7.01s/it]
+2025-10-06 16:58:11 - ERROR - stderr - 
+2025-10-06 16:58:11 - ERROR - stderr - 
+2025-10-06 16:58:11 - INFO - stdout - {'loss': 1.1242, 'learning_rate': 0.000658928157507249, 'epoch': 2.49}
+2025-10-06 16:58:11 - ERROR - stderr -  42%|██████████████████████████████████████████▊                                                            | 867/2088 [1:49:39<2:22:41,  7.01s/it]
+2025-10-06 16:58:18 - ERROR - stderr -  42%|██████████████████████████████████████████▊                                                            | 868/2088 [1:49:46<2:22:32,  7.01s/it]
+2025-10-06 16:58:18 - ERROR - stderr - 
+2025-10-06 16:58:18 - ERROR - stderr - 
+2025-10-06 16:58:18 - INFO - stdout - {'loss': 1.1447, 'learning_rate': 0.0006581924934117783, 'epoch': 2.49}
+2025-10-06 16:58:18 - ERROR - stderr -  42%|██████████████████████████████████████████▊                                                            | 868/2088 [1:49:46<2:22:32,  7.01s/it]
+2025-10-06 16:58:25 - ERROR - stderr -  42%|██████████████████████████████████████████▊                                                            | 869/2088 [1:49:53<2:22:03,  6.99s/it]
+2025-10-06 16:58:25 - ERROR - stderr - 
+2025-10-06 16:58:25 - ERROR - stderr - 
+2025-10-06 16:58:25 - INFO - stdout - {'loss': 1.2178, 'learning_rate': 0.000657456448570198, 'epoch': 2.5}
+2025-10-06 16:58:25 - ERROR - stderr -  42%|██████████████████████████████████████████▊                                                            | 869/2088 [1:49:53<2:22:03,  6.99s/it]
+2025-10-06 16:58:32 - ERROR - stderr -  42%|██████████████████████████████████████████▉                                                            | 870/2088 [1:50:00<2:22:53,  7.04s/it]
+2025-10-06 16:58:32 - ERROR - stderr - 
+2025-10-06 16:58:32 - ERROR - stderr - 
+2025-10-06 16:58:32 - INFO - stdout - {'loss': 1.29, 'learning_rate': 0.0006567200247540598, 'epoch': 2.5}
+2025-10-06 16:58:32 - ERROR - stderr -  42%|██████████████████████████████████████████▉                                                            | 870/2088 [1:50:00<2:22:53,  7.04s/it]
+2025-10-06 16:58:39 - ERROR - stderr -  42%|██████████████████████████████████████████▉                                                            | 871/2088 [1:50:07<2:20:48,  6.94s/it]
+2025-10-06 16:58:39 - ERROR - stderr - 
+2025-10-06 16:58:39 - ERROR - stderr - 
+2025-10-06 16:58:39 - INFO - stdout - {'loss': 1.2205, 'learning_rate': 0.0006559832237358279, 'epoch': 2.5}
+2025-10-06 16:58:39 - ERROR - stderr -  42%|██████████████████████████████████████████▉                                                            | 871/2088 [1:50:07<2:20:48,  6.94s/it]
+2025-10-06 16:58:46 - ERROR - stderr -  42%|███████████████████████████████████████████                                                            | 872/2088 [1:50:15<2:23:53,  7.10s/it]
+2025-10-06 16:58:46 - ERROR - stderr - 
+2025-10-06 16:58:46 - ERROR - stderr - 
+2025-10-06 16:58:46 - INFO - stdout - {'loss': 1.1383, 'learning_rate': 0.0006552460472888739, 'epoch': 2.51}
+2025-10-06 16:58:46 - ERROR - stderr -  42%|███████████████████████████████████████████                                                            | 872/2088 [1:50:15<2:23:53,  7.10s/it]
+2025-10-06 16:58:53 - ERROR - stderr -  42%|███████████████████████████████████████████                                                            | 873/2088 [1:50:22<2:23:41,  7.10s/it]
+2025-10-06 16:58:53 - ERROR - stderr - 
+2025-10-06 16:58:53 - ERROR - stderr - 
+2025-10-06 16:58:53 - INFO - stdout - {'loss': 1.1509, 'learning_rate': 0.0006545084971874737, 'epoch': 2.51}
+2025-10-06 16:58:53 - ERROR - stderr -  42%|███████████████████████████████████████████                                                            | 873/2088 [1:50:22<2:23:41,  7.10s/it]
+2025-10-06 16:59:00 - ERROR - stderr -  42%|███████████████████████████████████████████                                                            | 874/2088 [1:50:29<2:23:05,  7.07s/it]
+2025-10-06 16:59:00 - ERROR - stderr - 
+2025-10-06 16:59:00 - ERROR - stderr - 
+2025-10-06 16:59:00 - INFO - stdout - {'loss': 1.1813, 'learning_rate': 0.0006537705752068019, 'epoch': 2.51}
+2025-10-06 16:59:00 - ERROR - stderr -  42%|███████████████████████████████████████████                                                            | 874/2088 [1:50:29<2:23:05,  7.07s/it]
+2025-10-06 16:59:08 - ERROR - stderr -  42%|███████████████████████████████████████████▏                                                           | 875/2088 [1:50:36<2:25:00,  7.17s/it]
+2025-10-06 16:59:08 - ERROR - stderr - 
+2025-10-06 16:59:08 - ERROR - stderr - 
+2025-10-06 16:59:08 - INFO - stdout - {'loss': 1.2158, 'learning_rate': 0.0006530322831229284, 'epoch': 2.51}
+2025-10-06 16:59:08 - ERROR - stderr -  42%|███████████████████████████████████████████▏                                                           | 875/2088 [1:50:36<2:25:00,  7.17s/it]
+2025-10-06 16:59:15 - ERROR - stderr -  42%|███████████████████████████████████████████▏                                                           | 876/2088 [1:50:43<2:24:52,  7.17s/it]
+2025-10-06 16:59:15 - ERROR - stderr - 
+2025-10-06 16:59:15 - ERROR - stderr - 
+2025-10-06 16:59:15 - INFO - stdout - {'loss': 1.2429, 'learning_rate': 0.0006522936227128139, 'epoch': 2.52}
+2025-10-06 16:59:15 - ERROR - stderr -  42%|███████████████████████████████████████████▏                                                           | 876/2088 [1:50:43<2:24:52,  7.17s/it]
+2025-10-06 16:59:22 - ERROR - stderr -  42%|███████████████████████████████████████████▎                                                           | 877/2088 [1:50:50<2:23:44,  7.12s/it]
+2025-10-06 16:59:22 - ERROR - stderr - 
+2025-10-06 16:59:22 - ERROR - stderr - 
+2025-10-06 16:59:22 - INFO - stdout - {'loss': 1.2227, 'learning_rate': 0.0006515545957543056, 'epoch': 2.52}
+2025-10-06 16:59:22 - ERROR - stderr -  42%|███████████████████████████████████████████▎                                                           | 877/2088 [1:50:50<2:23:44,  7.12s/it]
+2025-10-06 16:59:29 - ERROR - stderr -  42%|███████████████████████████████████████████▎                                                           | 878/2088 [1:50:58<2:25:03,  7.19s/it]
+2025-10-06 16:59:29 - ERROR - stderr - 
+2025-10-06 16:59:29 - ERROR - stderr - 
+2025-10-06 16:59:29 - INFO - stdout - {'loss': 1.1857, 'learning_rate': 0.0006508152040261328, 'epoch': 2.52}
+2025-10-06 16:59:29 - ERROR - stderr -  42%|███████████████████████████████████████████▎                                                           | 878/2088 [1:50:58<2:25:03,  7.19s/it]
+2025-10-06 16:59:36 - ERROR - stderr -  42%|███████████████████████████████████████████▎                                                           | 879/2088 [1:51:05<2:23:08,  7.10s/it]
+2025-10-06 16:59:36 - ERROR - stderr - 
+2025-10-06 16:59:36 - ERROR - stderr - 
+2025-10-06 16:59:36 - INFO - stdout - {'loss': 1.1798, 'learning_rate': 0.0006500754493079029, 'epoch': 2.53}
+2025-10-06 16:59:36 - ERROR - stderr -  42%|███████████████████████████████████████████▎                                                           | 879/2088 [1:51:05<2:23:08,  7.10s/it]
+2025-10-06 16:59:43 - ERROR - stderr -  42%|███████████████████████████████████████████▍                                                           | 880/2088 [1:51:11<2:21:20,  7.02s/it]
+2025-10-06 16:59:43 - ERROR - stderr - 
+2025-10-06 16:59:43 - ERROR - stderr - 
+2025-10-06 16:59:43 - INFO - stdout - {'loss': 1.2326, 'learning_rate': 0.0006493353333800969, 'epoch': 2.53}
+2025-10-06 16:59:43 - ERROR - stderr -  42%|███████████████████████████████████████████▍                                                           | 880/2088 [1:51:11<2:21:20,  7.02s/it]
+2025-10-06 16:59:50 - ERROR - stderr -  42%|███████████████████████████████████████████▍                                                           | 881/2088 [1:51:18<2:20:25,  6.98s/it]
+2025-10-06 16:59:50 - ERROR - stderr - 
+2025-10-06 16:59:50 - ERROR - stderr - 
+2025-10-06 16:59:50 - INFO - stdout - {'loss': 1.2326, 'learning_rate': 0.0006485948580240653, 'epoch': 2.53}
+2025-10-06 16:59:50 - ERROR - stderr -  42%|███████████████████████████████████████████▍                                                           | 881/2088 [1:51:18<2:20:25,  6.98s/it]
+2025-10-06 16:59:57 - ERROR - stderr -  42%|███████████████████████████████████████████▌                                                           | 882/2088 [1:51:25<2:21:31,  7.04s/it]
+2025-10-06 16:59:57 - ERROR - stderr - 
+2025-10-06 16:59:57 - ERROR - stderr - 
+2025-10-06 16:59:57 - INFO - stdout - {'loss': 1.1962, 'learning_rate': 0.0006478540250220234, 'epoch': 2.53}
+2025-10-06 16:59:57 - ERROR - stderr -  42%|███████████████████████████████████████████▌                                                           | 882/2088 [1:51:25<2:21:31,  7.04s/it]
+2025-10-06 17:00:04 - ERROR - stderr -  42%|███████████████████████████████████████████▌                                                           | 883/2088 [1:51:32<2:20:47,  7.01s/it]
+2025-10-06 17:00:04 - ERROR - stderr - 
+2025-10-06 17:00:04 - ERROR - stderr - 
+2025-10-06 17:00:04 - INFO - stdout - {'loss': 1.2355, 'learning_rate': 0.0006471128361570475, 'epoch': 2.54}
+2025-10-06 17:00:04 - ERROR - stderr -  42%|███████████████████████████████████████████▌                                                           | 883/2088 [1:51:32<2:20:47,  7.01s/it]
+2025-10-06 17:00:11 - ERROR - stderr -  42%|███████████████████████████████████████████▌                                                           | 884/2088 [1:51:39<2:20:58,  7.03s/it]
+2025-10-06 17:00:11 - ERROR - stderr - 
+2025-10-06 17:00:11 - ERROR - stderr - 
+2025-10-06 17:00:11 - INFO - stdout - {'loss': 1.1608, 'learning_rate': 0.0006463712932130708, 'epoch': 2.54}
+2025-10-06 17:00:11 - ERROR - stderr -  42%|███████████████████████████████████████████▌                                                           | 884/2088 [1:51:39<2:20:58,  7.03s/it]
+2025-10-06 17:00:18 - ERROR - stderr -  42%|███████████████████████████████████████████▋                                                           | 885/2088 [1:51:47<2:21:44,  7.07s/it]
+2025-10-06 17:00:18 - ERROR - stderr - 
+2025-10-06 17:00:18 - ERROR - stderr - 
+2025-10-06 17:00:18 - INFO - stdout - {'loss': 1.1631, 'learning_rate': 0.0006456293979748778, 'epoch': 2.54}
+2025-10-06 17:00:18 - ERROR - stderr -  42%|███████████████████████████████████████████▋                                                           | 885/2088 [1:51:47<2:21:44,  7.07s/it]
+2025-10-06 17:00:25 - ERROR - stderr -  42%|███████████████████████████████████████████▋                                                           | 886/2088 [1:51:54<2:22:22,  7.11s/it]
+2025-10-06 17:00:25 - ERROR - stderr - 
+2025-10-06 17:00:25 - ERROR - stderr - 
+2025-10-06 17:00:25 - INFO - stdout - {'loss': 1.2149, 'learning_rate': 0.0006448871522281016, 'epoch': 2.55}
+2025-10-06 17:00:25 - ERROR - stderr -  42%|███████████████████████████████████████████▋                                                           | 886/2088 [1:51:54<2:22:22,  7.11s/it]
+2025-10-06 17:00:33 - ERROR - stderr -  42%|███████████████████████████████████████████▊                                                           | 887/2088 [1:52:01<2:23:12,  7.15s/it]
+2025-10-06 17:00:33 - ERROR - stderr - 
+2025-10-06 17:00:33 - ERROR - stderr - 
+2025-10-06 17:00:33 - INFO - stdout - {'loss': 1.1043, 'learning_rate': 0.0006441445577592186, 'epoch': 2.55}
+2025-10-06 17:00:33 - ERROR - stderr -  42%|███████████████████████████████████████████▊                                                           | 887/2088 [1:52:01<2:23:12,  7.15s/it]
+2025-10-06 17:00:40 - ERROR - stderr -  43%|███████████████████████████████████████████▊                                                           | 888/2088 [1:52:08<2:22:25,  7.12s/it]
+2025-10-06 17:00:40 - ERROR - stderr - 
+2025-10-06 17:00:40 - ERROR - stderr - 
+2025-10-06 17:00:40 - INFO - stdout - {'loss': 1.2877, 'learning_rate': 0.0006434016163555452, 'epoch': 2.55}
+2025-10-06 17:00:40 - ERROR - stderr -  43%|███████████████████████████████████████████▊                                                           | 888/2088 [1:52:08<2:22:25,  7.12s/it]
+2025-10-06 17:00:47 - ERROR - stderr -  43%|███████████████████████████████████████████▊                                                           | 889/2088 [1:52:15<2:21:52,  7.10s/it]
+2025-10-06 17:00:47 - ERROR - stderr - 
+2025-10-06 17:00:47 - ERROR - stderr - 
+2025-10-06 17:00:47 - INFO - stdout - {'loss': 1.212, 'learning_rate': 0.0006426583298052318, 'epoch': 2.55}
+2025-10-06 17:00:47 - ERROR - stderr -  43%|███████████████████████████████████████████▊                                                           | 889/2088 [1:52:15<2:21:52,  7.10s/it]
+2025-10-06 17:00:54 - ERROR - stderr -  43%|███████████████████████████████████████████▉                                                           | 890/2088 [1:52:23<2:23:34,  7.19s/it]
+2025-10-06 17:00:54 - ERROR - stderr - 
+2025-10-06 17:00:54 - ERROR - stderr - 
+2025-10-06 17:00:54 - INFO - stdout - {'loss': 1.087, 'learning_rate': 0.0006419146998972601, 'epoch': 2.56}
+2025-10-06 17:00:54 - ERROR - stderr -  43%|███████████████████████████████████████████▉                                                           | 890/2088 [1:52:23<2:23:34,  7.19s/it]
+2025-10-06 17:01:01 - ERROR - stderr -  43%|███████████████████████████████████████████▉                                                           | 891/2088 [1:52:30<2:22:08,  7.12s/it]
+2025-10-06 17:01:01 - ERROR - stderr - 
+2025-10-06 17:01:01 - ERROR - stderr - 
+2025-10-06 17:01:01 - INFO - stdout - {'loss': 1.1614, 'learning_rate': 0.0006411707284214383, 'epoch': 2.56}
+2025-10-06 17:01:01 - ERROR - stderr -  43%|███████████████████████████████████████████▉                                                           | 891/2088 [1:52:30<2:22:08,  7.12s/it]
+2025-10-06 17:01:08 - ERROR - stderr -  43%|████████████████████████████████████████████                                                           | 892/2088 [1:52:36<2:20:36,  7.05s/it]
+2025-10-06 17:01:08 - ERROR - stderr - 
+2025-10-06 17:01:08 - ERROR - stderr - 
+2025-10-06 17:01:08 - INFO - stdout - {'loss': 1.2826, 'learning_rate': 0.0006404264171683964, 'epoch': 2.56}
+2025-10-06 17:01:08 - ERROR - stderr -  43%|████████████████████████████████████���███████                                                           | 892/2088 [1:52:36<2:20:36,  7.05s/it]
+2025-10-06 17:01:15 - ERROR - stderr -  43%|████████████████████████████████████████████                                                           | 893/2088 [1:52:44<2:21:23,  7.10s/it]
+2025-10-06 17:01:15 - ERROR - stderr - 
+2025-10-06 17:01:15 - ERROR - stderr - 
+2025-10-06 17:01:15 - INFO - stdout - {'loss': 1.1767, 'learning_rate': 0.0006396817679295822, 'epoch': 2.57}
+2025-10-06 17:01:15 - ERROR - stderr -  43%|████████████████████████████████████████████                                                           | 893/2088 [1:52:44<2:21:23,  7.10s/it]
+2025-10-06 17:01:22 - ERROR - stderr -  43%|████████████████████████████████████████████                                                           | 894/2088 [1:52:51<2:22:18,  7.15s/it]
+2025-10-06 17:01:22 - ERROR - stderr - 
+2025-10-06 17:01:22 - ERROR - stderr - 
+2025-10-06 17:01:22 - INFO - stdout - {'loss': 1.1043, 'learning_rate': 0.0006389367824972574, 'epoch': 2.57}
+2025-10-06 17:01:22 - ERROR - stderr -  43%|████████████████████████████████████████████                                                           | 894/2088 [1:52:51<2:22:18,  7.15s/it]
+2025-10-06 17:01:30 - ERROR - stderr -  43%|████████████████████████████████████████████▏                                                          | 895/2088 [1:52:58<2:22:33,  7.17s/it]
+2025-10-06 17:01:30 - ERROR - stderr - 
+2025-10-06 17:01:30 - ERROR - stderr - 
+2025-10-06 17:01:30 - INFO - stdout - {'loss': 1.1907, 'learning_rate': 0.0006381914626644924, 'epoch': 2.57}
+2025-10-06 17:01:30 - ERROR - stderr -  43%|████████████████████████████████████████████▏                                                          | 895/2088 [1:52:58<2:22:33,  7.17s/it]
+2025-10-06 17:01:37 - ERROR - stderr -  43%|████████████████████████████████████████████▏                                                          | 896/2088 [1:53:05<2:22:04,  7.15s/it]
+2025-10-06 17:01:37 - ERROR - stderr - 
+2025-10-06 17:01:37 - ERROR - stderr - 
+2025-10-06 17:01:37 - INFO - stdout - {'loss': 1.2641, 'learning_rate': 0.0006374458102251628, 'epoch': 2.57}
+2025-10-06 17:01:37 - ERROR - stderr -  43%|████████████████████████████████████████████▏                                                          | 896/2088 [1:53:05<2:22:04,  7.15s/it]
+2025-10-06 17:01:44 - ERROR - stderr -  43%|████████████████████████████████████████████▏                                                          | 897/2088 [1:53:12<2:19:43,  7.04s/it]
+2025-10-06 17:01:44 - ERROR - stderr - 
+2025-10-06 17:01:44 - ERROR - stderr - 
+2025-10-06 17:01:44 - INFO - stdout - {'loss': 1.214, 'learning_rate': 0.0006366998269739441, 'epoch': 2.58}
+2025-10-06 17:01:44 - ERROR - stderr -  43%|████████████████████████████████████████████▏                                                          | 897/2088 [1:53:12<2:19:43,  7.04s/it]
+2025-10-06 17:01:50 - ERROR - stderr -  43%|████████████████████████████████████████████▎                                                          | 898/2088 [1:53:19<2:18:22,  6.98s/it]
+2025-10-06 17:01:50 - ERROR - stderr - 
+2025-10-06 17:01:50 - ERROR - stderr - 
+2025-10-06 17:01:50 - INFO - stdout - {'loss': 1.1894, 'learning_rate': 0.0006359535147063091, 'epoch': 2.58}
+2025-10-06 17:01:50 - ERROR - stderr -  43%|████████████████████████████████████████████▎                                                          | 898/2088 [1:53:19<2:18:22,  6.98s/it]
+2025-10-06 17:01:57 - ERROR - stderr -  43%|████████████████████████████████████████████▎                                                          | 899/2088 [1:53:26<2:16:29,  6.89s/it]
+2025-10-06 17:01:57 - ERROR - stderr - 
+2025-10-06 17:01:57 - ERROR - stderr - 
+2025-10-06 17:01:57 - INFO - stdout - {'loss': 1.1588, 'learning_rate': 0.0006352068752185214, 'epoch': 2.58}
+2025-10-06 17:01:57 - ERROR - stderr -  43%|████████████████████████████████████████████▎                                                          | 899/2088 [1:53:26<2:16:29,  6.89s/it]
+2025-10-06 17:02:04 - ERROR - stderr -  43%|████████████████████████████████████████████▍                                                          | 900/2088 [1:53:32<2:16:40,  6.90s/it]
+2025-10-06 17:02:04 - ERROR - stderr - 
+2025-10-06 17:02:04 - ERROR - stderr - 
+2025-10-06 17:02:04 - INFO - stdout - {'loss': 1.1395, 'learning_rate': 0.0006344599103076329, 'epoch': 2.59}
+2025-10-06 17:02:04 - ERROR - stderr -  43%|████████████████████████████████████████████▍                                                          | 900/2088 [1:53:32<2:16:40,  6.90s/it]
+2025-10-06 17:02:11 - ERROR - stderr -  43%|████████████████████████████████████████████▍                                                          | 901/2088 [1:53:40<2:18:51,  7.02s/it]
+2025-10-06 17:02:11 - ERROR - stderr - 
+2025-10-06 17:02:11 - ERROR - stderr - 
+2025-10-06 17:02:11 - INFO - stdout - {'loss': 1.2779, 'learning_rate': 0.0006337126217714784, 'epoch': 2.59}
+2025-10-06 17:02:11 - ERROR - stderr -  43%|████████████████████████████████████████████▍                                                          | 901/2088 [1:53:40<2:18:51,  7.02s/it]
+2025-10-06 17:02:18 - ERROR - stderr -  43%|████████████████████████████████████████████▍                                                          | 902/2088 [1:53:47<2:19:26,  7.05s/it]
+2025-10-06 17:02:18 - ERROR - stderr - 
+2025-10-06 17:02:18 - ERROR - stderr - 
+2025-10-06 17:02:18 - INFO - stdout - {'loss': 1.1011, 'learning_rate': 0.0006329650114086717, 'epoch': 2.59}
+2025-10-06 17:02:18 - ERROR - stderr -  43%|████████████████████████████████████████████▍                                                          | 902/2088 [1:53:47<2:19:26,  7.05s/it]
+2025-10-06 17:02:25 - ERROR - stderr -  43%|████████████████████████████████████████████▌                                                          | 903/2088 [1:53:54<2:19:17,  7.05s/it]
+2025-10-06 17:02:25 - ERROR - stderr - 
+2025-10-06 17:02:25 - ERROR - stderr - 
+2025-10-06 17:02:25 - INFO - stdout - {'loss': 1.3069, 'learning_rate': 0.0006322170810186012, 'epoch': 2.59}
+2025-10-06 17:02:25 - ERROR - stderr -  43%|████████████████████████████████████████████▌                                                          | 903/2088 [1:53:54<2:19:17,  7.05s/it]
+2025-10-06 17:02:33 - ERROR - stderr -  43%|████████████████████████████████████████████▌                                                          | 904/2088 [1:54:01<2:20:50,  7.14s/it]
+2025-10-06 17:02:33 - ERROR - stderr - 
+2025-10-06 17:02:33 - ERROR - stderr - 
+2025-10-06 17:02:33 - INFO - stdout - {'loss': 1.2329, 'learning_rate': 0.0006314688324014255, 'epoch': 2.6}
+2025-10-06 17:02:33 - ERROR - stderr -  43%|████████████████████████████████████████████▌                                                          | 904/2088 [1:54:01<2:20:50,  7.14s/it]
+2025-10-06 17:02:40 - ERROR - stderr -  43%|████████████████████████████████████████████▋                                                          | 905/2088 [1:54:08<2:21:03,  7.15s/it]
+2025-10-06 17:02:40 - ERROR - stderr - 
+2025-10-06 17:02:40 - ERROR - stderr - 
+2025-10-06 17:02:40 - INFO - stdout - {'loss': 1.1944, 'learning_rate': 0.0006307202673580694, 'epoch': 2.6}
+2025-10-06 17:02:40 - ERROR - stderr -  43%|████████████████████████████████████████████▋                                                          | 905/2088 [1:54:08<2:21:03,  7.15s/it]
+2025-10-06 17:02:47 - ERROR - stderr -  43%|████████████████████████████████████████████▋                                                          | 906/2088 [1:54:16<2:20:27,  7.13s/it]
+2025-10-06 17:02:47 - ERROR - stderr - 
+2025-10-06 17:02:47 - ERROR - stderr - 
+2025-10-06 17:02:47 - INFO - stdout - {'loss': 1.2774, 'learning_rate': 0.0006299713876902188, 'epoch': 2.6}
+2025-10-06 17:02:47 - ERROR - stderr -  43%|████████████████████████████████████████████▋                                                          | 906/2088 [1:54:16<2:20:27,  7.13s/it]
+2025-10-06 17:02:54 - ERROR - stderr -  43%|████████████████████████████████████████████▋                                                          | 907/2088 [1:54:23<2:20:24,  7.13s/it]
+2025-10-06 17:02:54 - ERROR - stderr - 
+2025-10-06 17:02:54 - ERROR - stderr - 
+2025-10-06 17:02:54 - INFO - stdout - {'loss': 1.1748, 'learning_rate': 0.0006292221952003172, 'epoch': 2.61}
+2025-10-06 17:02:54 - ERROR - stderr -  43%|████████████████████████████████████████████▋                                                          | 907/2088 [1:54:23<2:20:24,  7.13s/it]
+2025-10-06 17:03:01 - ERROR - stderr -  43%|████████████████████████████████████████████▊                                                          | 908/2088 [1:54:30<2:19:38,  7.10s/it]
+2025-10-06 17:03:01 - ERROR - stderr - 
+2025-10-06 17:03:01 - ERROR - stderr - 
+2025-10-06 17:03:01 - INFO - stdout - {'loss': 1.1275, 'learning_rate': 0.000628472691691561, 'epoch': 2.61}
+2025-10-06 17:03:01 - ERROR - stderr -  43%|████████████████████████████████████████████▊                                                          | 908/2088 [1:54:30<2:19:38,  7.10s/it]
+2025-10-06 17:03:08 - ERROR - stderr -  44%|████████████████████████████████████████████▊                                                          | 909/2088 [1:54:37<2:18:52,  7.07s/it]
+2025-10-06 17:03:08 - ERROR - stderr - 
+2025-10-06 17:03:08 - ERROR - stderr - 
+2025-10-06 17:03:08 - INFO - stdout - {'loss': 1.235, 'learning_rate': 0.0006277228789678953, 'epoch': 2.61}
+2025-10-06 17:03:08 - ERROR - stderr -  44%|████████████████████████████████████████████▊                                                          | 909/2088 [1:54:37<2:18:52,  7.07s/it]
+2025-10-06 17:03:15 - ERROR - stderr -  44%|████████████████████████████████████████████▉                                                          | 910/2088 [1:54:44<2:18:17,  7.04s/it]
+2025-10-06 17:03:15 - ERROR - stderr - 
+2025-10-06 17:03:15 - ERROR - stderr - 
+2025-10-06 17:03:15 - INFO - stdout - {'loss': 1.2509, 'learning_rate': 0.000626972758834009, 'epoch': 2.61}
+2025-10-06 17:03:15 - ERROR - stderr -  44%|████████████████████████████████████████████▉                                                          | 910/2088 [1:54:44<2:18:17,  7.04s/it]
+2025-10-06 17:03:22 - ERROR - stderr -  44%|████████████████████████████████████████████▉                                                          | 911/2088 [1:54:51<2:18:07,  7.04s/it]
+2025-10-06 17:03:22 - ERROR - stderr - 
+2025-10-06 17:03:22 - ERROR - stderr - 
+2025-10-06 17:03:22 - INFO - stdout - {'loss': 1.1254, 'learning_rate': 0.0006262223330953311, 'epoch': 2.62}
+2025-10-06 17:03:22 - ERROR - stderr -  44%|████████████████████████████████████████████▉                                                          | 911/2088 [1:54:51<2:18:07,  7.04s/it]
+2025-10-06 17:03:29 - ERROR - stderr -  44%|████████████████████████████████████████████▉                                                          | 912/2088 [1:54:58<2:17:51,  7.03s/it]
+2025-10-06 17:03:29 - ERROR - stderr - 
+2025-10-06 17:03:29 - ERROR - stderr - 
+2025-10-06 17:03:29 - INFO - stdout - {'loss': 1.1664, 'learning_rate': 0.0006254716035580263, 'epoch': 2.62}
+2025-10-06 17:03:29 - ERROR - stderr -  44%|████████████████████████████████████████████▉                                                          | 912/2088 [1:54:58<2:17:51,  7.03s/it]
+2025-10-06 17:03:36 - ERROR - stderr -  44%|█████████████████████████████████████████████                                                          | 913/2088 [1:55:05<2:17:52,  7.04s/it]
+2025-10-06 17:03:36 - ERROR - stderr - 
+2025-10-06 17:03:36 - ERROR - stderr - 
+2025-10-06 17:03:36 - INFO - stdout - {'loss': 1.1702, 'learning_rate': 0.0006247205720289907, 'epoch': 2.62}
+2025-10-06 17:03:36 - ERROR - stderr -  44%|█████████████████████████████████████████████                                                          | 913/2088 [1:55:05<2:17:52,  7.04s/it]
+2025-10-06 17:03:44 - ERROR - stderr -  44%|█████████████████████████████████████████████                                                          | 914/2088 [1:55:12<2:19:24,  7.12s/it]
+2025-10-06 17:03:44 - ERROR - stderr - 
+2025-10-06 17:03:44 - ERROR - stderr - 
+2025-10-06 17:03:44 - INFO - stdout - {'loss': 1.1921, 'learning_rate': 0.0006239692403158465, 'epoch': 2.63}
+2025-10-06 17:03:44 - ERROR - stderr -  44%|█████████████████████████████████████████████                                                          | 914/2088 [1:55:12<2:19:24,  7.12s/it]
+2025-10-06 17:03:51 - ERROR - stderr -  44%|█████████████████████████████████████████████▏                                                         | 915/2088 [1:55:19<2:18:33,  7.09s/it]
+2025-10-06 17:03:51 - ERROR - stderr - 
+2025-10-06 17:03:51 - ERROR - stderr - 
+2025-10-06 17:03:51 - INFO - stdout - {'loss': 1.1434, 'learning_rate': 0.0006232176102269389, 'epoch': 2.63}
+2025-10-06 17:03:51 - ERROR - stderr -  44%|█████████████████████████████████████████████▏                                                         | 915/2088 [1:55:19<2:18:33,  7.09s/it]
+2025-10-06 17:03:57 - ERROR - stderr -  44%|█████████████████████████████████████████████▏                                                         | 916/2088 [1:55:26<2:16:22,  6.98s/it]
+2025-10-06 17:03:57 - ERROR - stderr - 
+2025-10-06 17:03:57 - ERROR - stderr - 
+2025-10-06 17:03:57 - INFO - stdout - {'loss': 1.1756, 'learning_rate': 0.0006224656835713313, 'epoch': 2.63}
+2025-10-06 17:03:57 - ERROR - stderr -  44%|█████████████████████████████████████████████▏                                                         | 916/2088 [1:55:26<2:16:22,  6.98s/it]
+2025-10-06 17:04:04 - ERROR - stderr -  44%|█████████████████████████████████████████████▏                                                         | 917/2088 [1:55:33<2:17:09,  7.03s/it]
+2025-10-06 17:04:05 - ERROR - stderr - 
+2025-10-06 17:04:05 - ERROR - stderr - 
+2025-10-06 17:04:05 - INFO - stdout - {'loss': 1.1517, 'learning_rate': 0.0006217134621588009, 'epoch': 2.64}
+2025-10-06 17:04:05 - ERROR - stderr -  44%|█████████████████████████████████████████████▏                                                         | 917/2088 [1:55:33<2:17:09,  7.03s/it]
+2025-10-06 17:04:11 - ERROR - stderr -  44%|█████████████████████████████████████████████▎                                                         | 918/2088 [1:55:40<2:15:27,  6.95s/it]
+2025-10-06 17:04:11 - ERROR - stderr - 
+2025-10-06 17:04:11 - ERROR - stderr - 
+2025-10-06 17:04:11 - INFO - stdout - {'loss': 1.1592, 'learning_rate': 0.0006209609477998338, 'epoch': 2.64}
+2025-10-06 17:04:11 - ERROR - stderr -  44%|█████████████████████████████████████████████▎                                                         | 918/2088 [1:55:40<2:15:27,  6.95s/it]
+2025-10-06 17:04:18 - ERROR - stderr -  44%|█████████████████████████████████████████████▎                                                         | 919/2088 [1:55:47<2:16:39,  7.01s/it]
+2025-10-06 17:04:18 - ERROR - stderr - 
+2025-10-06 17:04:18 - ERROR - stderr - 
+2025-10-06 17:04:18 - INFO - stdout - {'loss': 1.2127, 'learning_rate': 0.0006202081423056221, 'epoch': 2.64}
+2025-10-06 17:04:18 - ERROR - stderr -  44%|█████████████████████████████████████████████▎                                                         | 919/2088 [1:55:47<2:16:39,  7.01s/it]
+2025-10-06 17:04:26 - ERROR - stderr -  44%|█████████████████████████████████████████████▍                                                         | 920/2088 [1:55:54<2:18:16,  7.10s/it]
+2025-10-06 17:04:26 - ERROR - stderr - 
+2025-10-06 17:04:26 - ERROR - stderr - 
+2025-10-06 17:04:26 - INFO - stdout - {'loss': 1.2089, 'learning_rate': 0.000619455047488058, 'epoch': 2.64}
+2025-10-06 17:04:26 - ERROR - stderr -  44%|█████████████████████████████████████████████▍                                                         | 920/2088 [1:55:54<2:18:16,  7.10s/it]
+2025-10-06 17:04:33 - ERROR - stderr -  44%|█████████████████████████████████████████████▍                                                         | 921/2088 [1:56:02<2:19:46,  7.19s/it]
+2025-10-06 17:04:33 - ERROR - stderr - 
+2025-10-06 17:04:33 - ERROR - stderr - 
+2025-10-06 17:04:33 - INFO - stdout - {'loss': 1.1625, 'learning_rate': 0.0006187016651597299, 'epoch': 2.65}
+2025-10-06 17:04:33 - ERROR - stderr -  44%|█████████████████████████████████████████████▍                                                         | 921/2088 [1:56:02<2:19:46,  7.19s/it]
+2025-10-06 17:04:40 - ERROR - stderr -  44%|█████████████████████████████████████████████▍                                                         | 922/2088 [1:56:09<2:20:11,  7.21s/it]
+2025-10-06 17:04:40 - ERROR - stderr - 
+2025-10-06 17:04:40 - ERROR - stderr - 
+2025-10-06 17:04:40 - INFO - stdout - {'loss': 1.2292, 'learning_rate': 0.0006179479971339186, 'epoch': 2.65}
+2025-10-06 17:04:40 - ERROR - stderr -  44%|█████████████████████████████████████████████▍                                                         | 922/2088 [1:56:09<2:20:11,  7.21s/it]
+2025-10-06 17:04:48 - ERROR - stderr -  44%|█████████████████████████████████████████████▌                                                         | 923/2088 [1:56:17<2:23:13,  7.38s/it]
+2025-10-06 17:04:48 - ERROR - stderr - 
+2025-10-06 17:04:48 - ERROR - stderr - 
+2025-10-06 17:04:48 - INFO - stdout - {'loss': 1.2075, 'learning_rate': 0.0006171940452245924, 'epoch': 2.65}
+2025-10-06 17:04:48 - ERROR - stderr -  44%|█████████████████████████████████████████████▌                                                         | 923/2088 [1:56:17<2:23:13,  7.38s/it]
+2025-10-06 17:04:55 - ERROR - stderr -  44%|█████████████████████████████████████████████▌                                                         | 924/2088 [1:56:23<2:19:12,  7.18s/it]
+2025-10-06 17:04:55 - ERROR - stderr - 
+2025-10-06 17:04:55 - ERROR - stderr - 
+2025-10-06 17:04:55 - INFO - stdout - {'loss': 1.1358, 'learning_rate': 0.0006164398112464029, 'epoch': 2.66}
+2025-10-06 17:04:55 - ERROR - stderr -  44%|█████████████████████████████████████████████▌                                                         | 924/2088 [1:56:23<2:19:12,  7.18s/it]
+2025-10-06 17:05:02 - ERROR - stderr -  44%|█████████████████████████████████████████████▋                                                         | 925/2088 [1:56:31<2:20:07,  7.23s/it]
+2025-10-06 17:05:02 - ERROR - stderr - 
+2025-10-06 17:05:02 - ERROR - stderr - 
+2025-10-06 17:05:02 - INFO - stdout - {'loss': 1.1885, 'learning_rate': 0.0006156852970146807, 'epoch': 2.66}
+2025-10-06 17:05:02 - ERROR - stderr -  44%|█████████████████████████████████████████████▋                                                         | 925/2088 [1:56:31<2:20:07,  7.23s/it]
+2025-10-06 17:05:09 - ERROR - stderr -  44%|█████████████████████████████████████████████▋                                                         | 926/2088 [1:56:38<2:19:05,  7.18s/it]
+2025-10-06 17:05:09 - ERROR - stderr - 
+2025-10-06 17:05:09 - ERROR - stderr - 
+2025-10-06 17:05:09 - INFO - stdout - {'loss': 1.1671, 'learning_rate': 0.0006149305043454306, 'epoch': 2.66}
+2025-10-06 17:05:09 - ERROR - stderr -  44%|█████████████████████████████████████████████▋                                                         | 926/2088 [1:56:38<2:19:05,  7.18s/it]
+2025-10-06 17:05:17 - ERROR - stderr -  44%|█████████████████████████████████████████████▋                                                         | 927/2088 [1:56:45<2:21:29,  7.31s/it]
+2025-10-06 17:05:17 - ERROR - stderr - 
+2025-10-06 17:05:17 - ERROR - stderr - 
+2025-10-06 17:05:17 - INFO - stdout - {'loss': 1.2438, 'learning_rate': 0.0006141754350553279, 'epoch': 2.66}
+2025-10-06 17:05:17 - ERROR - stderr -  44%|█████████████████████████████████████████████▋                                                         | 927/2088 [1:56:45<2:21:29,  7.31s/it]
+2025-10-06 17:05:24 - ERROR - stderr -  44%|█████████████████████████████████████████████▊                                                         | 928/2088 [1:56:53<2:20:39,  7.28s/it]
+2025-10-06 17:05:24 - ERROR - stderr - 
+2025-10-06 17:05:24 - ERROR - stderr - 
+2025-10-06 17:05:24 - INFO - stdout - {'loss': 1.192, 'learning_rate': 0.0006134200909617135, 'epoch': 2.67}
+2025-10-06 17:05:24 - ERROR - stderr -  44%|█████████████████████████████████████████████▊                                                         | 928/2088 [1:56:53<2:20:39,  7.28s/it]
+2025-10-06 17:05:31 - ERROR - stderr -  44%|█████████████████████████████████████████████▊                                                         | 929/2088 [1:56:59<2:18:09,  7.15s/it]
+2025-10-06 17:05:31 - ERROR - stderr - 
+2025-10-06 17:05:31 - ERROR - stderr - 
+2025-10-06 17:05:31 - INFO - stdout - {'loss': 1.2067, 'learning_rate': 0.0006126644738825896, 'epoch': 2.67}
+2025-10-06 17:05:31 - ERROR - stderr -  44%|█████████████████████████████████████████████▊                                                         | 929/2088 [1:56:59<2:18:09,  7.15s/it]
+2025-10-06 17:05:38 - ERROR - stderr -  45%|█████████████████████████████████████████████▉                                                         | 930/2088 [1:57:06<2:16:59,  7.10s/it]
+2025-10-06 17:05:38 - ERROR - stderr - 
+2025-10-06 17:05:38 - ERROR - stderr - 
+2025-10-06 17:05:38 - INFO - stdout - {'loss': 1.145, 'learning_rate': 0.0006119085856366158, 'epoch': 2.67}
+2025-10-06 17:05:38 - ERROR - stderr -  45%|█████████████████████████████████████████████▉                                                         | 930/2088 [1:57:06<2:16:59,  7.10s/it]
+2025-10-06 17:05:45 - ERROR - stderr -  45%|█████████████████████████████████████████████▉                                                         | 931/2088 [1:57:13<2:16:23,  7.07s/it]
+2025-10-06 17:05:45 - ERROR - stderr - 
+2025-10-06 17:05:45 - ERROR - stderr - 
+2025-10-06 17:05:45 - INFO - stdout - {'loss': 1.1635, 'learning_rate': 0.0006111524280431039, 'epoch': 2.68}
+2025-10-06 17:05:45 - ERROR - stderr -  45%|█████████████████████████████████████████████▉                                                         | 931/2088 [1:57:13<2:16:23,  7.07s/it]
+2025-10-06 17:05:52 - ERROR - stderr -  45%|█████████████████████████████████████████████▉                                                         | 932/2088 [1:57:21<2:16:42,  7.10s/it]
+2025-10-06 17:05:52 - ERROR - stderr - 
+2025-10-06 17:05:52 - ERROR - stderr - 
+2025-10-06 17:05:52 - INFO - stdout - {'loss': 1.2305, 'learning_rate': 0.0006103960029220144, 'epoch': 2.68}
+2025-10-06 17:05:52 - ERROR - stderr -  45%|█████████████████████████████████████████████▉                                                         | 932/2088 [1:57:21<2:16:42,  7.10s/it]
+2025-10-06 17:05:59 - ERROR - stderr -  45%|██████████████████████████████████████████████                                                         | 933/2088 [1:57:28<2:15:46,  7.05s/it]
+2025-10-06 17:05:59 - ERROR - stderr - 
+2025-10-06 17:05:59 - ERROR - stderr - 
+2025-10-06 17:05:59 - INFO - stdout - {'loss': 1.1915, 'learning_rate': 0.0006096393120939516, 'epoch': 2.68}
+2025-10-06 17:05:59 - ERROR - stderr -  45%|██████████████████████████████████████████████                                                         | 933/2088 [1:57:28<2:15:46,  7.05s/it]
+2025-10-06 17:06:06 - ERROR - stderr -  45%|██████████████████████████████████████████████                                                         | 934/2088 [1:57:34<2:13:50,  6.96s/it]
+2025-10-06 17:06:06 - ERROR - stderr - 
+2025-10-06 17:06:06 - ERROR - stderr - 
+2025-10-06 17:06:06 - INFO - stdout - {'loss': 1.1781, 'learning_rate': 0.0006088823573801591, 'epoch': 2.68}
+2025-10-06 17:06:06 - ERROR - stderr -  45%|██████████████████████████████████████████████                                                         | 934/2088 [1:57:34<2:13:50,  6.96s/it]
+2025-10-06 17:06:13 - ERROR - stderr -  45%|██████████████████████████████████████████████                                                         | 935/2088 [1:57:41<2:14:31,  7.00s/it]
+2025-10-06 17:06:13 - ERROR - stderr - 
+2025-10-06 17:06:13 - ERROR - stderr - 
+2025-10-06 17:06:13 - INFO - stdout - {'loss': 1.1884, 'learning_rate': 0.0006081251406025161, 'epoch': 2.69}
+2025-10-06 17:06:13 - ERROR - stderr -  45%|██████████████████████████████████████████████                                                         | 935/2088 [1:57:41<2:14:31,  7.00s/it]
+2025-10-06 17:06:20 - ERROR - stderr -  45%|██████████████████████████████████████████████▏                                                        | 936/2088 [1:57:48<2:14:27,  7.00s/it]
+2025-10-06 17:06:20 - ERROR - stderr - 
+2025-10-06 17:06:20 - ERROR - stderr - 
+2025-10-06 17:06:20 - INFO - stdout - {'loss': 1.1184, 'learning_rate': 0.0006073676635835317, 'epoch': 2.69}
+2025-10-06 17:06:20 - ERROR - stderr -  45%|██████████████████████████████████████████████▏                                                        | 936/2088 [1:57:48<2:14:27,  7.00s/it]
+2025-10-06 17:06:27 - ERROR - stderr -  45%|██████████████████████████████████████████████▏                                                        | 937/2088 [1:57:56<2:15:56,  7.09s/it]
+2025-10-06 17:06:27 - ERROR - stderr - 
+2025-10-06 17:06:27 - ERROR - stderr - 
+2025-10-06 17:06:27 - INFO - stdout - {'loss': 1.2154, 'learning_rate': 0.0006066099281463422, 'epoch': 2.69}
+2025-10-06 17:06:27 - ERROR - stderr -  45%|██████████████████████████████████████████████▏                                                        | 937/2088 [1:57:56<2:15:56,  7.09s/it]
+2025-10-06 17:06:34 - ERROR - stderr -  45%|██████████████████████████████████████████████▎                                                        | 938/2088 [1:58:03<2:15:53,  7.09s/it]
+2025-10-06 17:06:34 - ERROR - stderr - 
+2025-10-06 17:06:34 - ERROR - stderr - 
+2025-10-06 17:06:34 - INFO - stdout - {'loss': 1.2657, 'learning_rate': 0.0006058519361147054, 'epoch': 2.7}
+2025-10-06 17:06:34 - ERROR - stderr -  45%|██████████████████████████████████████████████▎                                                        | 938/2088 [1:58:03<2:15:53,  7.09s/it]
+2025-10-06 17:06:41 - ERROR - stderr -  45%|██████████████████████████████████████████████▎                                                        | 939/2088 [1:58:10<2:14:51,  7.04s/it]
+2025-10-06 17:06:41 - ERROR - stderr - 
+2025-10-06 17:06:41 - ERROR - stderr - 
+2025-10-06 17:06:41 - INFO - stdout - {'loss': 1.1737, 'learning_rate': 0.000605093689312997, 'epoch': 2.7}
+2025-10-06 17:06:41 - ERROR - stderr -  45%|██████████████████████████████████████████████▎                                                        | 939/2088 [1:58:10<2:14:51,  7.04s/it]
+2025-10-06 17:06:48 - ERROR - stderr -  45%|██████████████████████████████████████████████▎                                                        | 940/2088 [1:58:17<2:14:45,  7.04s/it]
+2025-10-06 17:06:48 - ERROR - stderr - 
+2025-10-06 17:06:48 - ERROR - stderr - 
+2025-10-06 17:06:48 - INFO - stdout - {'loss': 1.1415, 'learning_rate': 0.0006043351895662058, 'epoch': 2.7}
+2025-10-06 17:06:48 - ERROR - stderr -  45%|██████████████████████████████████████████████▎                                                        | 940/2088 [1:58:17<2:14:45,  7.04s/it]
+2025-10-06 17:06:55 - ERROR - stderr -  45%|██████████████████████████████████████████████▍                                                        | 941/2088 [1:58:24<2:14:56,  7.06s/it]
+2025-10-06 17:06:55 - ERROR - stderr - 
+2025-10-06 17:06:55 - ERROR - stderr - 
+2025-10-06 17:06:55 - INFO - stdout - {'loss': 1.2142, 'learning_rate': 0.0006035764386999291, 'epoch': 2.7}
+2025-10-06 17:06:55 - ERROR - stderr -  45%|██████████████████████████████████████████████▍                                                        | 941/2088 [1:58:24<2:14:56,  7.06s/it]
+2025-10-06 17:07:03 - ERROR - stderr -  45%|██████████████████████████████████████████████▍                                                        | 942/2088 [1:58:31<2:16:06,  7.13s/it]
+2025-10-06 17:07:03 - ERROR - stderr - 
+2025-10-06 17:07:03 - ERROR - stderr - 
+2025-10-06 17:07:03 - INFO - stdout - {'loss': 1.1979, 'learning_rate': 0.0006028174385403693, 'epoch': 2.71}
+2025-10-06 17:07:03 - ERROR - stderr -  45%|██████████████████████████████████████████████▍                                                        | 942/2088 [1:58:31<2:16:06,  7.13s/it]
+2025-10-06 17:07:10 - ERROR - stderr -  45%|██████████████████████████████████████████████▌                                                        | 943/2088 [1:58:38<2:15:49,  7.12s/it]
+2025-10-06 17:07:10 - ERROR - stderr - 
+2025-10-06 17:07:10 - ERROR - stderr - 
+2025-10-06 17:07:10 - INFO - stdout - {'loss': 1.2643, 'learning_rate': 0.0006020581909143279, 'epoch': 2.71}
+2025-10-06 17:07:10 - ERROR - stderr -  45%|██████████████████████████████████████████████▌                                                        | 943/2088 [1:58:38<2:15:49,  7.12s/it]
+2025-10-06 17:07:16 - ERROR - stderr -  45%|██████████████████████████████████████████████▌                                                        | 944/2088 [1:58:45<2:12:54,  6.97s/it]
+2025-10-06 17:07:16 - ERROR - stderr - 
+2025-10-06 17:07:16 - ERROR - stderr - 
+2025-10-06 17:07:16 - INFO - stdout - {'loss': 1.1504, 'learning_rate': 0.0006012986976492025, 'epoch': 2.71}
+2025-10-06 17:07:16 - ERROR - stderr -  45%|██████████████████████████████████████████████▌                                                        | 944/2088 [1:58:45<2:12:54,  6.97s/it]
+2025-10-06 17:07:23 - ERROR - stderr -  45%|██████████████████████████████████████████████▌                                                        | 945/2088 [1:58:52<2:13:15,  7.00s/it]
+2025-10-06 17:07:23 - ERROR - stderr - 
+2025-10-06 17:07:23 - ERROR - stderr - 
+2025-10-06 17:07:23 - INFO - stdout - {'loss': 1.211, 'learning_rate': 0.0006005389605729824, 'epoch': 2.72}
+2025-10-06 17:07:23 - ERROR - stderr -  45%|██████████████████████████████████████████████▌                                                        | 945/2088 [1:58:52<2:13:15,  7.00s/it]
+2025-10-06 17:07:30 - ERROR - stderr -  45%|██████████████████████████████████████████████▋                                                        | 946/2088 [1:58:59<2:13:08,  6.99s/it]
+2025-10-06 17:07:30 - ERROR - stderr - 
+2025-10-06 17:07:30 - ERROR - stderr - 
+2025-10-06 17:07:30 - INFO - stdout - {'loss': 1.2437, 'learning_rate': 0.0005997789815142427, 'epoch': 2.72}
+2025-10-06 17:07:30 - ERROR - stderr -  45%|██████████████████████████████████████████████▋                                                        | 946/2088 [1:58:59<2:13:08,  6.99s/it]
+2025-10-06 17:07:37 - ERROR - stderr -  45%|██████████████████████████████████████████████▋                                                        | 947/2088 [1:59:06<2:13:10,  7.00s/it]
+2025-10-06 17:07:37 - ERROR - stderr - 
+2025-10-06 17:07:37 - ERROR - stderr - 
+2025-10-06 17:07:37 - INFO - stdout - {'loss': 1.2712, 'learning_rate': 0.0005990187623021415, 'epoch': 2.72}
+2025-10-06 17:07:37 - ERROR - stderr -  45%|██████████████████████████████████████████████▋                                                        | 947/2088 [1:59:06<2:13:10,  7.00s/it]
+2025-10-06 17:07:44 - ERROR - stderr -  45%|██████████████████████████████████████████████▊                                                        | 948/2088 [1:59:13<2:11:22,  6.91s/it]
+2025-10-06 17:07:44 - ERROR - stderr - 
+2025-10-06 17:07:44 - ERROR - stderr - 
+2025-10-06 17:07:44 - INFO - stdout - {'loss': 1.1865, 'learning_rate': 0.0005982583047664151, 'epoch': 2.72}
+2025-10-06 17:07:44 - ERROR - stderr -  45%|██████████████████████████████████████████████▊                                                        | 948/2088 [1:59:13<2:11:22,  6.91s/it]
+2025-10-06 17:07:51 - ERROR - stderr -  45%|██████████████████████████████████████████████▊                                                        | 949/2088 [1:59:19<2:10:50,  6.89s/it]
+2025-10-06 17:07:51 - ERROR - stderr - 
+2025-10-06 17:07:51 - ERROR - stderr - 
+2025-10-06 17:07:51 - INFO - stdout - {'loss': 1.2424, 'learning_rate': 0.000597497610737373, 'epoch': 2.73}
+2025-10-06 17:07:51 - ERROR - stderr -  45%|██████████████████████████████████████████████▊                                                        | 949/2088 [1:59:19<2:10:50,  6.89s/it]
+2025-10-06 17:07:58 - ERROR - stderr -  45%|██████████████████████████████████████████████▊                                                        | 950/2088 [1:59:27<2:11:35,  6.94s/it]
+2025-10-06 17:07:58 - ERROR - stderr - 
+2025-10-06 17:07:58 - ERROR - stderr - 
+2025-10-06 17:07:58 - INFO - stdout - {'loss': 1.1715, 'learning_rate': 0.0005967366820458939, 'epoch': 2.73}
+2025-10-06 17:07:58 - ERROR - stderr -  45%|██████████████████████████████████████████████▊                                                        | 950/2088 [1:59:27<2:11:35,  6.94s/it]
+2025-10-06 17:08:05 - ERROR - stderr -  46%|██████████████████████████████████████████████▉                                                        | 951/2088 [1:59:34<2:11:50,  6.96s/it]
+2025-10-06 17:08:05 - ERROR - stderr - 
+2025-10-06 17:08:05 - ERROR - stderr - 
+2025-10-06 17:08:05 - INFO - stdout - {'loss': 1.2058, 'learning_rate': 0.0005959755205234218, 'epoch': 2.73}
+2025-10-06 17:08:05 - ERROR - stderr -  46%|██████████████████████████████████████████████▉                                                        | 951/2088 [1:59:34<2:11:50,  6.96s/it]
+2025-10-06 17:08:12 - ERROR - stderr -  46%|██████████████████████████████████████████████▉                                                        | 952/2088 [1:59:40<2:10:44,  6.90s/it]
+2025-10-06 17:08:12 - ERROR - stderr - 
+2025-10-06 17:08:12 - ERROR - stderr - 
+2025-10-06 17:08:12 - INFO - stdout - {'loss': 1.1844, 'learning_rate': 0.0005952141280019605, 'epoch': 2.74}
+2025-10-06 17:08:12 - ERROR - stderr -  46%|██████████████████████████████████████████████▉                                                        | 952/2088 [1:59:40<2:10:44,  6.90s/it]
+2025-10-06 17:08:19 - ERROR - stderr -  46%|███████████████████████████████████████████████                                                        | 953/2088 [1:59:48<2:12:30,  7.01s/it]
+2025-10-06 17:08:19 - ERROR - stderr - 
+2025-10-06 17:08:19 - ERROR - stderr - 
+2025-10-06 17:08:19 - INFO - stdout - {'loss': 1.2242, 'learning_rate': 0.0005944525063140702, 'epoch': 2.74}
+2025-10-06 17:08:19 - ERROR - stderr -  46%|███████████████████████████████████████████████                                                        | 953/2088 [1:59:48<2:12:30,  7.01s/it]
+2025-10-06 17:08:26 - ERROR - stderr -  46%|███████████████████████████████████████████████                                                        | 954/2088 [1:59:55<2:12:47,  7.03s/it]
+2025-10-06 17:08:26 - ERROR - stderr - 
+2025-10-06 17:08:26 - ERROR - stderr - 
+2025-10-06 17:08:26 - INFO - stdout - {'loss': 1.1708, 'learning_rate': 0.0005936906572928624, 'epoch': 2.74}
+2025-10-06 17:08:26 - ERROR - stderr -  46%|███████████████████████████████████████████████                                                        | 954/2088 [1:59:55<2:12:47,  7.03s/it]
+2025-10-06 17:08:34 - ERROR - stderr -  46%|███████████████████████████████████████████████                                                        | 955/2088 [2:00:02<2:15:02,  7.15s/it]
+2025-10-06 17:08:34 - ERROR - stderr - 
+2025-10-06 17:08:34 - ERROR - stderr - 
+2025-10-06 17:08:34 - INFO - stdout - {'loss': 1.215, 'learning_rate': 0.0005929285827719958, 'epoch': 2.74}
+2025-10-06 17:08:34 - ERROR - stderr -  46%|███████████████████████████████████████████████                                                        | 955/2088 [2:00:02<2:15:02,  7.15s/it]
+2025-10-06 17:08:40 - ERROR - stderr -  46%|███████████████████████████████████████████████▏                                                       | 956/2088 [2:00:09<2:13:21,  7.07s/it]
+2025-10-06 17:08:40 - ERROR - stderr - 
+2025-10-06 17:08:40 - ERROR - stderr - 
+2025-10-06 17:08:40 - INFO - stdout - {'loss': 1.1317, 'learning_rate': 0.0005921662845856718, 'epoch': 2.75}
+2025-10-06 17:08:40 - ERROR - stderr -  46%|███████████████████████████████████████████████▏                                                       | 956/2088 [2:00:09<2:13:21,  7.07s/it]
+2025-10-06 17:08:48 - ERROR - stderr -  46%|███████████████████████████████████████████████▏                                                       | 957/2088 [2:00:16<2:13:44,  7.10s/it]
+2025-10-06 17:08:48 - ERROR - stderr - 
+2025-10-06 17:08:48 - ERROR - stderr - 
+2025-10-06 17:08:48 - INFO - stdout - {'loss': 1.1797, 'learning_rate': 0.0005914037645686307, 'epoch': 2.75}
+2025-10-06 17:08:48 - ERROR - stderr -  46%|███████████████████████████████████████████████▏                                                       | 957/2088 [2:00:16<2:13:44,  7.10s/it]
+2025-10-06 17:08:55 - ERROR - stderr -  46%|███████████████████████████████████████████████▎                                                       | 958/2088 [2:00:24<2:16:34,  7.25s/it]
+2025-10-06 17:08:55 - ERROR - stderr - 
+2025-10-06 17:08:55 - ERROR - stderr - 
+2025-10-06 17:08:55 - INFO - stdout - {'loss': 1.2035, 'learning_rate': 0.0005906410245561459, 'epoch': 2.75}
+2025-10-06 17:08:55 - ERROR - stderr -  46%|███████████████████████████████████████████████▎                                                       | 958/2088 [2:00:24<2:16:34,  7.25s/it]
+2025-10-06 17:09:02 - ERROR - stderr -  46%|███████████████████████████████████████████████▎                                                       | 959/2088 [2:00:31<2:14:43,  7.16s/it]
+2025-10-06 17:09:02 - ERROR - stderr - 
+2025-10-06 17:09:02 - ERROR - stderr - 
+2025-10-06 17:09:02 - INFO - stdout - {'loss': 1.1764, 'learning_rate': 0.0005898780663840205, 'epoch': 2.76}
+2025-10-06 17:09:02 - ERROR - stderr -  46%|███████████████████████████████████████████████▎                                                       | 959/2088 [2:00:31<2:14:43,  7.16s/it]
+2025-10-06 17:09:10 - ERROR - stderr -  46%|███████████████████████████████████████████████▎                                                       | 960/2088 [2:00:38<2:15:59,  7.23s/it]
+2025-10-06 17:09:10 - ERROR - stderr - 
+2025-10-06 17:09:10 - ERROR - stderr - 
+2025-10-06 17:09:10 - INFO - stdout - {'loss': 1.1791, 'learning_rate': 0.0005891148918885833, 'epoch': 2.76}
+2025-10-06 17:09:10 - ERROR - stderr -  46%|███████████████████████████████████████████████▎                                                       | 960/2088 [2:00:38<2:15:59,  7.23s/it]
+2025-10-06 17:09:17 - ERROR - stderr -  46%|███████████████████████████████████████████████▍                                                       | 961/2088 [2:00:45<2:15:02,  7.19s/it]
+2025-10-06 17:09:17 - ERROR - stderr - 
+2025-10-06 17:09:17 - ERROR - stderr - 
+2025-10-06 17:09:17 - INFO - stdout - {'loss': 1.1703, 'learning_rate': 0.0005883515029066829, 'epoch': 2.76}
+2025-10-06 17:09:17 - ERROR - stderr -  46%|███████████████████████████████████████████████▍                                                       | 961/2088 [2:00:45<2:15:02,  7.19s/it]
+2025-10-06 17:09:23 - ERROR - stderr -  46%|███████████████████████████████████████████████▍                                                       | 962/2088 [2:00:52<2:12:54,  7.08s/it]
+2025-10-06 17:09:23 - ERROR - stderr - 
+2025-10-06 17:09:23 - ERROR - stderr - 
+2025-10-06 17:09:23 - INFO - stdout - {'loss': 1.1648, 'learning_rate': 0.0005875879012756844, 'epoch': 2.76}
+2025-10-06 17:09:23 - ERROR - stderr -  46%|███████████████████████████████████████████████▍                                                       | 962/2088 [2:00:52<2:12:54,  7.08s/it]
+2025-10-06 17:09:31 - ERROR - stderr -  46%|███████████████████████████████████████████████▌                                                       | 963/2088 [2:00:59<2:12:56,  7.09s/it]
+2025-10-06 17:09:31 - ERROR - stderr - 
+2025-10-06 17:09:31 - ERROR - stderr - 
+2025-10-06 17:09:31 - INFO - stdout - {'loss': 1.097, 'learning_rate': 0.0005868240888334653, 'epoch': 2.77}
+2025-10-06 17:09:31 - ERROR - stderr -  46%|███████████████████████████████████████████████▌                                                       | 963/2088 [2:00:59<2:12:56,  7.09s/it]
+2025-10-06 17:09:38 - ERROR - stderr -  46%|███████████████████████████████████████████████▌                                                       | 964/2088 [2:01:06<2:12:53,  7.09s/it]
+2025-10-06 17:09:38 - ERROR - stderr - 
+2025-10-06 17:09:38 - ERROR - stderr - 
+2025-10-06 17:09:38 - INFO - stdout - {'loss': 1.1576, 'learning_rate': 0.0005860600674184095, 'epoch': 2.77}
+2025-10-06 17:09:38 - ERROR - stderr -  46%|███████████████████████████████████████████████▌                                                       | 964/2088 [2:01:06<2:12:53,  7.09s/it]
+2025-10-06 17:09:45 - ERROR - stderr -  46%|███████████████████████████████████████████████▌                                                       | 965/2088 [2:01:13<2:13:51,  7.15s/it]
+2025-10-06 17:09:45 - ERROR - stderr - 
+2025-10-06 17:09:45 - ERROR - stderr - 
+2025-10-06 17:09:45 - INFO - stdout - {'loss': 1.1577, 'learning_rate': 0.0005852958388694048, 'epoch': 2.77}
+2025-10-06 17:09:45 - ERROR - stderr -  46%|███████████████████████████████████████████████▌                                                       | 965/2088 [2:01:13<2:13:51,  7.15s/it]
+2025-10-06 17:09:52 - ERROR - stderr -  46%|███████████████████████████████████████████████▋                                                       | 966/2088 [2:01:21<2:13:16,  7.13s/it]
+2025-10-06 17:09:52 - ERROR - stderr - 
+2025-10-06 17:09:52 - ERROR - stderr - 
+2025-10-06 17:09:52 - INFO - stdout - {'loss': 1.1263, 'learning_rate': 0.000584531405025837, 'epoch': 2.78}
+2025-10-06 17:09:52 - ERROR - stderr -  46%|███████████████████████████████████████████████▋                                                       | 966/2088 [2:01:21<2:13:16,  7.13s/it]
+2025-10-06 17:09:59 - ERROR - stderr -  46%|███████████████████████████████████████████████▋                                                       | 967/2088 [2:01:27<2:11:01,  7.01s/it]
+2025-10-06 17:09:59 - ERROR - stderr - 
+2025-10-06 17:09:59 - ERROR - stderr - 
+2025-10-06 17:09:59 - INFO - stdout - {'loss': 1.1775, 'learning_rate': 0.0005837667677275863, 'epoch': 2.78}
+2025-10-06 17:09:59 - ERROR - stderr -  46%|███████████████████████████████████████████████▋                                                       | 967/2088 [2:01:27<2:11:01,  7.01s/it]
+2025-10-06 17:10:06 - ERROR - stderr -  46%|███████████████████████████████████████████████▊                                                       | 968/2088 [2:01:34<2:11:01,  7.02s/it]
+2025-10-06 17:10:06 - ERROR - stderr - 
+2025-10-06 17:10:06 - ERROR - stderr - 
+2025-10-06 17:10:06 - INFO - stdout - {'loss': 1.2317, 'learning_rate': 0.0005830019288150222, 'epoch': 2.78}
+2025-10-06 17:10:06 - ERROR - stderr -  46%|███████████████████████████████████████████████▊                                                       | 968/2088 [2:01:34<2:11:01,  7.02s/it]
+2025-10-06 17:10:13 - ERROR - stderr -  46%|███████████████████████████████████████████████▊                                                       | 969/2088 [2:01:41<2:10:59,  7.02s/it]
+2025-10-06 17:10:13 - ERROR - stderr - 
+2025-10-06 17:10:13 - ERROR - stderr - 
+2025-10-06 17:10:13 - INFO - stdout - {'loss': 1.1992, 'learning_rate': 0.0005822368901289993, 'epoch': 2.78}
+2025-10-06 17:10:13 - ERROR - stderr -  46%|███████████████████████████████████████████████▊                                                       | 969/2088 [2:01:41<2:10:59,  7.02s/it]
+2025-10-06 17:10:20 - ERROR - stderr -  46%|███████████████████████████████████████████████▊                                                       | 970/2088 [2:01:49<2:12:20,  7.10s/it]
+2025-10-06 17:10:20 - ERROR - stderr - 
+2025-10-06 17:10:20 - ERROR - stderr - 
+2025-10-06 17:10:20 - INFO - stdout - {'loss': 1.1569, 'learning_rate': 0.0005814716535108544, 'epoch': 2.79}
+2025-10-06 17:10:20 - ERROR - stderr -  46%|███████████████████████████████████████████████▊                                                       | 970/2088 [2:01:49<2:12:20,  7.10s/it]
+2025-10-06 17:10:28 - ERROR - stderr -  47%|███████████████████████████████████████████████▉                                                       | 971/2088 [2:01:57<2:16:55,  7.35s/it]
+2025-10-06 17:10:28 - ERROR - stderr - 
+2025-10-06 17:10:28 - ERROR - stderr - 
+2025-10-06 17:10:28 - INFO - stdout - {'loss': 1.1517, 'learning_rate': 0.000580706220802399, 'epoch': 2.79}
+2025-10-06 17:10:28 - ERROR - stderr -  47%|███████████████████████████████████████████████▉                                                       | 971/2088 [2:01:57<2:16:55,  7.35s/it]
+2025-10-06 17:10:35 - ERROR - stderr -  47%|███████████████████████████████████████████████▉                                                       | 972/2088 [2:02:04<2:15:36,  7.29s/it]
+2025-10-06 17:10:35 - ERROR - stderr - 
+2025-10-06 17:10:35 - ERROR - stderr - 
+2025-10-06 17:10:35 - INFO - stdout - {'loss': 1.1357, 'learning_rate': 0.0005799405938459175, 'epoch': 2.79}
+2025-10-06 17:10:35 - ERROR - stderr -  47%|███████████████████████████████████████████████▉                                                       | 972/2088 [2:02:04<2:15:36,  7.29s/it]
+2025-10-06 17:10:42 - ERROR - stderr -  47%|███████████████████████████████████████████████▉                                                       | 973/2088 [2:02:11<2:13:36,  7.19s/it]
+2025-10-06 17:10:42 - ERROR - stderr - 
+2025-10-06 17:10:42 - ERROR - stderr - 
+2025-10-06 17:10:42 - INFO - stdout - {'loss': 1.1624, 'learning_rate': 0.0005791747744841615, 'epoch': 2.8}
+2025-10-06 17:10:42 - ERROR - stderr -  47%|███████████████████████████████████████████████▉                                                       | 973/2088 [2:02:11<2:13:36,  7.19s/it]
+2025-10-06 17:10:49 - ERROR - stderr -  47%|███��████████████████████████████████████████████                                                       | 974/2088 [2:02:18<2:12:28,  7.13s/it]
+2025-10-06 17:10:49 - ERROR - stderr - 
+2025-10-06 17:10:49 - ERROR - stderr - 
+2025-10-06 17:10:49 - INFO - stdout - {'loss': 1.1524, 'learning_rate': 0.0005784087645603459, 'epoch': 2.8}
+2025-10-06 17:10:49 - ERROR - stderr -  47%|████████████████████████████████████████████████                                                       | 974/2088 [2:02:18<2:12:28,  7.13s/it]
+2025-10-06 17:10:57 - ERROR - stderr -  47%|████████████████████████████████████████████████                                                       | 975/2088 [2:02:25<2:13:53,  7.22s/it]
+2025-10-06 17:10:57 - ERROR - stderr - 
+2025-10-06 17:10:57 - ERROR - stderr - 
+2025-10-06 17:10:57 - INFO - stdout - {'loss': 1.1156, 'learning_rate': 0.0005776425659181438, 'epoch': 2.8}
+2025-10-06 17:10:57 - ERROR - stderr -  47%|████████████████████████████████████████████████                                                       | 975/2088 [2:02:25<2:13:53,  7.22s/it]
+2025-10-06 17:11:04 - ERROR - stderr -  47%|████████████████████████████████████████████████▏                                                      | 976/2088 [2:02:32<2:12:19,  7.14s/it]
+2025-10-06 17:11:04 - ERROR - stderr - 
+2025-10-06 17:11:04 - ERROR - stderr - 
+2025-10-06 17:11:04 - INFO - stdout - {'loss': 1.1819, 'learning_rate': 0.0005768761804016832, 'epoch': 2.8}
+2025-10-06 17:11:04 - ERROR - stderr -  47%|████████████████████████████████████████████████▏                                                      | 976/2088 [2:02:32<2:12:19,  7.14s/it]
+2025-10-06 17:11:10 - ERROR - stderr -  47%|████████████████████████████████████████████████▏                                                      | 977/2088 [2:02:39<2:10:39,  7.06s/it]
+2025-10-06 17:11:10 - ERROR - stderr - 
+2025-10-06 17:11:10 - ERROR - stderr - 
+2025-10-06 17:11:10 - INFO - stdout - {'loss': 1.1656, 'learning_rate': 0.0005761096098555416, 'epoch': 2.81}
+2025-10-06 17:11:10 - ERROR - stderr -  47%|████████████████████████████████████████████████▏                                                      | 977/2088 [2:02:39<2:10:39,  7.06s/it]
+2025-10-06 17:11:18 - ERROR - stderr -  47%|████████████████████████████████████████████████▏                                                      | 978/2088 [2:02:46<2:10:53,  7.07s/it]
+2025-10-06 17:11:18 - ERROR - stderr - 
+2025-10-06 17:11:18 - ERROR - stderr - 
+2025-10-06 17:11:18 - INFO - stdout - {'loss': 1.2386, 'learning_rate': 0.0005753428561247416, 'epoch': 2.81}
+2025-10-06 17:11:18 - ERROR - stderr -  47%|████████████████████████████████████████████████▏                                                      | 978/2088 [2:02:46<2:10:53,  7.07s/it]
+2025-10-06 17:11:24 - ERROR - stderr -  47%|████████████████████████████████████████████████▎                                                      | 979/2088 [2:02:53<2:09:38,  7.01s/it]
+2025-10-06 17:11:24 - ERROR - stderr - 
+2025-10-06 17:11:24 - ERROR - stderr - 
+2025-10-06 17:11:24 - INFO - stdout - {'loss': 1.0956, 'learning_rate': 0.0005745759210547469, 'epoch': 2.81}
+2025-10-06 17:11:24 - ERROR - stderr -  47%|████████████████████████████████████████████████▎                                                      | 979/2088 [2:02:53<2:09:38,  7.01s/it]
+2025-10-06 17:11:31 - ERROR - stderr -  47%|████████████████████████████████████████████████▎                                                      | 980/2088 [2:03:00<2:09:06,  6.99s/it]
+2025-10-06 17:11:31 - ERROR - stderr - 
+2025-10-06 17:11:31 - ERROR - stderr - 
+2025-10-06 17:11:31 - INFO - stdout - {'loss': 1.2076, 'learning_rate': 0.0005738088064914576, 'epoch': 2.82}
+2025-10-06 17:11:31 - ERROR - stderr -  47%|████████████████████████████████████████████████▎                                                      | 980/2088 [2:03:00<2:09:06,  6.99s/it]
+2025-10-06 17:11:38 - ERROR - stderr -  47%|████████████████████████████████████████████████▍                                                      | 981/2088 [2:03:07<2:09:26,  7.02s/it]
+2025-10-06 17:11:38 - ERROR - stderr - 
+2025-10-06 17:11:38 - ERROR - stderr - 
+2025-10-06 17:11:38 - INFO - stdout - {'loss': 1.1079, 'learning_rate': 0.0005730415142812059, 'epoch': 2.82}
+2025-10-06 17:11:38 - ERROR - stderr -  47%|████████████████████████████████████████████████▍                                                      | 981/2088 [2:03:07<2:09:26,  7.02s/it]
+2025-10-06 17:11:46 - ERROR - stderr -  47%|████████████████████████████████████████████████▍                                                      | 982/2088 [2:03:14<2:11:31,  7.14s/it]
+2025-10-06 17:11:46 - ERROR - stderr - 
+2025-10-06 17:11:46 - ERROR - stderr - 
+2025-10-06 17:11:46 - INFO - stdout - {'loss': 1.1055, 'learning_rate': 0.0005722740462707514, 'epoch': 2.82}
+2025-10-06 17:11:46 - ERROR - stderr -  47%|████████████████████████████████████████████████▍                                                      | 982/2088 [2:03:14<2:11:31,  7.14s/it]
+2025-10-06 17:11:53 - ERROR - stderr -  47%|████████████████████████████████████████████████▍                                                      | 983/2088 [2:03:21<2:11:07,  7.12s/it]
+2025-10-06 17:11:53 - ERROR - stderr - 
+2025-10-06 17:11:53 - ERROR - stderr - 
+2025-10-06 17:11:53 - INFO - stdout - {'loss': 1.1439, 'learning_rate': 0.0005715064043072771, 'epoch': 2.82}
+2025-10-06 17:11:53 - ERROR - stderr -  47%|████████████████████████████████████████████████▍                                                      | 983/2088 [2:03:21<2:11:07,  7.12s/it]
+2025-10-06 17:12:00 - ERROR - stderr -  47%|████████████████████████████████████████████████▌                                                      | 984/2088 [2:03:29<2:12:17,  7.19s/it]
+2025-10-06 17:12:00 - ERROR - stderr - 
+2025-10-06 17:12:00 - ERROR - stderr - 
+2025-10-06 17:12:00 - INFO - stdout - {'loss': 1.0889, 'learning_rate': 0.0005707385902383845, 'epoch': 2.83}
+2025-10-06 17:12:00 - ERROR - stderr -  47%|████████████████████████████████████████████████▌                                                      | 984/2088 [2:03:29<2:12:17,  7.19s/it]
+2025-10-06 17:12:08 - ERROR - stderr -  47%|████████████████████████████████████████████████▌                                                      | 985/2088 [2:03:36<2:12:42,  7.22s/it]
+2025-10-06 17:12:08 - ERROR - stderr - 
+2025-10-06 17:12:08 - ERROR - stderr - 
+2025-10-06 17:12:08 - INFO - stdout - {'loss': 1.2103, 'learning_rate': 0.0005699706059120893, 'epoch': 2.83}
+2025-10-06 17:12:08 - ERROR - stderr -  47%|████████████████████████████████████████████████▌                                                      | 985/2088 [2:03:36<2:12:42,  7.22s/it]
+2025-10-06 17:12:14 - ERROR - stderr -  47%|████████████████████████████████████████████████▋                                                      | 986/2088 [2:03:43<2:10:18,  7.09s/it]
+2025-10-06 17:12:14 - ERROR - stderr - 
+2025-10-06 17:12:14 - ERROR - stderr - 
+2025-10-06 17:12:14 - INFO - stdout - {'loss': 1.1752, 'learning_rate': 0.0005692024531768169, 'epoch': 2.83}
+2025-10-06 17:12:14 - ERROR - stderr -  47%|████████████████████████████████████████████████▋                                                      | 986/2088 [2:03:43<2:10:18,  7.09s/it]
+2025-10-06 17:12:21 - ERROR - stderr -  47%|████████████████████████████████████████████████▋                                                      | 987/2088 [2:03:50<2:08:46,  7.02s/it]
+2025-10-06 17:12:21 - ERROR - stderr - 
+2025-10-06 17:12:21 - ERROR - stderr - 
+2025-10-06 17:12:21 - INFO - stdout - {'loss': 1.1571, 'learning_rate': 0.0005684341338813985, 'epoch': 2.84}
+2025-10-06 17:12:21 - ERROR - stderr -  47%|████████████████████████████████████████████████▋                                                      | 987/2088 [2:03:50<2:08:46,  7.02s/it]
+2025-10-06 17:12:29 - ERROR - stderr -  47%|████████████████████████████████████████████████▋                                                      | 988/2088 [2:03:57<2:10:26,  7.11s/it]
+2025-10-06 17:12:29 - ERROR - stderr - 
+2025-10-06 17:12:29 - ERROR - stderr - 
+2025-10-06 17:12:29 - INFO - stdout - {'loss': 1.2765, 'learning_rate': 0.0005676656498750656, 'epoch': 2.84}
+2025-10-06 17:12:29 - ERROR - stderr -  47%|████████████████████████████████████████████████▋                                                      | 988/2088 [2:03:57<2:10:26,  7.11s/it]
+2025-10-06 17:12:36 - ERROR - stderr -  47%|████████████████████████████████████████████████▊                                                      | 989/2088 [2:04:04<2:09:57,  7.10s/it]
+2025-10-06 17:12:36 - ERROR - stderr - 
+2025-10-06 17:12:36 - ERROR - stderr - 
+2025-10-06 17:12:36 - INFO - stdout - {'loss': 1.1133, 'learning_rate': 0.0005668970030074465, 'epoch': 2.84}
+2025-10-06 17:12:36 - ERROR - stderr -  47%|████████████████████████████████████████████████▊                                                      | 989/2088 [2:04:04<2:09:57,  7.10s/it]
+2025-10-06 17:12:43 - ERROR - stderr -  47%|████████████████████████████████████████████████▊                                                      | 990/2088 [2:04:12<2:11:37,  7.19s/it]
+2025-10-06 17:12:43 - ERROR - stderr - 
+2025-10-06 17:12:43 - ERROR - stderr - 
+2025-10-06 17:12:43 - INFO - stdout - {'loss': 1.2127, 'learning_rate': 0.0005661281951285613, 'epoch': 2.84}
+2025-10-06 17:12:43 - ERROR - stderr -  47%|████████████████████████████████████████████████▊                                                      | 990/2088 [2:04:12<2:11:37,  7.19s/it]
+2025-10-06 17:12:50 - ERROR - stderr -  47%|████████████████████████████████████████████████▉                                                      | 991/2088 [2:04:19<2:12:15,  7.23s/it]
+2025-10-06 17:12:50 - ERROR - stderr - 
+2025-10-06 17:12:50 - ERROR - stderr - 
+2025-10-06 17:12:50 - INFO - stdout - {'loss': 1.15, 'learning_rate': 0.0005653592280888177, 'epoch': 2.85}
+2025-10-06 17:12:50 - ERROR - stderr -  47%|████████████████████████████████████████████████▉                                                      | 991/2088 [2:04:19<2:12:15,  7.23s/it]
+2025-10-06 17:12:58 - ERROR - stderr -  48%|████████████████████████████████████████████████▉                                                      | 992/2088 [2:04:26<2:12:55,  7.28s/it]
+2025-10-06 17:12:58 - ERROR - stderr - 
+2025-10-06 17:12:58 - ERROR - stderr - 
+2025-10-06 17:12:58 - INFO - stdout - {'loss': 1.1815, 'learning_rate': 0.0005645901037390067, 'epoch': 2.85}
+2025-10-06 17:12:58 - ERROR - stderr -  48%|████████████████████████████████████████████████▉                                                      | 992/2088 [2:04:26<2:12:55,  7.28s/it]
+2025-10-06 17:13:05 - ERROR - stderr -  48%|████████████████████████████████████████████████▉                                                      | 993/2088 [2:04:33<2:11:39,  7.21s/it]
+2025-10-06 17:13:05 - ERROR - stderr - 
+2025-10-06 17:13:05 - ERROR - stderr - 
+2025-10-06 17:13:05 - INFO - stdout - {'loss': 1.2119, 'learning_rate': 0.0005638208239302974, 'epoch': 2.85}
+2025-10-06 17:13:05 - ERROR - stderr -  48%|████████████████████████████████████████████████▉                                                      | 993/2088 [2:04:33<2:11:39,  7.21s/it]
+2025-10-06 17:13:12 - ERROR - stderr -  48%|██████████████��██████████████████████████████████                                                      | 994/2088 [2:04:40<2:09:12,  7.09s/it]
+2025-10-06 17:13:12 - ERROR - stderr - 
+2025-10-06 17:13:12 - ERROR - stderr - 
+2025-10-06 17:13:12 - INFO - stdout - {'loss': 1.2573, 'learning_rate': 0.0005630513905142333, 'epoch': 2.86}
+2025-10-06 17:13:12 - ERROR - stderr -  48%|█████████████████████████████████████████████████                                                      | 994/2088 [2:04:40<2:09:12,  7.09s/it]
+2025-10-06 17:13:19 - ERROR - stderr -  48%|█████████████████████████████████████████████████                                                      | 995/2088 [2:04:47<2:08:21,  7.05s/it]
+2025-10-06 17:13:19 - ERROR - stderr - 
+2025-10-06 17:13:19 - ERROR - stderr - 
+2025-10-06 17:13:19 - INFO - stdout - {'loss': 1.1782, 'learning_rate': 0.0005622818053427282, 'epoch': 2.86}
+2025-10-06 17:13:19 - ERROR - stderr -  48%|█████████████████████████████████████████████████                                                      | 995/2088 [2:04:47<2:08:21,  7.05s/it]
+2025-10-06 17:13:26 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                     | 996/2088 [2:04:54<2:08:08,  7.04s/it]
+2025-10-06 17:13:26 - ERROR - stderr - 
+2025-10-06 17:13:26 - ERROR - stderr - 
+2025-10-06 17:13:26 - INFO - stdout - {'loss': 1.0716, 'learning_rate': 0.0005615120702680604, 'epoch': 2.86}
+2025-10-06 17:13:26 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                     | 996/2088 [2:04:54<2:08:08,  7.04s/it]
+2025-10-06 17:13:33 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                     | 997/2088 [2:05:01<2:10:04,  7.15s/it]
+2025-10-06 17:13:33 - ERROR - stderr - 
+2025-10-06 17:13:33 - ERROR - stderr - 
+2025-10-06 17:13:33 - INFO - stdout - {'loss': 1.2212, 'learning_rate': 0.000560742187142869, 'epoch': 2.86}
+2025-10-06 17:13:33 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                     | 997/2088 [2:05:01<2:10:04,  7.15s/it]
+2025-10-06 17:13:40 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                     | 998/2088 [2:05:09<2:09:47,  7.14s/it]
+2025-10-06 17:13:40 - ERROR - stderr - 
+2025-10-06 17:13:40 - ERROR - stderr - 
+2025-10-06 17:13:40 - INFO - stdout - {'loss': 1.2399, 'learning_rate': 0.0005599721578201499, 'epoch': 2.87}
+2025-10-06 17:13:40 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                     | 998/2088 [2:05:09<2:09:47,  7.14s/it]
+2025-10-06 17:13:47 - ERROR - stderr -  48%|█████████████████████████████████████████████████▎                                                     | 999/2088 [2:05:16<2:09:38,  7.14s/it]
+2025-10-06 17:13:47 - ERROR - stderr - 
+2025-10-06 17:13:47 - ERROR - stderr - 
+2025-10-06 17:13:47 - INFO - stdout - {'loss': 1.1585, 'learning_rate': 0.0005592019841532506, 'epoch': 2.87}
+2025-10-06 17:13:47 - ERROR - stderr -  48%|█████████████████████████████████████████████████▎                                                     | 999/2088 [2:05:16<2:09:38,  7.14s/it]
+2025-10-06 17:13:54 - ERROR - stderr -  48%|████████████████████████████████████████████████▊                                                     | 1000/2088 [2:05:23<2:10:11,  7.18s/it]
+2025-10-06 17:13:55 - ERROR - stderr - 
+2025-10-06 17:13:55 - ERROR - stderr - 
+2025-10-06 17:13:55 - INFO - stdout - {'loss': 1.1637, 'learning_rate': 0.0005584316679958658, 'epoch': 2.87}
+2025-10-06 17:13:55 - ERROR - stderr -  48%|██████████████████████���█████████████████████████▊                                                     | 1000/2088 [2:05:23<2:10:11,  7.18s/it]
+2025-10-06 17:14:02 - ERROR - stderr -  48%|████████████████████████████████████████████████▉                                                     | 1001/2088 [2:05:30<2:09:36,  7.15s/it]
+2025-10-06 17:14:02 - ERROR - stderr - 
+2025-10-06 17:14:02 - ERROR - stderr - 
+2025-10-06 17:14:02 - INFO - stdout - {'loss': 1.1817, 'learning_rate': 0.0005576612112020338, 'epoch': 2.88}
+2025-10-06 17:14:02 - ERROR - stderr -  48%|████████████████████████████████████████████████▉                                                     | 1001/2088 [2:05:30<2:09:36,  7.15s/it]
+2025-10-06 17:14:09 - ERROR - stderr -  48%|████████████████████████████████████████████████▉                                                     | 1002/2088 [2:05:37<2:09:25,  7.15s/it]
+2025-10-06 17:14:09 - ERROR - stderr - 
+2025-10-06 17:14:09 - ERROR - stderr - 
+2025-10-06 17:14:09 - INFO - stdout - {'loss': 1.1983, 'learning_rate': 0.0005568906156261309, 'epoch': 2.88}
+2025-10-06 17:14:09 - ERROR - stderr -  48%|████████████████████████████████████████████████▉                                                     | 1002/2088 [2:05:37<2:09:25,  7.15s/it]
+2025-10-06 17:14:16 - ERROR - stderr -  48%|████████████████████████████████████████████████▉                                                     | 1003/2088 [2:05:44<2:08:54,  7.13s/it]
+2025-10-06 17:14:16 - ERROR - stderr - 
+2025-10-06 17:14:16 - ERROR - stderr - 
+2025-10-06 17:14:16 - INFO - stdout - {'loss': 1.1674, 'learning_rate': 0.0005561198831228676, 'epoch': 2.88}
+2025-10-06 17:14:16 - ERROR - stderr -  48%|████████████████████████████████████████████████▉                                                     | 1003/2088 [2:05:44<2:08:54,  7.13s/it]
+2025-10-06 17:14:23 - ERROR - stderr -  48%|█████████████████████████████████████████████████                                                     | 1004/2088 [2:05:52<2:11:10,  7.26s/it]
+2025-10-06 17:14:23 - ERROR - stderr - 
+2025-10-06 17:14:23 - ERROR - stderr - 
+2025-10-06 17:14:23 - INFO - stdout - {'loss': 1.1178, 'learning_rate': 0.0005553490155472834, 'epoch': 2.89}
+2025-10-06 17:14:23 - ERROR - stderr -  48%|█████████████████████████████████████████████████                                                     | 1004/2088 [2:05:52<2:11:10,  7.26s/it]
+2025-10-06 17:14:31 - ERROR - stderr -  48%|█████████████████████████████████████████████████                                                     | 1005/2088 [2:05:59<2:10:58,  7.26s/it]
+2025-10-06 17:14:31 - ERROR - stderr - 
+2025-10-06 17:14:31 - ERROR - stderr - 
+2025-10-06 17:14:31 - INFO - stdout - {'loss': 1.151, 'learning_rate': 0.000554578014754744, 'epoch': 2.89}
+2025-10-06 17:14:31 - ERROR - stderr -  48%|█████████████████████████████████████████████████                                                     | 1005/2088 [2:05:59<2:10:58,  7.26s/it]
+2025-10-06 17:14:38 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                    | 1006/2088 [2:06:06<2:09:09,  7.16s/it]
+2025-10-06 17:14:38 - ERROR - stderr - 
+2025-10-06 17:14:38 - ERROR - stderr - 
+2025-10-06 17:14:38 - INFO - stdout - {'loss': 1.173, 'learning_rate': 0.0005538068826009349, 'epoch': 2.89}
+2025-10-06 17:14:38 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                    | 1006/2088 [2:06:06<2:09:09,  7.16s/it]
+2025-10-06 17:14:45 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                    | 1007/2088 [2:06:13<2:09:39,  7.20s/it]
+2025-10-06 17:14:45 - ERROR - stderr - 
+2025-10-06 17:14:45 - ERROR - stderr - 
+2025-10-06 17:14:45 - INFO - stdout - {'loss': 1.1019, 'learning_rate': 0.0005530356209418578, 'epoch': 2.89}
+2025-10-06 17:14:45 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                    | 1007/2088 [2:06:13<2:09:39,  7.20s/it]
+2025-10-06 17:14:52 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                    | 1008/2088 [2:06:21<2:09:37,  7.20s/it]
+2025-10-06 17:14:52 - ERROR - stderr - 
+2025-10-06 17:14:52 - ERROR - stderr - 
+2025-10-06 17:14:52 - INFO - stdout - {'loss': 1.1251, 'learning_rate': 0.0005522642316338268, 'epoch': 2.9}
+2025-10-06 17:14:52 - ERROR - stderr -  48%|█████████████████████████████████████████████████▏                                                    | 1008/2088 [2:06:21<2:09:37,  7.20s/it]
+2025-10-06 17:14:59 - ERROR - stderr -  48%|█████████████████████████████████████████████████▎                                                    | 1009/2088 [2:06:27<2:08:03,  7.12s/it]
+2025-10-06 17:14:59 - ERROR - stderr - 
+2025-10-06 17:14:59 - ERROR - stderr - 
+2025-10-06 17:14:59 - INFO - stdout - {'loss': 1.2816, 'learning_rate': 0.0005514927165334622, 'epoch': 2.9}
+2025-10-06 17:14:59 - ERROR - stderr -  48%|█████████████████████████████████████████████████▎                                                    | 1009/2088 [2:06:28<2:08:03,  7.12s/it]
+2025-10-06 17:15:06 - ERROR - stderr -  48%|█████████████████████████████████████████████████▎                                                    | 1010/2088 [2:06:35<2:07:20,  7.09s/it]
+2025-10-06 17:15:06 - ERROR - stderr - 
+2025-10-06 17:15:06 - ERROR - stderr - 
+2025-10-06 17:15:06 - INFO - stdout - {'loss': 1.2117, 'learning_rate': 0.000550721077497688, 'epoch': 2.9}
+2025-10-06 17:15:06 - ERROR - stderr -  48%|█████████████████████████████████████████████████▎                                                    | 1010/2088 [2:06:35<2:07:20,  7.09s/it]
+2025-10-06 17:15:13 - ERROR - stderr -  48%|█████████████████████████████████████████████████▍                                                    | 1011/2088 [2:06:41<2:06:41,  7.06s/it]
+2025-10-06 17:15:13 - ERROR - stderr - 
+2025-10-06 17:15:13 - ERROR - stderr - 
+2025-10-06 17:15:13 - INFO - stdout - {'loss': 1.1782, 'learning_rate': 0.0005499493163837257, 'epoch': 2.91}
+2025-10-06 17:15:13 - ERROR - stderr -  48%|█████████████████████████████████████████████████▍                                                    | 1011/2088 [2:06:42<2:06:41,  7.06s/it]
+2025-10-06 17:15:21 - ERROR - stderr -  48%|█████████████████████████████████████████████████▍                                                    | 1012/2088 [2:06:49<2:09:01,  7.19s/it]
+2025-10-06 17:15:21 - ERROR - stderr - 
+2025-10-06 17:15:21 - ERROR - stderr - 
+2025-10-06 17:15:21 - INFO - stdout - {'loss': 1.2102, 'learning_rate': 0.0005491774350490912, 'epoch': 2.91}
+2025-10-06 17:15:21 - ERROR - stderr -  48%|█████████████████████████████████████████████████▍                                                    | 1012/2088 [2:06:49<2:09:01,  7.19s/it]
+2025-10-06 17:15:28 - ERROR - stderr -  49%|█████████████████████████████████████████████████▍                                                    | 1013/2088 [2:06:56<2:08:56,  7.20s/it]
+2025-10-06 17:15:28 - ERROR - stderr - 
+2025-10-06 17:15:28 - ERROR - stderr - 
+2025-10-06 17:15:28 - INFO - stdout - {'loss': 1.1782, 'learning_rate': 0.0005484054353515896, 'epoch': 2.91}
+2025-10-06 17:15:28 - ERROR - stderr -  49%|█████████████████████████████████████████████████▍                                                    | 1013/2088 [2:06:56<2:08:56,  7.20s/it]
+2025-10-06 17:15:35 - ERROR - stderr -  49%|█████████████████████████████████████████████████▌                                                    | 1014/2088 [2:07:03<2:08:54,  7.20s/it]
+2025-10-06 17:15:35 - ERROR - stderr - 
+2025-10-06 17:15:35 - ERROR - stderr - 
+2025-10-06 17:15:35 - INFO - stdout - {'loss': 1.1476, 'learning_rate': 0.0005476333191493108, 'epoch': 2.91}
+2025-10-06 17:15:35 - ERROR - stderr -  49%|█████████████████████████████████████████████████▌                                                    | 1014/2088 [2:07:03<2:08:54,  7.20s/it]
+2025-10-06 17:15:42 - ERROR - stderr -  49%|█████████████████████████████████████████████████▌                                                    | 1015/2088 [2:07:10<2:08:02,  7.16s/it]
+2025-10-06 17:15:42 - ERROR - stderr - 
+2025-10-06 17:15:42 - ERROR - stderr - 
+2025-10-06 17:15:42 - INFO - stdout - {'loss': 1.1584, 'learning_rate': 0.0005468610883006252, 'epoch': 2.92}
+2025-10-06 17:15:42 - ERROR - stderr -  49%|█████████████████████████████████████████████████▌                                                    | 1015/2088 [2:07:10<2:08:02,  7.16s/it]
+2025-10-06 17:15:49 - ERROR - stderr -  49%|█████████████████████████████████████████████████▋                                                    | 1016/2088 [2:07:17<2:06:21,  7.07s/it]
+2025-10-06 17:15:49 - ERROR - stderr - 
+2025-10-06 17:15:49 - ERROR - stderr - 
+2025-10-06 17:15:49 - INFO - stdout - {'loss': 1.1905, 'learning_rate': 0.000546088744664179, 'epoch': 2.92}
+2025-10-06 17:15:49 - ERROR - stderr -  49%|█████████████████████████████████████████████████▋                                                    | 1016/2088 [2:07:17<2:06:21,  7.07s/it]
+2025-10-06 17:15:56 - ERROR - stderr -  49%|█████████████████████████████████████████████████▋                                                    | 1017/2088 [2:07:24<2:04:54,  7.00s/it]
+2025-10-06 17:15:56 - ERROR - stderr - 
+2025-10-06 17:15:56 - ERROR - stderr - 
+2025-10-06 17:15:56 - INFO - stdout - {'loss': 1.2215, 'learning_rate': 0.0005453162900988901, 'epoch': 2.92}
+2025-10-06 17:15:56 - ERROR - stderr -  49%|█████████████████████████████████████████████████▋                                                    | 1017/2088 [2:07:24<2:04:54,  7.00s/it]
+2025-10-06 17:16:03 - ERROR - stderr -  49%|█████████████████████████████████████████████████▋                                                    | 1018/2088 [2:07:32<2:06:59,  7.12s/it]
+2025-10-06 17:16:03 - ERROR - stderr - 
+2025-10-06 17:16:03 - ERROR - stderr - 
+2025-10-06 17:16:03 - INFO - stdout - {'loss': 1.1278, 'learning_rate': 0.0005445437264639432, 'epoch': 2.93}
+2025-10-06 17:16:03 - ERROR - stderr -  49%|█████████████████████████████████████████████████▋                                                    | 1018/2088 [2:07:32<2:06:59,  7.12s/it]
+2025-10-06 17:16:10 - ERROR - stderr -  49%|█████████████████████████████████████████████████▊                                                    | 1019/2088 [2:07:39<2:06:23,  7.09s/it]
+2025-10-06 17:16:10 - ERROR - stderr - 
+2025-10-06 17:16:10 - ERROR - stderr - 
+2025-10-06 17:16:10 - INFO - stdout - {'loss': 1.1409, 'learning_rate': 0.0005437710556187854, 'epoch': 2.93}
+2025-10-06 17:16:10 - ERROR - stderr -  49%|█████████████████████████████████████████████████▊                                                    | 1019/2088 [2:07:39<2:06:23,  7.09s/it]
+2025-10-06 17:16:17 - ERROR - stderr -  49%|█████████████████████████████████████████████████▊                                                    | 1020/2088 [2:07:46<2:06:35,  7.11s/it]
+2025-10-06 17:16:17 - ERROR - stderr - 
+2025-10-06 17:16:17 - ERROR - stderr - 
+2025-10-06 17:16:17 - INFO - stdout - {'loss': 1.1426, 'learning_rate': 0.0005429982794231221, 'epoch': 2.93}
+2025-10-06 17:16:17 - ERROR - stderr -  49%|████████████���████████████████████████████████████▊                                                    | 1020/2088 [2:07:46<2:06:35,  7.11s/it]
+2025-10-06 17:16:24 - ERROR - stderr -  49%|█████████████████████████████████████████████████▉                                                    | 1021/2088 [2:07:53<2:05:54,  7.08s/it]
+2025-10-06 17:16:24 - ERROR - stderr - 
+2025-10-06 17:16:24 - ERROR - stderr - 
+2025-10-06 17:16:24 - INFO - stdout - {'loss': 1.218, 'learning_rate': 0.0005422253997369123, 'epoch': 2.93}
+2025-10-06 17:16:24 - ERROR - stderr -  49%|█████████████████████████████████████████████████▉                                                    | 1021/2088 [2:07:53<2:05:54,  7.08s/it]
+2025-10-06 17:16:31 - ERROR - stderr -  49%|█████████████████████████████████████████████████▉                                                    | 1022/2088 [2:08:00<2:05:30,  7.06s/it]
+2025-10-06 17:16:31 - ERROR - stderr - 
+2025-10-06 17:16:31 - ERROR - stderr - 
+2025-10-06 17:16:31 - INFO - stdout - {'loss': 1.1697, 'learning_rate': 0.0005414524184203638, 'epoch': 2.94}
+2025-10-06 17:16:31 - ERROR - stderr -  49%|█████████████████████████████████████████████████▉                                                    | 1022/2088 [2:08:00<2:05:30,  7.06s/it]
+2025-10-06 17:16:39 - ERROR - stderr -  49%|█████████████████████████████████████████████████▉                                                    | 1023/2088 [2:08:07<2:06:11,  7.11s/it]
+2025-10-06 17:16:39 - ERROR - stderr - 
+2025-10-06 17:16:39 - ERROR - stderr - 
+2025-10-06 17:16:39 - INFO - stdout - {'loss': 1.1493, 'learning_rate': 0.0005406793373339292, 'epoch': 2.94}
+2025-10-06 17:16:39 - ERROR - stderr -  49%|█████████████████████████████████████████████████▉                                                    | 1023/2088 [2:08:07<2:06:11,  7.11s/it]
+2025-10-06 17:16:46 - ERROR - stderr -  49%|██████████████████████████████████████████████████                                                    | 1024/2088 [2:08:14<2:07:06,  7.17s/it]
+2025-10-06 17:16:46 - ERROR - stderr - 
+2025-10-06 17:16:46 - ERROR - stderr - 
+2025-10-06 17:16:46 - INFO - stdout - {'loss': 1.1395, 'learning_rate': 0.0005399061583383013, 'epoch': 2.94}
+2025-10-06 17:16:46 - ERROR - stderr -  49%|██████████████████████████████████████████████████                                                    | 1024/2088 [2:08:14<2:07:06,  7.17s/it]
+2025-10-06 17:16:53 - ERROR - stderr -  49%|██████████████████████████████████████████████████                                                    | 1025/2088 [2:08:21<2:06:56,  7.17s/it]
+2025-10-06 17:16:53 - ERROR - stderr - 
+2025-10-06 17:16:53 - ERROR - stderr - 
+2025-10-06 17:16:53 - INFO - stdout - {'loss': 1.2382, 'learning_rate': 0.000539132883294408, 'epoch': 2.95}
+2025-10-06 17:16:53 - ERROR - stderr -  49%|██████████████████████████████████████████████████                                                    | 1025/2088 [2:08:21<2:06:56,  7.17s/it]
+2025-10-06 17:17:01 - ERROR - stderr -  49%|██████████████████████████████████████████████████                                                    | 1026/2088 [2:08:29<2:08:57,  7.29s/it]
+2025-10-06 17:17:01 - ERROR - stderr - 
+2025-10-06 17:17:01 - ERROR - stderr - 
+2025-10-06 17:17:01 - INFO - stdout - {'loss': 1.1458, 'learning_rate': 0.0005383595140634093, 'epoch': 2.95}
+2025-10-06 17:17:01 - ERROR - stderr -  49%|██████████████████████████████████████████████████                                                    | 1026/2088 [2:08:29<2:08:57,  7.29s/it]
+2025-10-06 17:17:08 - ERROR - stderr -  49%|██████████████████████████████████████████████████▏                                                   | 1027/2088 [2:08:36<2:07:51,  7.23s/it]
+2025-10-06 17:17:08 - ERROR - stderr - 
+2025-10-06 17:17:08 - ERROR - stderr - 
+2025-10-06 17:17:08 - INFO - stdout - {'loss': 1.1779, 'learning_rate': 0.0005375860525066912, 'epoch': 2.95}
+2025-10-06 17:17:08 - ERROR - stderr -  49%|██████████████████████████████████████████████████▏                                                   | 1027/2088 [2:08:36<2:07:51,  7.23s/it]
+2025-10-06 17:17:15 - ERROR - stderr -  49%|██████████████████████████████████████████████████▏                                                   | 1028/2088 [2:08:43<2:06:20,  7.15s/it]
+2025-10-06 17:17:15 - ERROR - stderr - 
+2025-10-06 17:17:15 - ERROR - stderr - 
+2025-10-06 17:17:15 - INFO - stdout - {'loss': 1.1446, 'learning_rate': 0.0005368125004858624, 'epoch': 2.95}
+2025-10-06 17:17:15 - ERROR - stderr -  49%|██████████████████████████████████████████████████▏                                                   | 1028/2088 [2:08:43<2:06:20,  7.15s/it]
+2025-10-06 17:17:22 - ERROR - stderr -  49%|██████████████████████████████████████████████████▎                                                   | 1029/2088 [2:08:50<2:05:21,  7.10s/it]
+2025-10-06 17:17:22 - ERROR - stderr - 
+2025-10-06 17:17:22 - ERROR - stderr - 
+2025-10-06 17:17:22 - INFO - stdout - {'loss': 1.2227, 'learning_rate': 0.0005360388598627487, 'epoch': 2.96}
+2025-10-06 17:17:22 - ERROR - stderr -  49%|██████████████████████████████████████████████████▎                                                   | 1029/2088 [2:08:50<2:05:21,  7.10s/it]
+2025-10-06 17:17:28 - ERROR - stderr -  49%|██████████████████████████████████████████████████▎                                                   | 1030/2088 [2:08:57<2:03:19,  6.99s/it]
+2025-10-06 17:17:28 - ERROR - stderr - 
+2025-10-06 17:17:28 - ERROR - stderr - 
+2025-10-06 17:17:28 - INFO - stdout - {'loss': 1.1725, 'learning_rate': 0.0005352651324993897, 'epoch': 2.96}
+2025-10-06 17:17:28 - ERROR - stderr -  49%|██████████████████████████████████████████████████▎                                                   | 1030/2088 [2:08:57<2:03:19,  6.99s/it]
+2025-10-06 17:17:35 - ERROR - stderr -  49%|██████████████████████████████████████████████████▎                                                   | 1031/2088 [2:09:04<2:03:48,  7.03s/it]
+2025-10-06 17:17:35 - ERROR - stderr - 
+2025-10-06 17:17:35 - ERROR - stderr - 
+2025-10-06 17:17:35 - INFO - stdout - {'loss': 1.1976, 'learning_rate': 0.0005344913202580335, 'epoch': 2.96}
+2025-10-06 17:17:35 - ERROR - stderr -  49%|██████████████████████████████████████████████████▎                                                   | 1031/2088 [2:09:04<2:03:48,  7.03s/it]
+2025-10-06 17:17:43 - ERROR - stderr -  49%|██████████████████████████████████████████████████▍                                                   | 1032/2088 [2:09:11<2:04:29,  7.07s/it]
+2025-10-06 17:17:43 - ERROR - stderr - 
+2025-10-06 17:17:43 - ERROR - stderr - 
+2025-10-06 17:17:43 - INFO - stdout - {'loss': 1.0558, 'learning_rate': 0.0005337174250011327, 'epoch': 2.97}
+2025-10-06 17:17:43 - ERROR - stderr -  49%|██████████████████████████████████████████████████▍                                                   | 1032/2088 [2:09:11<2:04:29,  7.07s/it]
+2025-10-06 17:17:50 - ERROR - stderr -  49%|██████████████████████████████████████████████████▍                                                   | 1033/2088 [2:09:18<2:04:07,  7.06s/it]
+2025-10-06 17:17:50 - ERROR - stderr - 
+2025-10-06 17:17:50 - ERROR - stderr - 
+2025-10-06 17:17:50 - INFO - stdout - {'loss': 1.1104, 'learning_rate': 0.0005329434485913392, 'epoch': 2.97}
+2025-10-06 17:17:50 - ERROR - stderr -  49%|██████████████████████████████████████████████████▍                                                   | 1033/2088 [2:09:18<2:04:07,  7.06s/it]
+2025-10-06 17:17:57 - ERROR - stderr -  50%|██████████████████████████████████████████████████▌                                                   | 1034/2088 [2:09:25<2:04:15,  7.07s/it]
+2025-10-06 17:17:57 - ERROR - stderr - 
+2025-10-06 17:17:57 - ERROR - stderr - 
+2025-10-06 17:17:57 - INFO - stdout - {'loss': 1.1424, 'learning_rate': 0.0005321693928915011, 'epoch': 2.97}
+2025-10-06 17:17:57 - ERROR - stderr -  50%|██████████████████████████████████████████████████▌                                                   | 1034/2088 [2:09:25<2:04:15,  7.07s/it]
+2025-10-06 17:18:04 - ERROR - stderr -  50%|██████████████████████████████████████████████████▌                                                   | 1035/2088 [2:09:32<2:03:35,  7.04s/it]
+2025-10-06 17:18:04 - ERROR - stderr - 
+2025-10-06 17:18:04 - ERROR - stderr - 
+2025-10-06 17:18:04 - INFO - stdout - {'loss': 1.2022, 'learning_rate': 0.0005313952597646568, 'epoch': 2.97}
+2025-10-06 17:18:04 - ERROR - stderr -  50%|██████████████████████████████████████████████████▌                                                   | 1035/2088 [2:09:32<2:03:35,  7.04s/it]
+2025-10-06 17:18:11 - ERROR - stderr -  50%|██████████████████████████████████████████████████▌                                                   | 1036/2088 [2:09:39<2:03:13,  7.03s/it]
+2025-10-06 17:18:11 - ERROR - stderr - 
+2025-10-06 17:18:11 - ERROR - stderr - 
+2025-10-06 17:18:11 - INFO - stdout - {'loss': 1.2174, 'learning_rate': 0.0005306210510740306, 'epoch': 2.98}
+2025-10-06 17:18:11 - ERROR - stderr -  50%|██████████████████████████████████████████████████▌                                                   | 1036/2088 [2:09:39<2:03:13,  7.03s/it]
+2025-10-06 17:18:18 - ERROR - stderr -  50%|██████████████████████████████████████████████████▋                                                   | 1037/2088 [2:09:46<2:03:40,  7.06s/it]
+2025-10-06 17:18:18 - ERROR - stderr - 
+2025-10-06 17:18:18 - ERROR - stderr - 
+2025-10-06 17:18:18 - INFO - stdout - {'loss': 1.2138, 'learning_rate': 0.0005298467686830297, 'epoch': 2.98}
+2025-10-06 17:18:18 - ERROR - stderr -  50%|██████████████████████████████████████████████████▋                                                   | 1037/2088 [2:09:46<2:03:40,  7.06s/it]
+2025-10-06 17:18:25 - ERROR - stderr -  50%|██████████████████████████████████████████████████▋                                                   | 1038/2088 [2:09:54<2:05:16,  7.16s/it]
+2025-10-06 17:18:25 - ERROR - stderr - 
+2025-10-06 17:18:25 - ERROR - stderr - 
+2025-10-06 17:18:25 - INFO - stdout - {'loss': 1.1793, 'learning_rate': 0.0005290724144552379, 'epoch': 2.98}
+2025-10-06 17:18:25 - ERROR - stderr -  50%|██████████████████████████████████████████████████▋                                                   | 1038/2088 [2:09:54<2:05:16,  7.16s/it]
+2025-10-06 17:18:32 - ERROR - stderr -  50%|██████████████████████████████████████████████████▊                                                   | 1039/2088 [2:10:01<2:03:48,  7.08s/it]
+2025-10-06 17:18:32 - ERROR - stderr - 
+2025-10-06 17:18:32 - ERROR - stderr - 
+2025-10-06 17:18:32 - INFO - stdout - {'loss': 1.1718, 'learning_rate': 0.0005282979902544123, 'epoch': 2.99}
+2025-10-06 17:18:32 - ERROR - stderr -  50%|██████████████████████████████████████████████████▊                                                   | 1039/2088 [2:10:01<2:03:48,  7.08s/it]
+2025-10-06 17:18:39 - ERROR - stderr -  50%|██████████████████████████████████████████████████▊                                                   | 1040/2088 [2:10:07<2:02:21,  7.01s/it]
+2025-10-06 17:18:39 - ERROR - stderr - 
+2025-10-06 17:18:39 - ERROR - stderr - 
+2025-10-06 17:18:39 - INFO - stdout - {'loss': 1.1515, 'learning_rate': 0.0005275234979444781, 'epoch': 2.99}
+2025-10-06 17:18:39 - ERROR - stderr -  50%|██████████████████████████████████████████████████▊                                                   | 1040/2088 [2:10:07<2:02:21,  7.01s/it]
+2025-10-06 17:18:46 - ERROR - stderr -  50%|██████████████████████████████████████████████████▊                                                   | 1041/2088 [2:10:15<2:03:20,  7.07s/it]
+2025-10-06 17:18:46 - ERROR - stderr - 
+2025-10-06 17:18:46 - ERROR - stderr - 
+2025-10-06 17:18:46 - INFO - stdout - {'loss': 1.1323, 'learning_rate': 0.0005267489393895247, 'epoch': 2.99}
+2025-10-06 17:18:46 - ERROR - stderr -  50%|██████████████████████████████████████████████████▊                                                   | 1041/2088 [2:10:15<2:03:20,  7.07s/it]
+2025-10-06 17:18:53 - ERROR - stderr -  50%|██████████████████████████████████████████████████▉                                                   | 1042/2088 [2:10:22<2:04:13,  7.13s/it]
+2025-10-06 17:18:53 - ERROR - stderr - 
+2025-10-06 17:18:53 - ERROR - stderr - 
+2025-10-06 17:18:53 - INFO - stdout - {'loss': 1.1724, 'learning_rate': 0.0005259743164538008, 'epoch': 2.99}
+2025-10-06 17:18:53 - ERROR - stderr -  50%|██████████████████████████████████████████████████▉                                                   | 1042/2088 [2:10:22<2:04:13,  7.13s/it]
+2025-10-06 17:19:01 - ERROR - stderr -  50%|██████████████████████████████████████████████████▉                                                   | 1043/2088 [2:10:29<2:05:13,  7.19s/it]
+2025-10-06 17:19:01 - ERROR - stderr - 
+2025-10-06 17:19:01 - ERROR - stderr - 
+2025-10-06 17:19:01 - INFO - stdout - {'loss': 1.1684, 'learning_rate': 0.00052519963100171, 'epoch': 3.0}
+2025-10-06 17:19:01 - ERROR - stderr -  50%|██████████████████████████████████████████████████▉                                                   | 1043/2088 [2:10:29<2:05:13,  7.19s/it]
+2025-10-06 17:19:05 - ERROR - stderr -  50%|███████████████████████████████████████████████████                                                   | 1044/2088 [2:10:33<1:48:21,  6.23s/it]
+2025-10-06 17:19:05 - ERROR - stderr - 
+2025-10-06 17:19:05 - ERROR - stderr - 
+2025-10-06 17:19:05 - INFO - stdout - {'loss': 1.1773, 'learning_rate': 0.0005244248848978067, 'epoch': 3.0}
+2025-10-06 17:19:05 - ERROR - stderr -  50%|███████████████████████████████████████████████████                                                   | 1044/2088 [2:10:33<1:48:21,  6.23s/it]
+2025-10-06 17:19:12 - ERROR - stderr -  50%|███████████████████████████████████████████████████                                                   | 1045/2088 [2:10:40<1:52:09,  6.45s/it]
+2025-10-06 17:19:12 - ERROR - stderr - 
+2025-10-06 17:19:12 - ERROR - stderr - 
+2025-10-06 17:19:12 - INFO - stdout - {'loss': 1.0887, 'learning_rate': 0.0005236500800067908, 'epoch': 3.0}
+2025-10-06 17:19:12 - ERROR - stderr -  50%|███████████████████████████████████████████████████                                                   | 1045/2088 [2:10:40<1:52:09,  6.45s/it]
+2025-10-06 17:19:19 - ERROR - stderr -  50%|███████████████████████████████████████████████████                                                   | 1046/2088 [2:10:48<1:56:50,  6.73s/it]
+2025-10-06 17:19:19 - ERROR - stderr - 
+2025-10-06 17:19:19 - ERROR - stderr - 
+2025-10-06 17:19:19 - INFO - stdout - {'loss': 1.0698, 'learning_rate': 0.0005228752181935042, 'epoch': 3.01}
+2025-10-06 17:19:19 - ERROR - stderr -  50%|███████████████████████████████████████████████████                                                   | 1046/2088 [2:10:48<1:56:50,  6.73s/it]
+2025-10-06 17:19:26 - ERROR - stderr -  50%|████████████████████████████████████���██████████████▏                                                  | 1047/2088 [2:10:55<1:59:15,  6.87s/it]
+2025-10-06 17:19:26 - ERROR - stderr - 
+2025-10-06 17:19:26 - ERROR - stderr - 
+2025-10-06 17:19:26 - INFO - stdout - {'loss': 1.0683, 'learning_rate': 0.0005221003013229253, 'epoch': 3.01}
+2025-10-06 17:19:26 - ERROR - stderr -  50%|███████████████████████████████████████████████████▏                                                  | 1047/2088 [2:10:55<1:59:15,  6.87s/it]
+2025-10-06 17:19:34 - ERROR - stderr -  50%|███████████████████████████████████████████████████▏                                                  | 1048/2088 [2:11:02<2:00:50,  6.97s/it]
+2025-10-06 17:19:34 - ERROR - stderr - 
+2025-10-06 17:19:34 - ERROR - stderr - 
+2025-10-06 17:19:34 - INFO - stdout - {'loss': 1.1105, 'learning_rate': 0.0005213253312601653, 'epoch': 3.01}
+2025-10-06 17:19:34 - ERROR - stderr -  50%|███████████████████████████████████████████████████▏                                                  | 1048/2088 [2:11:02<2:00:50,  6.97s/it]
+2025-10-06 17:19:41 - ERROR - stderr -  50%|███████████████████████████████████████████████████▏                                                  | 1049/2088 [2:11:09<2:01:01,  6.99s/it]
+2025-10-06 17:19:41 - ERROR - stderr - 
+2025-10-06 17:19:41 - ERROR - stderr - 
+2025-10-06 17:19:41 - INFO - stdout - {'loss': 1.1323, 'learning_rate': 0.0005205503098704635, 'epoch': 3.01}
+2025-10-06 17:19:41 - ERROR - stderr -  50%|███████████████████████████████████████████████████▏                                                  | 1049/2088 [2:11:09<2:01:01,  6.99s/it]
+2025-10-06 17:19:48 - ERROR - stderr -  50%|███████████████████████████████████████████████████▎                                                  | 1050/2088 [2:11:16<2:01:15,  7.01s/it]
+2025-10-06 17:19:48 - ERROR - stderr - 
+2025-10-06 17:19:48 - ERROR - stderr - 
+2025-10-06 17:19:48 - INFO - stdout - {'loss': 1.1165, 'learning_rate': 0.0005197752390191827, 'epoch': 3.02}
+2025-10-06 17:19:48 - ERROR - stderr -  50%|███████████████████████████████████████████████████▎                                                  | 1050/2088 [2:11:16<2:01:15,  7.01s/it]
+2025-10-06 17:19:55 - ERROR - stderr -  50%|███████████████████████████████████████████████████▎                                                  | 1051/2088 [2:11:24<2:04:03,  7.18s/it]
+2025-10-06 17:19:55 - ERROR - stderr - 
+2025-10-06 17:19:55 - ERROR - stderr - 
+2025-10-06 17:19:55 - INFO - stdout - {'loss': 1.0818, 'learning_rate': 0.0005190001205718041, 'epoch': 3.02}
+2025-10-06 17:19:55 - ERROR - stderr -  50%|███████████████████████████████████████████████████▎                                                  | 1051/2088 [2:11:24<2:04:03,  7.18s/it]
+2025-10-06 17:20:03 - ERROR - stderr -  50%|███████████████████████████████████████████████████▍                                                  | 1052/2088 [2:11:31<2:04:57,  7.24s/it]
+2025-10-06 17:20:03 - ERROR - stderr - 
+2025-10-06 17:20:03 - ERROR - stderr - 
+2025-10-06 17:20:03 - INFO - stdout - {'loss': 1.1274, 'learning_rate': 0.0005182249563939246, 'epoch': 3.02}
+2025-10-06 17:20:03 - ERROR - stderr -  50%|███████████████████████████████████████████████████▍                                                  | 1052/2088 [2:11:31<2:04:57,  7.24s/it]
+2025-10-06 17:20:09 - ERROR - stderr -  50%|███████████████████████████████████████████████████▍                                                  | 1053/2088 [2:11:38<2:03:12,  7.14s/it]
+2025-10-06 17:20:10 - ERROR - stderr - 
+2025-10-06 17:20:10 - ERROR - stderr - 
+2025-10-06 17:20:10 - INFO - stdout - {'loss': 1.1528, 'learning_rate': 0.0005174497483512506, 'epoch': 3.03}
+2025-10-06 17:20:10 - ERROR - stderr -  50%|███████████████████████████████████████████████████▍                                                  | 1053/2088 [2:11:38<2:03:12,  7.14s/it]
+2025-10-06 17:20:16 - ERROR - stderr -  50%|███████████████████████████████████████████████████▍                                                  | 1054/2088 [2:11:45<2:02:01,  7.08s/it]
+2025-10-06 17:20:16 - ERROR - stderr - 
+2025-10-06 17:20:16 - ERROR - stderr - 
+2025-10-06 17:20:16 - INFO - stdout - {'loss': 1.1359, 'learning_rate': 0.0005166744983095936, 'epoch': 3.03}
+2025-10-06 17:20:16 - ERROR - stderr -  50%|███████████████████████████████████████████████████▍                                                  | 1054/2088 [2:11:45<2:02:01,  7.08s/it]
+2025-10-06 17:20:24 - ERROR - stderr -  51%|███████████████████████████████████████████████████▌                                                  | 1055/2088 [2:11:52<2:02:21,  7.11s/it]
+2025-10-06 17:20:24 - ERROR - stderr - 
+2025-10-06 17:20:24 - ERROR - stderr - 
+2025-10-06 17:20:24 - INFO - stdout - {'loss': 1.1533, 'learning_rate': 0.000515899208134867, 'epoch': 3.03}
+2025-10-06 17:20:24 - ERROR - stderr -  51%|███████████████████████████████████████████████████▌                                                  | 1055/2088 [2:11:52<2:02:21,  7.11s/it]
+2025-10-06 17:20:31 - ERROR - stderr -  51%|███████████████████████████████████████████████████▌                                                  | 1056/2088 [2:11:59<2:02:07,  7.10s/it]
+2025-10-06 17:20:31 - ERROR - stderr - 
+2025-10-06 17:20:31 - ERROR - stderr - 
+2025-10-06 17:20:31 - INFO - stdout - {'loss': 1.1139, 'learning_rate': 0.0005151238796930804, 'epoch': 3.03}
+2025-10-06 17:20:31 - ERROR - stderr -  51%|███████████████████████████████████████████████████▌                                                  | 1056/2088 [2:11:59<2:02:07,  7.10s/it]
+2025-10-06 17:20:38 - ERROR - stderr -  51%|███████████████████████████████████████████████████▋                                                  | 1057/2088 [2:12:06<2:01:40,  7.08s/it]
+2025-10-06 17:20:38 - ERROR - stderr - 
+2025-10-06 17:20:38 - ERROR - stderr - 
+2025-10-06 17:20:38 - INFO - stdout - {'loss': 1.076, 'learning_rate': 0.0005143485148503354, 'epoch': 3.04}
+2025-10-06 17:20:38 - ERROR - stderr -  51%|███████████████████████████████████████████████████▋                                                  | 1057/2088 [2:12:06<2:01:40,  7.08s/it]
+2025-10-06 17:20:45 - ERROR - stderr -  51%|███████████████████████████████████████████████████▋                                                  | 1058/2088 [2:12:13<2:02:30,  7.14s/it]
+2025-10-06 17:20:45 - ERROR - stderr - 
+2025-10-06 17:20:45 - ERROR - stderr - 
+2025-10-06 17:20:45 - INFO - stdout - {'loss': 1.0574, 'learning_rate': 0.0005135731154728214, 'epoch': 3.04}
+2025-10-06 17:20:45 - ERROR - stderr -  51%|███████████████████████████████████████████████████▋                                                  | 1058/2088 [2:12:14<2:02:30,  7.14s/it]
+2025-10-06 17:20:52 - ERROR - stderr -  51%|███████████████████████████████████████████████████▋                                                  | 1059/2088 [2:12:21<2:02:53,  7.17s/it]
+2025-10-06 17:20:52 - ERROR - stderr - 
+2025-10-06 17:20:52 - ERROR - stderr - 
+2025-10-06 17:20:52 - INFO - stdout - {'loss': 1.0484, 'learning_rate': 0.0005127976834268111, 'epoch': 3.04}
+2025-10-06 17:20:52 - ERROR - stderr -  51%|███████████████████████████████████████████████████▋                                                  | 1059/2088 [2:12:21<2:02:53,  7.17s/it]
+2025-10-06 17:20:59 - ERROR - stderr -  51%|███████████████████████████████████████████████████▊                                                  | 1060/2088 [2:12:28<2:01:50,  7.11s/it]
+2025-10-06 17:20:59 - ERROR - stderr - 
+2025-10-06 17:20:59 - ERROR - stderr - 
+2025-10-06 17:20:59 - INFO - stdout - {'loss': 1.0885, 'learning_rate': 0.0005120222205786556, 'epoch': 3.05}
+2025-10-06 17:20:59 - ERROR - stderr -  51%|███████████████████████████████████████████████████▊                                                  | 1060/2088 [2:12:28<2:01:50,  7.11s/it]
+2025-10-06 17:21:06 - ERROR - stderr -  51%|███████████████████████████████████████████████████▊                                                  | 1061/2088 [2:12:35<2:02:34,  7.16s/it]
+2025-10-06 17:21:06 - ERROR - stderr - 
+2025-10-06 17:21:06 - ERROR - stderr - 
+2025-10-06 17:21:06 - INFO - stdout - {'loss': 1.1351, 'learning_rate': 0.0005112467287947797, 'epoch': 3.05}
+2025-10-06 17:21:06 - ERROR - stderr -  51%|███████████████████████████████████████████████████▊                                                  | 1061/2088 [2:12:35<2:02:34,  7.16s/it]
+2025-10-06 17:21:13 - ERROR - stderr -  51%|███████████████████████████████████████████████████▉                                                  | 1062/2088 [2:12:42<2:01:40,  7.12s/it]
+2025-10-06 17:21:14 - ERROR - stderr - 
+2025-10-06 17:21:14 - ERROR - stderr - 
+2025-10-06 17:21:14 - INFO - stdout - {'loss': 1.0984, 'learning_rate': 0.0005104712099416785, 'epoch': 3.05}
+2025-10-06 17:21:14 - ERROR - stderr -  51%|███████████████████████████████████████████████████▉                                                  | 1062/2088 [2:12:42<2:01:40,  7.12s/it]
+2025-10-06 17:21:21 - ERROR - stderr -  51%|███████████████████████████████████████████████████▉                                                  | 1063/2088 [2:12:49<2:02:24,  7.16s/it]
+2025-10-06 17:21:21 - ERROR - stderr - 
+2025-10-06 17:21:21 - ERROR - stderr - 
+2025-10-06 17:21:21 - INFO - stdout - {'loss': 1.0416, 'learning_rate': 0.0005096956658859122, 'epoch': 3.05}
+2025-10-06 17:21:21 - ERROR - stderr -  51%|███████████████████████████████████████████████████▉                                                  | 1063/2088 [2:12:49<2:02:24,  7.16s/it]
+2025-10-06 17:21:28 - ERROR - stderr -  51%|███████████████████████████████████████████████████▉                                                  | 1064/2088 [2:12:56<2:01:02,  7.09s/it]
+2025-10-06 17:21:28 - ERROR - stderr - 
+2025-10-06 17:21:28 - ERROR - stderr - 
+2025-10-06 17:21:28 - INFO - stdout - {'loss': 1.0229, 'learning_rate': 0.0005089200984941014, 'epoch': 3.06}
+2025-10-06 17:21:28 - ERROR - stderr -  51%|███████████████████████████████████████████████████▉                                                  | 1064/2088 [2:12:56<2:01:02,  7.09s/it]
+2025-10-06 17:21:35 - ERROR - stderr -  51%|████████████████████████████████████████████████████                                                  | 1065/2088 [2:13:04<2:02:01,  7.16s/it]
+2025-10-06 17:21:35 - ERROR - stderr - 
+2025-10-06 17:21:35 - ERROR - stderr - 
+2025-10-06 17:21:35 - INFO - stdout - {'loss': 1.1459, 'learning_rate': 0.0005081445096329229, 'epoch': 3.06}
+2025-10-06 17:21:35 - ERROR - stderr -  51%|████████████████████████████████████████████████████                                                  | 1065/2088 [2:13:04<2:02:01,  7.16s/it]
+2025-10-06 17:21:42 - ERROR - stderr -  51%|████████████████████████████████████████████████████                                                  | 1066/2088 [2:13:10<2:00:33,  7.08s/it]
+2025-10-06 17:21:42 - ERROR - stderr - 
+2025-10-06 17:21:42 - ERROR - stderr - 
+2025-10-06 17:21:42 - INFO - stdout - {'loss': 1.0758, 'learning_rate': 0.0005073689011691054, 'epoch': 3.06}
+2025-10-06 17:21:42 - ERROR - stderr -  51%|████████████████████████████████████████████████████                                                  | 1066/2088 [2:13:10<2:00:33,  7.08s/it]
+2025-10-06 17:21:49 - ERROR - stderr -  51%|████████████████████████████████████████████████████                                                  | 1067/2088 [2:13:17<1:59:15,  7.01s/it]
+2025-10-06 17:21:49 - ERROR - stderr - 
+2025-10-06 17:21:49 - ERROR - stderr - 
+2025-10-06 17:21:49 - INFO - stdout - {'loss': 1.138, 'learning_rate': 0.0005065932749694246, 'epoch': 3.07}
+2025-10-06 17:21:49 - ERROR - stderr -  51%|████████████████████████████████████████████████████                                                  | 1067/2088 [2:13:17<1:59:15,  7.01s/it]
+2025-10-06 17:21:56 - ERROR - stderr -  51%|████████████████████████████████████████████████████▏                                                 | 1068/2088 [2:13:24<2:00:09,  7.07s/it]
+2025-10-06 17:21:56 - ERROR - stderr - 
+2025-10-06 17:21:56 - ERROR - stderr - 
+2025-10-06 17:21:56 - INFO - stdout - {'loss': 1.1594, 'learning_rate': 0.0005058176329006986, 'epoch': 3.07}
+2025-10-06 17:21:56 - ERROR - stderr -  51%|████████████████████████████████████████████████████▏                                                 | 1068/2088 [2:13:24<2:00:09,  7.07s/it]
+2025-10-06 17:22:03 - ERROR - stderr -  51%|████████████████████████████████████████████████████▏                                                 | 1069/2088 [2:13:31<1:59:40,  7.05s/it]
+2025-10-06 17:22:03 - ERROR - stderr - 
+2025-10-06 17:22:03 - ERROR - stderr - 
+2025-10-06 17:22:03 - INFO - stdout - {'loss': 1.1017, 'learning_rate': 0.0005050419768297843, 'epoch': 3.07}
+2025-10-06 17:22:03 - ERROR - stderr -  51%|████████████████████████████████████████████████████▏                                                 | 1069/2088 [2:13:31<1:59:40,  7.05s/it]
+2025-10-06 17:22:10 - ERROR - stderr -  51%|████████████████████████████████████████████████████▎                                                 | 1070/2088 [2:13:39<1:59:50,  7.06s/it]
+2025-10-06 17:22:10 - ERROR - stderr - 
+2025-10-06 17:22:10 - ERROR - stderr - 
+2025-10-06 17:22:10 - INFO - stdout - {'loss': 1.1152, 'learning_rate': 0.0005042663086235718, 'epoch': 3.07}
+2025-10-06 17:22:10 - ERROR - stderr -  51%|████████████████████████████████████████████████████▎                                                 | 1070/2088 [2:13:39<1:59:50,  7.06s/it]
+2025-10-06 17:22:17 - ERROR - stderr -  51%|████████████████████████████████████████████████████▎                                                 | 1071/2088 [2:13:46<2:00:00,  7.08s/it]
+2025-10-06 17:22:17 - ERROR - stderr - 
+2025-10-06 17:22:17 - ERROR - stderr - 
+2025-10-06 17:22:17 - INFO - stdout - {'loss': 1.0816, 'learning_rate': 0.0005034906301489807, 'epoch': 3.08}
+2025-10-06 17:22:17 - ERROR - stderr -  51%|████████████████████████████████████████████████████▎                                                 | 1071/2088 [2:13:46<2:00:00,  7.08s/it]
+2025-10-06 17:22:24 - ERROR - stderr -  51%|████████████████████████████████████████████████████▎                                                 | 1072/2088 [2:13:53<1:59:39,  7.07s/it]
+2025-10-06 17:22:24 - ERROR - stderr - 
+2025-10-06 17:22:24 - ERROR - stderr - 
+2025-10-06 17:22:24 - INFO - stdout - {'loss': 1.1526, 'learning_rate': 0.0005027149432729554, 'epoch': 3.08}
+2025-10-06 17:22:24 - ERROR - stderr -  51%|████████████████████████████████████████████████████▎                                                 | 1072/2088 [2:13:53<1:59:39,  7.07s/it]
+2025-10-06 17:22:32 - ERROR - stderr -  51%|████████████████████████████████████████████████████▍                                                 | 1073/2088 [2:14:00<2:02:50,  7.26s/it]
+2025-10-06 17:22:32 - ERROR - stderr - 
+2025-10-06 17:22:32 - ERROR - stderr - 
+2025-10-06 17:22:32 - INFO - stdout - {'loss': 1.1559, 'learning_rate': 0.0005019392498624602, 'epoch': 3.08}
+2025-10-06 17:22:32 - ERROR - stderr -  51%|████████████████████████████████████████████████████▍                                                 | 1073/2088 [2:14:00<2:02:50,  7.26s/it]
+2025-10-06 17:22:39 - ERROR - stderr -  51%|████████████████████████████████████████████████████▍                                                 | 1074/2088 [2:14:07<2:01:01,  7.16s/it]
+2025-10-06 17:22:39 - ERROR - stderr - 
+2025-10-06 17:22:39 - ERROR - stderr - 
+2025-10-06 17:22:39 - INFO - stdout - {'loss': 1.1036, 'learning_rate': 0.0005011635517844752, 'epoch': 3.09}
+2025-10-06 17:22:39 - ERROR - stderr -  51%|████████████████████████████████████████████████████▍                                                 | 1074/2088 [2:14:07<2:01:01,  7.16s/it]
+2025-10-06 17:22:46 - ERROR - stderr -  51%|████████████████████████████████████████████████████▌                                                 | 1075/2088 [2:14:14<1:59:58,  7.11s/it]
+2025-10-06 17:22:46 - ERROR - stderr - 
+2025-10-06 17:22:46 - ERROR - stderr - 
+2025-10-06 17:22:46 - INFO - stdout - {'loss': 1.0871, 'learning_rate': 0.000500387850905992, 'epoch': 3.09}
+2025-10-06 17:22:46 - ERROR - stderr -  51%|████████████████████████████████████████████████████▌                                                 | 1075/2088 [2:14:14<1:59:58,  7.11s/it]
+2025-10-06 17:22:53 - ERROR - stderr -  52%|████████████████████████████████████████████████████▌                                                 | 1076/2088 [2:14:21<2:00:01,  7.12s/it]
+2025-10-06 17:22:53 - ERROR - stderr - 
+2025-10-06 17:22:53 - ERROR - stderr - 
+2025-10-06 17:22:53 - INFO - stdout - {'loss': 1.0594, 'learning_rate': 0.0004996121490940083, 'epoch': 3.09}
+2025-10-06 17:22:53 - ERROR - stderr -  52%|████████████████████████████████████████████████████▌                                                 | 1076/2088 [2:14:21<2:00:01,  7.12s/it]
+2025-10-06 17:23:00 - ERROR - stderr -  52%|████████████████████████████████████████████████████▌                                                 | 1077/2088 [2:14:29<2:00:45,  7.17s/it]
+2025-10-06 17:23:00 - ERROR - stderr - 
+2025-10-06 17:23:00 - ERROR - stderr - 
+2025-10-06 17:23:00 - INFO - stdout - {'loss': 1.1318, 'learning_rate': 0.0004988364482155249, 'epoch': 3.09}
+2025-10-06 17:23:00 - ERROR - stderr -  52%|████████████████████████████████████████████████████▌                                                 | 1077/2088 [2:14:29<2:00:45,  7.17s/it]
+2025-10-06 17:23:08 - ERROR - stderr -  52%|████████████████████████████████████████████████████▋                                                 | 1078/2088 [2:14:36<2:02:51,  7.30s/it]
+2025-10-06 17:23:08 - ERROR - stderr - 
+2025-10-06 17:23:08 - ERROR - stderr - 
+2025-10-06 17:23:08 - INFO - stdout - {'loss': 1.1014, 'learning_rate': 0.0004980607501375399, 'epoch': 3.1}
+2025-10-06 17:23:08 - ERROR - stderr -  52%|████████████████████████████████████████████████████▋                                                 | 1078/2088 [2:14:36<2:02:51,  7.30s/it]
+2025-10-06 17:23:15 - ERROR - stderr -  52%|████████████████████████████████████████████████████▋                                                 | 1079/2088 [2:14:44<2:02:13,  7.27s/it]
+2025-10-06 17:23:15 - ERROR - stderr - 
+2025-10-06 17:23:15 - ERROR - stderr - 
+2025-10-06 17:23:15 - INFO - stdout - {'loss': 1.1629, 'learning_rate': 0.0004972850567270446, 'epoch': 3.1}
+2025-10-06 17:23:15 - ERROR - stderr -  52%|████████████████████████████████████████████████████▋                                                 | 1079/2088 [2:14:44<2:02:13,  7.27s/it]
+2025-10-06 17:23:22 - ERROR - stderr -  52%|████████████████████████████████████████████████████▊                                                 | 1080/2088 [2:14:51<2:01:07,  7.21s/it]
+2025-10-06 17:23:22 - ERROR - stderr - 
+2025-10-06 17:23:22 - ERROR - stderr - 
+2025-10-06 17:23:22 - INFO - stdout - {'loss': 1.0418, 'learning_rate': 0.0004965093698510193, 'epoch': 3.1}
+2025-10-06 17:23:22 - ERROR - stderr -  52%|████████████████████████████████████████████████████▊                                                 | 1080/2088 [2:14:51<2:01:07,  7.21s/it]
+2025-10-06 17:23:29 - ERROR - stderr -  52%|████████████████████████████████████████████████████▊                                                 | 1081/2088 [2:14:58<2:01:29,  7.24s/it]
+2025-10-06 17:23:29 - ERROR - stderr - 
+2025-10-06 17:23:29 - ERROR - stderr - 
+2025-10-06 17:23:29 - INFO - stdout - {'loss': 1.0961, 'learning_rate': 0.0004957336913764283, 'epoch': 3.11}
+2025-10-06 17:23:29 - ERROR - stderr -  52%|████████████████████████████████████████████████████▊                                                 | 1081/2088 [2:14:58<2:01:29,  7.24s/it]
+2025-10-06 17:23:37 - ERROR - stderr -  52%|████████████████████████████████████████████████████▊                                                 | 1082/2088 [2:15:05<2:01:02,  7.22s/it]
+2025-10-06 17:23:37 - ERROR - stderr - 
+2025-10-06 17:23:37 - ERROR - stderr - 
+2025-10-06 17:23:37 - INFO - stdout - {'loss': 1.148, 'learning_rate': 0.0004949580231702158, 'epoch': 3.11}
+2025-10-06 17:23:37 - ERROR - stderr -  52%|████████████████████████████████████████████████████▊                                                 | 1082/2088 [2:15:05<2:01:02,  7.22s/it]
+2025-10-06 17:23:44 - ERROR - stderr -  52%|████████████████████████████████████████████████████▉                                                 | 1083/2088 [2:15:12<1:59:55,  7.16s/it]
+2025-10-06 17:23:44 - ERROR - stderr - 
+2025-10-06 17:23:44 - ERROR - stderr - 
+2025-10-06 17:23:44 - INFO - stdout - {'loss': 1.0372, 'learning_rate': 0.0004941823670993016, 'epoch': 3.11}
+2025-10-06 17:23:44 - ERROR - stderr -  52%|████████████████████████████████████████████████████▉                                                 | 1083/2088 [2:15:12<1:59:55,  7.16s/it]
+2025-10-06 17:23:51 - ERROR - stderr -  52%|████████████████████████████████████████████████████▉                                                 | 1084/2088 [2:15:19<2:00:17,  7.19s/it]
+2025-10-06 17:23:51 - ERROR - stderr - 
+2025-10-06 17:23:51 - ERROR - stderr - 
+2025-10-06 17:23:51 - INFO - stdout - {'loss': 1.1152, 'learning_rate': 0.0004934067250305757, 'epoch': 3.11}
+2025-10-06 17:23:51 - ERROR - stderr -  52%|████████████████████████████████████████████████████▉                                                 | 1084/2088 [2:15:19<2:00:17,  7.19s/it]
+2025-10-06 17:23:58 - ERROR - stderr -  52%|█████████████████████████████████████████████████████                                                 | 1085/2088 [2:15:26<1:59:48,  7.17s/it]
+2025-10-06 17:23:58 - ERROR - stderr - 
+2025-10-06 17:23:58 - ERROR - stderr - 
+2025-10-06 17:23:58 - INFO - stdout - {'loss': 1.0894, 'learning_rate': 0.0004926310988308946, 'epoch': 3.12}
+2025-10-06 17:23:58 - ERROR - stderr -  52%|█████████████████████████████████████████████████████                                                 | 1085/2088 [2:15:27<1:59:48,  7.17s/it]
+2025-10-06 17:24:05 - ERROR - stderr -  52%|█████████████████████████████████████████████████████                                                 | 1086/2088 [2:15:34<2:01:11,  7.26s/it]
+2025-10-06 17:24:05 - ERROR - stderr - 
+2025-10-06 17:24:05 - ERROR - stderr - 
+2025-10-06 17:24:05 - INFO - stdout - {'loss': 1.1416, 'learning_rate': 0.0004918554903670772, 'epoch': 3.12}
+2025-10-06 17:24:05 - ERROR - stderr -  52%|█████████████████████████████████████████████████████                                                 | 1086/2088 [2:15:34<2:01:11,  7.26s/it]
+2025-10-06 17:24:12 - ERROR - stderr -  52%|█████████████████████████████████████████████████████                                                 | 1087/2088 [2:15:41<1:59:49,  7.18s/it]
+2025-10-06 17:24:12 - ERROR - stderr - 
+2025-10-06 17:24:12 - ERROR - stderr - 
+2025-10-06 17:24:12 - INFO - stdout - {'loss': 1.1093, 'learning_rate': 0.0004910799015058986, 'epoch': 3.12}
+2025-10-06 17:24:12 - ERROR - stderr -  52%|█████████████████████████████████████████████████████                                                 | 1087/2088 [2:15:41<1:59:49,  7.18s/it]
+2025-10-06 17:24:19 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▏                                                | 1088/2088 [2:15:48<1:58:28,  7.11s/it]
+2025-10-06 17:24:19 - ERROR - stderr - 
+2025-10-06 17:24:19 - ERROR - stderr - 
+2025-10-06 17:24:19 - INFO - stdout - {'loss': 1.0887, 'learning_rate': 0.0004903043341140879, 'epoch': 3.13}
+2025-10-06 17:24:19 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▏                                                | 1088/2088 [2:15:48<1:58:28,  7.11s/it]
+2025-10-06 17:24:27 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▏                                                | 1089/2088 [2:15:55<1:58:20,  7.11s/it]
+2025-10-06 17:24:27 - ERROR - stderr - 
+2025-10-06 17:24:27 - ERROR - stderr - 
+2025-10-06 17:24:27 - INFO - stdout - {'loss': 1.1441, 'learning_rate': 0.0004895287900583215, 'epoch': 3.13}
+2025-10-06 17:24:27 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▏                                                | 1089/2088 [2:15:55<1:58:20,  7.11s/it]
+2025-10-06 17:24:34 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▏                                                | 1090/2088 [2:16:02<2:00:02,  7.22s/it]
+2025-10-06 17:24:34 - ERROR - stderr - 
+2025-10-06 17:24:34 - ERROR - stderr - 
+2025-10-06 17:24:34 - INFO - stdout - {'loss': 1.1349, 'learning_rate': 0.0004887532712052206, 'epoch': 3.13}
+2025-10-06 17:24:34 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▏                                                | 1090/2088 [2:16:02<2:00:02,  7.22s/it]
+2025-10-06 17:24:41 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▎                                                | 1091/2088 [2:16:10<1:59:29,  7.19s/it]
+2025-10-06 17:24:41 - ERROR - stderr - 
+2025-10-06 17:24:41 - ERROR - stderr - 
+2025-10-06 17:24:41 - INFO - stdout - {'loss': 1.1123, 'learning_rate': 0.0004879777794213447, 'epoch': 3.14}
+2025-10-06 17:24:41 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▎                                                | 1091/2088 [2:16:10<1:59:29,  7.19s/it]
+2025-10-06 17:24:48 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▎                                                | 1092/2088 [2:16:17<1:58:24,  7.13s/it]
+2025-10-06 17:24:48 - ERROR - stderr - 
+2025-10-06 17:24:48 - ERROR - stderr - 
+2025-10-06 17:24:48 - INFO - stdout - {'loss': 1.1615, 'learning_rate': 0.000487202316573189, 'epoch': 3.14}
+2025-10-06 17:24:48 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▎                                                | 1092/2088 [2:16:17<1:58:24,  7.13s/it]
+2025-10-06 17:24:55 - ERROR - stderr -  52%|█���███████████████████████████████████████████████████▍                                                | 1093/2088 [2:16:24<1:57:54,  7.11s/it]
+2025-10-06 17:24:55 - ERROR - stderr - 
+2025-10-06 17:24:55 - ERROR - stderr - 
+2025-10-06 17:24:55 - INFO - stdout - {'loss': 1.0598, 'learning_rate': 0.0004864268845271786, 'epoch': 3.14}
+2025-10-06 17:24:55 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▍                                                | 1093/2088 [2:16:24<1:57:54,  7.11s/it]
+2025-10-06 17:25:03 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▍                                                | 1094/2088 [2:16:31<1:59:50,  7.23s/it]
+2025-10-06 17:25:03 - ERROR - stderr - 
+2025-10-06 17:25:03 - ERROR - stderr - 
+2025-10-06 17:25:03 - INFO - stdout - {'loss': 1.1224, 'learning_rate': 0.00048565148514966467, 'epoch': 3.14}
+2025-10-06 17:25:03 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▍                                                | 1094/2088 [2:16:31<1:59:50,  7.23s/it]
+2025-10-06 17:25:10 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▍                                                | 1095/2088 [2:16:38<1:59:26,  7.22s/it]
+2025-10-06 17:25:10 - ERROR - stderr - 
+2025-10-06 17:25:10 - ERROR - stderr - 
+2025-10-06 17:25:10 - INFO - stdout - {'loss': 1.0923, 'learning_rate': 0.00048487612030691967, 'epoch': 3.15}
+2025-10-06 17:25:10 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▍                                                | 1095/2088 [2:16:38<1:59:26,  7.22s/it]
+2025-10-06 17:25:17 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▌                                                | 1096/2088 [2:16:45<1:58:01,  7.14s/it]
+2025-10-06 17:25:17 - ERROR - stderr - 
+2025-10-06 17:25:17 - ERROR - stderr - 
+2025-10-06 17:25:17 - INFO - stdout - {'loss': 1.1343, 'learning_rate': 0.00048410079186513293, 'epoch': 3.15}
+2025-10-06 17:25:17 - ERROR - stderr -  52%|█████████████████████████████████████████████████████▌                                                | 1096/2088 [2:16:45<1:58:01,  7.14s/it]
+2025-10-06 17:25:24 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▌                                                | 1097/2088 [2:16:52<1:57:36,  7.12s/it]
+2025-10-06 17:25:24 - ERROR - stderr - 
+2025-10-06 17:25:24 - ERROR - stderr - 
+2025-10-06 17:25:24 - INFO - stdout - {'loss': 1.0975, 'learning_rate': 0.00048332550169040656, 'epoch': 3.15}
+2025-10-06 17:25:24 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▌                                                | 1097/2088 [2:16:52<1:57:36,  7.12s/it]
+2025-10-06 17:25:31 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▋                                                | 1098/2088 [2:16:59<1:57:04,  7.10s/it]
+2025-10-06 17:25:31 - ERROR - stderr - 
+2025-10-06 17:25:31 - ERROR - stderr - 
+2025-10-06 17:25:31 - INFO - stdout - {'loss': 1.121, 'learning_rate': 0.0004825502516487497, 'epoch': 3.16}
+2025-10-06 17:25:31 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▋                                                | 1098/2088 [2:16:59<1:57:04,  7.10s/it]
+2025-10-06 17:25:38 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▋                                                | 1099/2088 [2:17:06<1:56:18,  7.06s/it]
+2025-10-06 17:25:38 - ERROR - stderr - 
+2025-10-06 17:25:38 - ERROR - stderr - 
+2025-10-06 17:25:38 - INFO - stdout - {'loss': 1.0991, 'learning_rate': 0.00048177504360607544, 'epoch': 3.16}
+2025-10-06 17:25:38 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▋                                                | 1099/2088 [2:17:06<1:56:18,  7.06s/it]
+2025-10-06 17:25:38 - INFO - stdout - [Warning] Zero or NaN encountered in pc_norm! pc_id: 87e8e5a7-0aae-571e-882e-0f8e926169d6
+2025-10-06 17:25:38 - INFO - stdout - m: [[0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]
+2025-10-06 17:25:38 - INFO - stdout -  [0.]]
+2025-10-06 17:25:45 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▋                                                | 1100/2088 [2:17:14<1:57:27,  7.13s/it]
+2025-10-06 17:25:45 - ERROR - stderr - 
+2025-10-06 17:25:45 - ERROR - stderr - 
+2025-10-06 17:25:45 - INFO - stdout - {'loss': 1.1709, 'learning_rate': 0.000480999879428196, 'epoch': 3.16}
+2025-10-06 17:25:45 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▋                                                | 1100/2088 [2:17:14<1:57:27,  7.13s/it]
+2025-10-06 17:25:52 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▊                                                | 1101/2088 [2:17:21<1:55:44,  7.04s/it]
+2025-10-06 17:25:52 - ERROR - stderr - 
+2025-10-06 17:25:52 - ERROR - stderr - 
+2025-10-06 17:25:52 - INFO - stdout - {'loss': 1.0845, 'learning_rate': 0.0004802247609808175, 'epoch': 3.16}
+2025-10-06 17:25:52 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▊                                                | 1101/2088 [2:17:21<1:55:44,  7.04s/it]
+2025-10-06 17:25:59 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▊                                                | 1102/2088 [2:17:28<1:56:11,  7.07s/it]
+2025-10-06 17:25:59 - ERROR - stderr - 
+2025-10-06 17:25:59 - ERROR - stderr - 
+2025-10-06 17:25:59 - INFO - stdout - {'loss': 1.0718, 'learning_rate': 0.0004794496901295365, 'epoch': 3.17}
+2025-10-06 17:25:59 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▊                                                | 1102/2088 [2:17:28<1:56:11,  7.07s/it]
+2025-10-06 17:26:06 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▉                                                | 1103/2088 [2:17:35<1:55:26,  7.03s/it]
+2025-10-06 17:26:06 - ERROR - stderr - 
+2025-10-06 17:26:06 - ERROR - stderr - 
+2025-10-06 17:26:06 - INFO - stdout - {'loss': 1.0746, 'learning_rate': 0.0004786746687398346, 'epoch': 3.17}
+2025-10-06 17:26:06 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▉                                                | 1103/2088 [2:17:35<1:55:26,  7.03s/it]
+2025-10-06 17:26:13 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▉                                                | 1104/2088 [2:17:42<1:56:15,  7.09s/it]
+2025-10-06 17:26:13 - ERROR - stderr - 
+2025-10-06 17:26:13 - ERROR - stderr - 
+2025-10-06 17:26:13 - INFO - stdout - {'loss': 1.1033, 'learning_rate': 0.0004778996986770747, 'epoch': 3.17}
+2025-10-06 17:26:13 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▉                                                | 1104/2088 [2:17:42<1:56:15,  7.09s/it]
+2025-10-06 17:26:20 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▉                                                | 1105/2088 [2:17:49<1:56:08,  7.09s/it]
+2025-10-06 17:26:20 - ERROR - stderr - 
+2025-10-06 17:26:20 - ERROR - stderr - 
+2025-10-06 17:26:20 - INFO - stdout - {'loss': 1.0757, 'learning_rate': 0.000477124781806496, 'epoch': 3.18}
+2025-10-06 17:26:20 - ERROR - stderr -  53%|█████████████████████████████████████████████████████▉                                                | 1105/2088 [2:17:49<1:56:08,  7.09s/it]
+2025-10-06 17:26:28 - ERROR - stderr -  53%|██████████████████████████████████████████████████████                                                | 1106/2088 [2:17:56<1:56:16,  7.10s/it]
+2025-10-06 17:26:28 - ERROR - stderr - 
+2025-10-06 17:26:28 - ERROR - stderr - 
+2025-10-06 17:26:28 - INFO - stdout - {'loss': 1.1045, 'learning_rate': 0.0004763499199932093, 'epoch': 3.18}
+2025-10-06 17:26:28 - ERROR - stderr -  53%|██████████████████████████████████████████████████████                                                | 1106/2088 [2:17:56<1:56:16,  7.10s/it]
+2025-10-06 17:26:34 - ERROR - stderr -  53%|██████████████████████████████████████████████████████                                                | 1107/2088 [2:18:03<1:54:55,  7.03s/it]
+2025-10-06 17:26:34 - ERROR - stderr - 
+2025-10-06 17:26:34 - ERROR - stderr - 
+2025-10-06 17:26:34 - INFO - stdout - {'loss': 1.1483, 'learning_rate': 0.00047557511510219335, 'epoch': 3.18}
+2025-10-06 17:26:34 - ERROR - stderr -  53%|██████████████████████████████████████████████████████                                                | 1107/2088 [2:18:03<1:54:55,  7.03s/it]
+2025-10-06 17:26:41 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▏                                               | 1108/2088 [2:18:10<1:53:46,  6.97s/it]
+2025-10-06 17:26:41 - ERROR - stderr - 
+2025-10-06 17:26:41 - ERROR - stderr - 
+2025-10-06 17:26:41 - INFO - stdout - {'loss': 1.0756, 'learning_rate': 0.00047480036899829003, 'epoch': 3.18}
+2025-10-06 17:26:41 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▏                                               | 1108/2088 [2:18:10<1:53:46,  6.97s/it]
+2025-10-06 17:26:48 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▏                                               | 1109/2088 [2:18:17<1:53:53,  6.98s/it]
+2025-10-06 17:26:48 - ERROR - stderr - 
+2025-10-06 17:26:48 - ERROR - stderr - 
+2025-10-06 17:26:48 - INFO - stdout - {'loss': 1.0617, 'learning_rate': 0.0004740256835461993, 'epoch': 3.19}
+2025-10-06 17:26:48 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▏                                               | 1109/2088 [2:18:17<1:53:53,  6.98s/it]
+2025-10-06 17:26:56 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▏                                               | 1110/2088 [2:18:24<1:55:40,  7.10s/it]
+2025-10-06 17:26:56 - ERROR - stderr - 
+2025-10-06 17:26:56 - ERROR - stderr - 
+2025-10-06 17:26:56 - INFO - stdout - {'loss': 1.1516, 'learning_rate': 0.0004732510606104754, 'epoch': 3.19}
+2025-10-06 17:26:56 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▏                                               | 1110/2088 [2:18:24<1:55:40,  7.10s/it]
+2025-10-06 17:27:03 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▎                                               | 1111/2088 [2:18:32<1:57:30,  7.22s/it]
+2025-10-06 17:27:03 - ERROR - stderr - 
+2025-10-06 17:27:03 - ERROR - stderr - 
+2025-10-06 17:27:03 - INFO - stdout - {'loss': 1.1113, 'learning_rate': 0.00047247650205552193, 'epoch': 3.19}
+2025-10-06 17:27:03 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▎                                               | 1111/2088 [2:18:32<1:57:30,  7.22s/it]
+2025-10-06 17:27:10 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▎                                               | 1112/2088 [2:18:39<1:56:28,  7.16s/it]
+2025-10-06 17:27:10 - ERROR - stderr - 
+2025-10-06 17:27:10 - ERROR - stderr - 
+2025-10-06 17:27:10 - INFO - stdout - {'loss': 1.079, 'learning_rate': 0.0004717020097455879, 'epoch': 3.2}
+2025-10-06 17:27:10 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▎                                               | 1112/2088 [2:18:39<1:56:28,  7.16s/it]
+2025-10-06 17:27:17 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▎                                               | 1113/2088 [2:18:46<1:55:57,  7.14s/it]
+2025-10-06 17:27:17 - ERROR - stderr - 
+2025-10-06 17:27:17 - ERROR - stderr - 
+2025-10-06 17:27:17 - INFO - stdout - {'loss': 1.088, 'learning_rate': 0.0004709275855447621, 'epoch': 3.2}
+2025-10-06 17:27:17 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▎                                               | 1113/2088 [2:18:46<1:55:57,  7.14s/it]
+2025-10-06 17:27:24 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▍                                               | 1114/2088 [2:18:53<1:55:55,  7.14s/it]
+2025-10-06 17:27:24 - ERROR - stderr - 
+2025-10-06 17:27:24 - ERROR - stderr - 
+2025-10-06 17:27:24 - INFO - stdout - {'loss': 1.1353, 'learning_rate': 0.0004701532313169703, 'epoch': 3.2}
+2025-10-06 17:27:24 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▍                                               | 1114/2088 [2:18:53<1:55:55,  7.14s/it]
+2025-10-06 17:27:32 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▍                                               | 1115/2088 [2:19:00<1:57:38,  7.25s/it]
+2025-10-06 17:27:32 - ERROR - stderr - 
+2025-10-06 17:27:32 - ERROR - stderr - 
+2025-10-06 17:27:32 - INFO - stdout - {'loss': 1.0283, 'learning_rate': 0.0004693789489259694, 'epoch': 3.2}
+2025-10-06 17:27:32 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▍                                               | 1115/2088 [2:19:00<1:57:38,  7.25s/it]
+2025-10-06 17:27:39 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▌                                               | 1116/2088 [2:19:07<1:56:33,  7.19s/it]
+2025-10-06 17:27:39 - ERROR - stderr - 
+2025-10-06 17:27:39 - ERROR - stderr - 
+2025-10-06 17:27:39 - INFO - stdout - {'loss': 1.1078, 'learning_rate': 0.0004686047402353433, 'epoch': 3.21}
+2025-10-06 17:27:39 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▌                                               | 1116/2088 [2:19:07<1:56:33,  7.19s/it]
+2025-10-06 17:27:46 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▌                                               | 1117/2088 [2:19:15<1:55:55,  7.16s/it]
+2025-10-06 17:27:46 - ERROR - stderr - 
+2025-10-06 17:27:46 - ERROR - stderr - 
+2025-10-06 17:27:46 - INFO - stdout - {'loss': 1.0536, 'learning_rate': 0.00046783060710849886, 'epoch': 3.21}
+2025-10-06 17:27:46 - ERROR - stderr -  53%|██████████████████████████████████████████████████████▌                                               | 1117/2088 [2:19:15<1:55:55,  7.16s/it]
+2025-10-06 17:27:53 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▌                                               | 1118/2088 [2:19:22<1:55:24,  7.14s/it]
+2025-10-06 17:27:53 - ERROR - stderr - 
+2025-10-06 17:27:53 - ERROR - stderr - 
+2025-10-06 17:27:53 - INFO - stdout - {'loss': 1.0711, 'learning_rate': 0.00046705655140866074, 'epoch': 3.21}
+2025-10-06 17:27:53 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▌                                               | 1118/2088 [2:19:22<1:55:24,  7.14s/it]
+2025-10-06 17:28:00 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▋                                               | 1119/2088 [2:19:29<1:56:01,  7.18s/it]
+2025-10-06 17:28:00 - ERROR - stderr - 
+2025-10-06 17:28:00 - ERROR - stderr - 
+2025-10-06 17:28:00 - INFO - stdout - {'loss': 1.153, 'learning_rate': 0.0004662825749988675, 'epoch': 3.22}
+2025-10-06 17:28:00 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▋                                               | 1119/2088 [2:19:29<1:56:01,  7.18s/it]
+2025-10-06 17:28:08 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▋                                               | 1120/2088 [2:19:36<1:55:59,  7.19s/it]
+2025-10-06 17:28:08 - ERROR - stderr - 
+2025-10-06 17:28:08 - ERROR - stderr - 
+2025-10-06 17:28:08 - INFO - stdout - {'loss': 1.1002, 'learning_rate': 0.0004655086797419666, 'epoch': 3.22}
+2025-10-06 17:28:08 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▋                                               | 1120/2088 [2:19:36<1:55:59,  7.19s/it]
+2025-10-06 17:28:15 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▊                                               | 1121/2088 [2:19:43<1:55:19,  7.16s/it]
+2025-10-06 17:28:15 - ERROR - stderr - 
+2025-10-06 17:28:15 - ERROR - stderr - 
+2025-10-06 17:28:15 - INFO - stdout - {'loss': 1.0747, 'learning_rate': 0.00046473486750061037, 'epoch': 3.22}
+2025-10-06 17:28:15 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▊                                               | 1121/2088 [2:19:43<1:55:19,  7.16s/it]
+2025-10-06 17:28:22 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▊                                               | 1122/2088 [2:19:50<1:54:55,  7.14s/it]
+2025-10-06 17:28:22 - ERROR - stderr - 
+2025-10-06 17:28:22 - ERROR - stderr - 
+2025-10-06 17:28:22 - INFO - stdout - {'loss': 1.0924, 'learning_rate': 0.00046396114013725134, 'epoch': 3.22}
+2025-10-06 17:28:22 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▊                                               | 1122/2088 [2:19:50<1:54:55,  7.14s/it]
+2025-10-06 17:28:29 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▊                                               | 1123/2088 [2:19:57<1:55:03,  7.15s/it]
+2025-10-06 17:28:29 - ERROR - stderr - 
+2025-10-06 17:28:29 - ERROR - stderr - 
+2025-10-06 17:28:29 - INFO - stdout - {'loss': 1.1483, 'learning_rate': 0.0004631874995141376, 'epoch': 3.23}
+2025-10-06 17:28:29 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▊                                               | 1123/2088 [2:19:58<1:55:03,  7.15s/it]
+2025-10-06 17:28:36 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▉                                               | 1124/2088 [2:20:05<1:55:23,  7.18s/it]
+2025-10-06 17:28:36 - ERROR - stderr - 
+2025-10-06 17:28:36 - ERROR - stderr - 
+2025-10-06 17:28:36 - INFO - stdout - {'loss': 1.0951, 'learning_rate': 0.0004624139474933087, 'epoch': 3.23}
+2025-10-06 17:28:36 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▉                                               | 1124/2088 [2:20:05<1:55:23,  7.18s/it]
+2025-10-06 17:28:43 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▉                                               | 1125/2088 [2:20:12<1:53:35,  7.08s/it]
+2025-10-06 17:28:43 - ERROR - stderr - 
+2025-10-06 17:28:43 - ERROR - stderr - 
+2025-10-06 17:28:43 - INFO - stdout - {'loss': 1.0672, 'learning_rate': 0.0004616404859365907, 'epoch': 3.23}
+2025-10-06 17:28:43 - ERROR - stderr -  54%|██████████████████████████████████████████████████████▉                                               | 1125/2088 [2:20:12<1:53:35,  7.08s/it]
+2025-10-06 17:28:50 - ERROR - stderr -  54%|███████████████████████████████████████████████████████                                               | 1126/2088 [2:20:19<1:54:35,  7.15s/it]
+2025-10-06 17:28:50 - ERROR - stderr - 
+2025-10-06 17:28:50 - ERROR - stderr - 
+2025-10-06 17:28:50 - INFO - stdout - {'loss': 1.1794, 'learning_rate': 0.00046086711670559213, 'epoch': 3.24}
+2025-10-06 17:28:50 - ERROR - stderr -  54%|███████████████████████████████████████████████████████                                               | 1126/2088 [2:20:19<1:54:35,  7.15s/it]
+2025-10-06 17:28:57 - ERROR - stderr -  54%|███████████████████████████████████████████████████████                                               | 1127/2088 [2:20:26<1:53:33,  7.09s/it]
+2025-10-06 17:28:57 - ERROR - stderr - 
+2025-10-06 17:28:57 - ERROR - stderr - 
+2025-10-06 17:28:57 - INFO - stdout - {'loss': 1.0677, 'learning_rate': 0.000460093841661699, 'epoch': 3.24}
+2025-10-06 17:28:57 - ERROR - stderr -  54%|███████████████████████████████████████████████████████                                               | 1127/2088 [2:20:26<1:53:33,  7.09s/it]
+2025-10-06 17:29:05 - ERROR - stderr -  54%|███████████████████████████████████████████████████████                                               | 1128/2088 [2:20:33<1:54:15,  7.14s/it]
+2025-10-06 17:29:05 - ERROR - stderr - 
+2025-10-06 17:29:05 - ERROR - stderr - 
+2025-10-06 17:29:05 - INFO - stdout - {'loss': 1.1208, 'learning_rate': 0.00045932066266607093, 'epoch': 3.24}
+2025-10-06 17:29:05 - ERROR - stderr -  54%|███████████████████████████████████████████████████████                                               | 1128/2088 [2:20:33<1:54:15,  7.14s/it]
+2025-10-06 17:29:12 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▏                                              | 1129/2088 [2:20:40<1:53:21,  7.09s/it]
+2025-10-06 17:29:12 - ERROR - stderr - 
+2025-10-06 17:29:12 - ERROR - stderr - 
+2025-10-06 17:29:12 - INFO - stdout - {'loss': 1.0255, 'learning_rate': 0.0004585475815796363, 'epoch': 3.24}
+2025-10-06 17:29:12 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▏                                              | 1129/2088 [2:20:40<1:53:21,  7.09s/it]
+2025-10-06 17:29:19 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▏                                              | 1130/2088 [2:20:47<1:53:42,  7.12s/it]
+2025-10-06 17:29:19 - ERROR - stderr - 
+2025-10-06 17:29:19 - ERROR - stderr - 
+2025-10-06 17:29:19 - INFO - stdout - {'loss': 1.0785, 'learning_rate': 0.00045777460026308776, 'epoch': 3.25}
+2025-10-06 17:29:19 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▏                                              | 1130/2088 [2:20:47<1:53:42,  7.12s/it]
+2025-10-06 17:29:26 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▏                                              | 1131/2088 [2:20:54<1:52:48,  7.07s/it]
+2025-10-06 17:29:26 - ERROR - stderr - 
+2025-10-06 17:29:26 - ERROR - stderr - 
+2025-10-06 17:29:26 - INFO - stdout - {'loss': 1.1453, 'learning_rate': 0.0004570017205768779, 'epoch': 3.25}
+2025-10-06 17:29:26 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▏                                              | 1131/2088 [2:20:54<1:52:48,  7.07s/it]
+2025-10-06 17:29:33 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▎                                              | 1132/2088 [2:21:01<1:53:15,  7.11s/it]
+2025-10-06 17:29:33 - ERROR - stderr - 
+2025-10-06 17:29:33 - ERROR - stderr - 
+2025-10-06 17:29:33 - INFO - stdout - {'loss': 1.0464, 'learning_rate': 0.00045622894438121465, 'epoch': 3.25}
+2025-10-06 17:29:33 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▎                                              | 1132/2088 [2:21:01<1:53:15,  7.11s/it]
+2025-10-06 17:29:40 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▎                                              | 1133/2088 [2:21:08<1:52:20,  7.06s/it]
+2025-10-06 17:29:40 - ERROR - stderr - 
+2025-10-06 17:29:40 - ERROR - stderr - 
+2025-10-06 17:29:40 - INFO - stdout - {'loss': 1.1709, 'learning_rate': 0.000455456273536057, 'epoch': 3.26}
+2025-10-06 17:29:40 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▎                                              | 1133/2088 [2:21:08<1:52:20,  7.06s/it]
+2025-10-06 17:29:47 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▍                                              | 1134/2088 [2:21:15<1:52:24,  7.07s/it]
+2025-10-06 17:29:47 - ERROR - stderr - 
+2025-10-06 17:29:47 - ERROR - stderr - 
+2025-10-06 17:29:47 - INFO - stdout - {'loss': 1.0298, 'learning_rate': 0.00045468370990111, 'epoch': 3.26}
+2025-10-06 17:29:47 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▍                                              | 1134/2088 [2:21:15<1:52:24,  7.07s/it]
+2025-10-06 17:29:54 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▍                                              | 1135/2088 [2:21:23<1:53:02,  7.12s/it]
+2025-10-06 17:29:54 - ERROR - stderr - 
+2025-10-06 17:29:54 - ERROR - stderr - 
+2025-10-06 17:29:54 - INFO - stdout - {'loss': 1.1343, 'learning_rate': 0.00045391125533582105, 'epoch': 3.26}
+2025-10-06 17:29:54 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▍                                              | 1135/2088 [2:21:23<1:53:02,  7.12s/it]
+2025-10-06 17:30:01 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▍                                              | 1136/2088 [2:21:29<1:51:08,  7.01s/it]
+2025-10-06 17:30:01 - ERROR - stderr - 
+2025-10-06 17:30:01 - ERROR - stderr - 
+2025-10-06 17:30:01 - INFO - stdout - {'loss': 1.118, 'learning_rate': 0.00045313891169937486, 'epoch': 3.26}
+2025-10-06 17:30:01 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▍                                              | 1136/2088 [2:21:29<1:51:08,  7.01s/it]
+2025-10-06 17:30:08 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▌                                              | 1137/2088 [2:21:36<1:51:02,  7.01s/it]
+2025-10-06 17:30:08 - ERROR - stderr - 
+2025-10-06 17:30:08 - ERROR - stderr - 
+2025-10-06 17:30:08 - INFO - stdout - {'loss': 1.1113, 'learning_rate': 0.00045236668085068925, 'epoch': 3.27}
+2025-10-06 17:30:08 - ERROR - stderr -  54%|███████████████████████████████████████████████████████▌                                              | 1137/2088 [2:21:36<1:51:02,  7.01s/it]
+2025-10-06 17:30:15 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▌                                              | 1138/2088 [2:21:43<1:50:50,  7.00s/it]
+2025-10-06 17:30:15 - ERROR - stderr - 
+2025-10-06 17:30:15 - ERROR - stderr - 
+2025-10-06 17:30:15 - INFO - stdout - {'loss': 1.122, 'learning_rate': 0.0004515945646484105, 'epoch': 3.27}
+2025-10-06 17:30:15 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▌                                              | 1138/2088 [2:21:43<1:50:50,  7.00s/it]
+2025-10-06 17:30:22 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▋                                              | 1139/2088 [2:21:50<1:50:52,  7.01s/it]
+2025-10-06 17:30:22 - ERROR - stderr - 
+2025-10-06 17:30:22 - ERROR - stderr - 
+2025-10-06 17:30:22 - INFO - stdout - {'loss': 1.1064, 'learning_rate': 0.0004508225649509089, 'epoch': 3.27}
+2025-10-06 17:30:22 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▋                                              | 1139/2088 [2:21:50<1:50:52,  7.01s/it]
+2025-10-06 17:30:29 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▋                                              | 1140/2088 [2:21:57<1:50:21,  6.99s/it]
+2025-10-06 17:30:29 - ERROR - stderr - 
+2025-10-06 17:30:29 - ERROR - stderr - 
+2025-10-06 17:30:29 - INFO - stdout - {'loss': 1.082, 'learning_rate': 0.00045005068361627455, 'epoch': 3.28}
+2025-10-06 17:30:29 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▋                                              | 1140/2088 [2:21:57<1:50:21,  6.99s/it]
+2025-10-06 17:30:36 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▋                                              | 1141/2088 [2:22:04<1:49:56,  6.97s/it]
+2025-10-06 17:30:36 - ERROR - stderr - 
+2025-10-06 17:30:36 - ERROR - stderr - 
+2025-10-06 17:30:36 - INFO - stdout - {'loss': 1.0921, 'learning_rate': 0.0004492789225023123, 'epoch': 3.28}
+2025-10-06 17:30:36 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▋                                              | 1141/2088 [2:22:04<1:49:56,  6.97s/it]
+2025-10-06 17:30:43 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▊                                              | 1142/2088 [2:22:11<1:48:59,  6.91s/it]
+2025-10-06 17:30:43 - ERROR - stderr - 
+2025-10-06 17:30:43 - ERROR - stderr - 
+2025-10-06 17:30:43 - INFO - stdout - {'loss': 1.1317, 'learning_rate': 0.0004485072834665379, 'epoch': 3.28}
+2025-10-06 17:30:43 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▊                                              | 1142/2088 [2:22:11<1:48:59,  6.91s/it]
+2025-10-06 17:30:50 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▊                                              | 1143/2088 [2:22:18<1:50:00,  6.98s/it]
+2025-10-06 17:30:50 - ERROR - stderr - 
+2025-10-06 17:30:50 - ERROR - stderr - 
+2025-10-06 17:30:50 - INFO - stdout - {'loss': 1.2059, 'learning_rate': 0.00044773576836617336, 'epoch': 3.28}
+2025-10-06 17:30:50 - ERROR - stderr -  55%|██████████████████████���████████████████████████████████▊                                              | 1143/2088 [2:22:18<1:50:00,  6.98s/it]
+2025-10-06 17:30:57 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▉                                              | 1144/2088 [2:22:25<1:49:53,  6.98s/it]
+2025-10-06 17:30:57 - ERROR - stderr - 
+2025-10-06 17:30:57 - ERROR - stderr - 
+2025-10-06 17:30:57 - INFO - stdout - {'loss': 1.0632, 'learning_rate': 0.0004469643790581422, 'epoch': 3.29}
+2025-10-06 17:30:57 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▉                                              | 1144/2088 [2:22:25<1:49:53,  6.98s/it]
+2025-10-06 17:31:04 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▉                                              | 1145/2088 [2:22:32<1:49:47,  6.99s/it]
+2025-10-06 17:31:04 - ERROR - stderr - 
+2025-10-06 17:31:04 - ERROR - stderr - 
+2025-10-06 17:31:04 - INFO - stdout - {'loss': 1.1203, 'learning_rate': 0.0004461931173990652, 'epoch': 3.29}
+2025-10-06 17:31:04 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▉                                              | 1145/2088 [2:22:32<1:49:47,  6.99s/it]
+2025-10-06 17:31:11 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▉                                              | 1146/2088 [2:22:39<1:50:44,  7.05s/it]
+2025-10-06 17:31:11 - ERROR - stderr - 
+2025-10-06 17:31:11 - ERROR - stderr - 
+2025-10-06 17:31:11 - INFO - stdout - {'loss': 1.0624, 'learning_rate': 0.000445421985245256, 'epoch': 3.29}
+2025-10-06 17:31:11 - ERROR - stderr -  55%|███████████████████████████████████████████████████████▉                                              | 1146/2088 [2:22:39<1:50:44,  7.05s/it]
+2025-10-06 17:31:18 - ERROR - stderr -  55%|████████████████████████████████████████████████████████                                              | 1147/2088 [2:22:47<1:52:24,  7.17s/it]
+2025-10-06 17:31:18 - ERROR - stderr - 
+2025-10-06 17:31:18 - ERROR - stderr - 
+2025-10-06 17:31:18 - INFO - stdout - {'loss': 1.0436, 'learning_rate': 0.0004446509844527165, 'epoch': 3.3}
+2025-10-06 17:31:18 - ERROR - stderr -  55%|████████████████████████████████████████████████████████                                              | 1147/2088 [2:22:47<1:52:24,  7.17s/it]
+2025-10-06 17:31:25 - ERROR - stderr -  55%|████████████████████████████████████████████████████████                                              | 1148/2088 [2:22:54<1:51:51,  7.14s/it]
+2025-10-06 17:31:25 - ERROR - stderr - 
+2025-10-06 17:31:25 - ERROR - stderr - 
+2025-10-06 17:31:25 - INFO - stdout - {'loss': 1.1602, 'learning_rate': 0.0004438801168771327, 'epoch': 3.3}
+2025-10-06 17:31:25 - ERROR - stderr -  55%|████████████████████████████████████████████████████████                                              | 1148/2088 [2:22:54<1:51:51,  7.14s/it]
+2025-10-06 17:31:33 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▏                                             | 1149/2088 [2:23:01<1:52:15,  7.17s/it]
+2025-10-06 17:31:33 - ERROR - stderr - 
+2025-10-06 17:31:33 - ERROR - stderr - 
+2025-10-06 17:31:33 - INFO - stdout - {'loss': 1.1196, 'learning_rate': 0.00044310938437386923, 'epoch': 3.3}
+2025-10-06 17:31:33 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▏                                             | 1149/2088 [2:23:01<1:52:15,  7.17s/it]
+2025-10-06 17:31:40 - ERROR - stderr -  55%|██████████████████████████████████████���█████████████████▏                                             | 1150/2088 [2:23:09<1:54:04,  7.30s/it]
+2025-10-06 17:31:40 - ERROR - stderr - 
+2025-10-06 17:31:40 - ERROR - stderr - 
+2025-10-06 17:31:40 - INFO - stdout - {'loss': 1.108, 'learning_rate': 0.00044233878879796625, 'epoch': 3.3}
+2025-10-06 17:31:40 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▏                                             | 1150/2088 [2:23:09<1:54:04,  7.30s/it]
+2025-10-06 17:31:47 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▏                                             | 1151/2088 [2:23:16<1:52:55,  7.23s/it]
+2025-10-06 17:31:47 - ERROR - stderr - 
+2025-10-06 17:31:47 - ERROR - stderr - 
+2025-10-06 17:31:47 - INFO - stdout - {'loss': 1.0733, 'learning_rate': 0.00044156833200413424, 'epoch': 3.31}
+2025-10-06 17:31:47 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▏                                             | 1151/2088 [2:23:16<1:52:55,  7.23s/it]
+2025-10-06 17:31:54 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▎                                             | 1152/2088 [2:23:23<1:51:31,  7.15s/it]
+2025-10-06 17:31:54 - ERROR - stderr - 
+2025-10-06 17:31:54 - ERROR - stderr - 
+2025-10-06 17:31:54 - INFO - stdout - {'loss': 1.1218, 'learning_rate': 0.0004407980158467495, 'epoch': 3.31}
+2025-10-06 17:31:54 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▎                                             | 1152/2088 [2:23:23<1:51:31,  7.15s/it]
+2025-10-06 17:32:02 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▎                                             | 1153/2088 [2:23:31<1:54:53,  7.37s/it]
+2025-10-06 17:32:02 - ERROR - stderr - 
+2025-10-06 17:32:02 - ERROR - stderr - 
+2025-10-06 17:32:02 - INFO - stdout - {'loss': 1.1814, 'learning_rate': 0.0004400278421798501, 'epoch': 3.31}
+2025-10-06 17:32:02 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▎                                             | 1153/2088 [2:23:31<1:54:53,  7.37s/it]
+2025-10-06 17:32:09 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▎                                             | 1154/2088 [2:23:38<1:52:25,  7.22s/it]
+2025-10-06 17:32:09 - ERROR - stderr - 
+2025-10-06 17:32:09 - ERROR - stderr - 
+2025-10-06 17:32:09 - INFO - stdout - {'loss': 1.1814, 'learning_rate': 0.00043925781285713097, 'epoch': 3.32}
+2025-10-06 17:32:09 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▎                                             | 1154/2088 [2:23:38<1:52:25,  7.22s/it]
+2025-10-06 17:32:16 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▍                                             | 1155/2088 [2:23:45<1:51:23,  7.16s/it]
+2025-10-06 17:32:16 - ERROR - stderr - 
+2025-10-06 17:32:16 - ERROR - stderr - 
+2025-10-06 17:32:16 - INFO - stdout - {'loss': 1.1227, 'learning_rate': 0.0004384879297319398, 'epoch': 3.32}
+2025-10-06 17:32:16 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▍                                             | 1155/2088 [2:23:45<1:51:23,  7.16s/it]
+2025-10-06 17:32:23 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▍                                             | 1156/2088 [2:23:51<1:49:56,  7.08s/it]
+2025-10-06 17:32:23 - ERROR - stderr - 
+2025-10-06 17:32:23 - ERROR - stderr - 
+2025-10-06 17:32:23 - INFO - stdout - {'loss': 1.1042, 'learning_rate': 0.0004377181946572719, 'epoch': 3.32}
+2025-10-06 17:32:23 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▍                                             | 1156/2088 [2:23:51<1:49:56,  7.08s/it]
+2025-10-06 17:32:30 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▌                                             | 1157/2088 [2:23:58<1:48:03,  6.96s/it]
+2025-10-06 17:32:30 - ERROR - stderr - 
+2025-10-06 17:32:30 - ERROR - stderr - 
+2025-10-06 17:32:30 - INFO - stdout - {'loss': 1.1486, 'learning_rate': 0.00043694860948576664, 'epoch': 3.32}
+2025-10-06 17:32:30 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▌                                             | 1157/2088 [2:23:58<1:48:03,  6.96s/it]
+2025-10-06 17:32:37 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▌                                             | 1158/2088 [2:24:05<1:48:08,  6.98s/it]
+2025-10-06 17:32:37 - ERROR - stderr - 
+2025-10-06 17:32:37 - ERROR - stderr - 
+2025-10-06 17:32:37 - INFO - stdout - {'loss': 1.0406, 'learning_rate': 0.0004361791760697027, 'epoch': 3.33}
+2025-10-06 17:32:37 - ERROR - stderr -  55%|████████████████████████████████████████████████████████▌                                             | 1158/2088 [2:24:05<1:48:08,  6.98s/it]
+2025-10-06 17:32:44 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▌                                             | 1159/2088 [2:24:12<1:48:06,  6.98s/it]
+2025-10-06 17:32:44 - ERROR - stderr - 
+2025-10-06 17:32:44 - ERROR - stderr - 
+2025-10-06 17:32:44 - INFO - stdout - {'loss': 1.1463, 'learning_rate': 0.0004354098962609934, 'epoch': 3.33}
+2025-10-06 17:32:44 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▌                                             | 1159/2088 [2:24:12<1:48:06,  6.98s/it]
+2025-10-06 17:32:51 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▋                                             | 1160/2088 [2:24:19<1:47:48,  6.97s/it]
+2025-10-06 17:32:51 - ERROR - stderr - 
+2025-10-06 17:32:51 - ERROR - stderr - 
+2025-10-06 17:32:51 - INFO - stdout - {'loss': 1.1041, 'learning_rate': 0.0004346407719111823, 'epoch': 3.33}
+2025-10-06 17:32:51 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▋                                             | 1160/2088 [2:24:19<1:47:48,  6.97s/it]
+2025-10-06 17:32:58 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▋                                             | 1161/2088 [2:24:26<1:47:51,  6.98s/it]
+2025-10-06 17:32:58 - ERROR - stderr - 
+2025-10-06 17:32:58 - ERROR - stderr - 
+2025-10-06 17:32:58 - INFO - stdout - {'loss': 1.0816, 'learning_rate': 0.0004338718048714387, 'epoch': 3.34}
+2025-10-06 17:32:58 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▋                                             | 1161/2088 [2:24:26<1:47:51,  6.98s/it]
+2025-10-06 17:33:05 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▊                                             | 1162/2088 [2:24:34<1:50:01,  7.13s/it]
+2025-10-06 17:33:05 - ERROR - stderr - 
+2025-10-06 17:33:05 - ERROR - stderr - 
+2025-10-06 17:33:05 - INFO - stdout - {'loss': 1.1427, 'learning_rate': 0.0004331029969925537, 'epoch': 3.34}
+2025-10-06 17:33:05 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▊                                             | 1162/2088 [2:24:34<1:50:01,  7.13s/it]
+2025-10-06 17:33:12 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▊                                             | 1163/2088 [2:24:41<1:49:03,  7.07s/it]
+2025-10-06 17:33:12 - ERROR - stderr - 
+2025-10-06 17:33:12 - ERROR - stderr - 
+2025-10-06 17:33:12 - INFO - stdout - {'loss': 1.0796, 'learning_rate': 0.0004323343501249346, 'epoch': 3.34}
+2025-10-06 17:33:12 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▊                                             | 1163/2088 [2:24:41<1:49:03,  7.07s/it]
+2025-10-06 17:33:19 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▊                                             | 1164/2088 [2:24:48<1:48:45,  7.06s/it]
+2025-10-06 17:33:19 - ERROR - stderr - 
+2025-10-06 17:33:19 - ERROR - stderr - 
+2025-10-06 17:33:19 - INFO - stdout - {'loss': 1.0871, 'learning_rate': 0.0004315658661186016, 'epoch': 3.34}
+2025-10-06 17:33:19 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▊                                             | 1164/2088 [2:24:48<1:48:45,  7.06s/it]
+2025-10-06 17:33:27 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▉                                             | 1165/2088 [2:24:55<1:50:47,  7.20s/it]
+2025-10-06 17:33:27 - ERROR - stderr - 
+2025-10-06 17:33:27 - ERROR - stderr - 
+2025-10-06 17:33:27 - INFO - stdout - {'loss': 1.1895, 'learning_rate': 0.00043079754682318305, 'epoch': 3.35}
+2025-10-06 17:33:27 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▉                                             | 1165/2088 [2:24:55<1:50:47,  7.20s/it]
+2025-10-06 17:33:34 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▉                                             | 1166/2088 [2:25:02<1:49:50,  7.15s/it]
+2025-10-06 17:33:34 - ERROR - stderr - 
+2025-10-06 17:33:34 - ERROR - stderr - 
+2025-10-06 17:33:34 - INFO - stdout - {'loss': 1.1064, 'learning_rate': 0.00043002939408791075, 'epoch': 3.35}
+2025-10-06 17:33:34 - ERROR - stderr -  56%|████████████████████████████████████████████████████████▉                                             | 1166/2088 [2:25:02<1:49:50,  7.15s/it]
+2025-10-06 17:33:41 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████                                             | 1167/2088 [2:25:09<1:49:57,  7.16s/it]
+2025-10-06 17:33:41 - ERROR - stderr - 
+2025-10-06 17:33:41 - ERROR - stderr - 
+2025-10-06 17:33:41 - INFO - stdout - {'loss': 1.1318, 'learning_rate': 0.00042926140976161554, 'epoch': 3.35}
+2025-10-06 17:33:41 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████                                             | 1167/2088 [2:25:09<1:49:57,  7.16s/it]
+2025-10-06 17:33:48 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████                                             | 1168/2088 [2:25:16<1:48:41,  7.09s/it]
+2025-10-06 17:33:48 - ERROR - stderr - 
+2025-10-06 17:33:48 - ERROR - stderr - 
+2025-10-06 17:33:48 - INFO - stdout - {'loss': 1.0531, 'learning_rate': 0.0004284935956927229, 'epoch': 3.36}
+2025-10-06 17:33:48 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████                                             | 1168/2088 [2:25:16<1:48:41,  7.09s/it]
+2025-10-06 17:33:55 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████                                             | 1169/2088 [2:25:24<1:50:33,  7.22s/it]
+2025-10-06 17:33:55 - ERROR - stderr - 
+2025-10-06 17:33:55 - ERROR - stderr - 
+2025-10-06 17:33:55 - INFO - stdout - {'loss': 1.0917, 'learning_rate': 0.0004277259537292487, 'epoch': 3.36}
+2025-10-06 17:33:55 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████                                             | 1169/2088 [2:25:24<1:50:33,  7.22s/it]
+2025-10-06 17:34:03 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▏                                            | 1170/2088 [2:25:31<1:50:49,  7.24s/it]
+2025-10-06 17:34:03 - ERROR - stderr - 
+2025-10-06 17:34:03 - ERROR - stderr - 
+2025-10-06 17:34:03 - INFO - stdout - {'loss': 1.1799, 'learning_rate': 0.00042695848571879425, 'epoch': 3.36}
+2025-10-06 17:34:03 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▏                                            | 1170/2088 [2:25:31<1:50:49,  7.24s/it]
+2025-10-06 17:34:10 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▏                                            | 1171/2088 [2:25:38<1:50:10,  7.21s/it]
+2025-10-06 17:34:10 - ERROR - stderr - 
+2025-10-06 17:34:10 - ERROR - stderr - 
+2025-10-06 17:34:10 - INFO - stdout - {'loss': 1.1172, 'learning_rate': 0.0004261911935085425, 'epoch': 3.36}
+2025-10-06 17:34:10 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▏                                            | 1171/2088 [2:25:38<1:50:10,  7.21s/it]
+2025-10-06 17:34:17 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▎                                            | 1172/2088 [2:25:45<1:49:55,  7.20s/it]
+2025-10-06 17:34:17 - ERROR - stderr - 
+2025-10-06 17:34:17 - ERROR - stderr - 
+2025-10-06 17:34:17 - INFO - stdout - {'loss': 1.1582, 'learning_rate': 0.0004254240789452532, 'epoch': 3.37}
+2025-10-06 17:34:17 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▎                                            | 1172/2088 [2:25:45<1:49:55,  7.20s/it]
+2025-10-06 17:34:24 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▎                                            | 1173/2088 [2:25:52<1:48:05,  7.09s/it]
+2025-10-06 17:34:24 - ERROR - stderr - 
+2025-10-06 17:34:24 - ERROR - stderr - 
+2025-10-06 17:34:24 - INFO - stdout - {'loss': 1.1074, 'learning_rate': 0.00042465714387525844, 'epoch': 3.37}
+2025-10-06 17:34:24 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▎                                            | 1173/2088 [2:25:52<1:48:05,  7.09s/it]
+2025-10-06 17:34:31 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▎                                            | 1174/2088 [2:25:59<1:47:39,  7.07s/it]
+2025-10-06 17:34:31 - ERROR - stderr - 
+2025-10-06 17:34:31 - ERROR - stderr - 
+2025-10-06 17:34:31 - INFO - stdout - {'loss': 1.0945, 'learning_rate': 0.0004238903901444584, 'epoch': 3.37}
+2025-10-06 17:34:31 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▎                                            | 1174/2088 [2:25:59<1:47:39,  7.07s/it]
+2025-10-06 17:34:38 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▍                                            | 1175/2088 [2:26:06<1:47:05,  7.04s/it]
+2025-10-06 17:34:38 - ERROR - stderr - 
+2025-10-06 17:34:38 - ERROR - stderr - 
+2025-10-06 17:34:38 - INFO - stdout - {'loss': 1.1258, 'learning_rate': 0.0004231238195983167, 'epoch': 3.38}
+2025-10-06 17:34:38 - ERROR - stderr -  56%|███████████████████████████████��█████████████████████████▍                                            | 1175/2088 [2:26:06<1:47:05,  7.04s/it]
+2025-10-06 17:34:45 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▍                                            | 1176/2088 [2:26:13<1:48:08,  7.12s/it]
+2025-10-06 17:34:45 - ERROR - stderr - 
+2025-10-06 17:34:45 - ERROR - stderr - 
+2025-10-06 17:34:45 - INFO - stdout - {'loss': 1.0785, 'learning_rate': 0.0004223574340818563, 'epoch': 3.38}
+2025-10-06 17:34:45 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▍                                            | 1176/2088 [2:26:13<1:48:08,  7.12s/it]
+2025-10-06 17:34:52 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▍                                            | 1177/2088 [2:26:21<1:47:45,  7.10s/it]
+2025-10-06 17:34:52 - ERROR - stderr - 
+2025-10-06 17:34:52 - ERROR - stderr - 
+2025-10-06 17:34:52 - INFO - stdout - {'loss': 1.0812, 'learning_rate': 0.00042159123543965434, 'epoch': 3.38}
+2025-10-06 17:34:52 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▍                                            | 1177/2088 [2:26:21<1:47:45,  7.10s/it]
+2025-10-06 17:34:59 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▌                                            | 1178/2088 [2:26:28<1:47:55,  7.12s/it]
+2025-10-06 17:34:59 - ERROR - stderr - 
+2025-10-06 17:34:59 - ERROR - stderr - 
+2025-10-06 17:34:59 - INFO - stdout - {'loss': 1.1946, 'learning_rate': 0.00042082522551583864, 'epoch': 3.39}
+2025-10-06 17:34:59 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▌                                            | 1178/2088 [2:26:28<1:47:55,  7.12s/it]
+2025-10-06 17:35:06 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▌                                            | 1179/2088 [2:26:34<1:45:38,  6.97s/it]
+2025-10-06 17:35:06 - ERROR - stderr - 
+2025-10-06 17:35:06 - ERROR - stderr - 
+2025-10-06 17:35:06 - INFO - stdout - {'loss': 1.067, 'learning_rate': 0.0004200594061540826, 'epoch': 3.39}
+2025-10-06 17:35:06 - ERROR - stderr -  56%|█████████████████████████████████████████████████████████▌                                            | 1179/2088 [2:26:34<1:45:38,  6.97s/it]
+2025-10-06 17:35:13 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▋                                            | 1180/2088 [2:26:41<1:44:33,  6.91s/it]
+2025-10-06 17:35:13 - ERROR - stderr - 
+2025-10-06 17:35:13 - ERROR - stderr - 
+2025-10-06 17:35:13 - INFO - stdout - {'loss': 1.1152, 'learning_rate': 0.000419293779197601, 'epoch': 3.39}
+2025-10-06 17:35:13 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▋                                            | 1180/2088 [2:26:41<1:44:33,  6.91s/it]
+2025-10-06 17:35:20 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▋                                            | 1181/2088 [2:26:48<1:45:06,  6.95s/it]
+2025-10-06 17:35:20 - ERROR - stderr - 
+2025-10-06 17:35:20 - ERROR - stderr - 
+2025-10-06 17:35:20 - INFO - stdout - {'loss': 1.1436, 'learning_rate': 0.00041852834648914563, 'epoch': 3.39}
+2025-10-06 17:35:20 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▋                                            | 1181/2088 [2:26:48<1:45:06,  6.95s/it]
+2025-10-06 17:35:27 - ERROR - stderr -  57%|██████████████████████████████���██████████████████████████▋                                            | 1182/2088 [2:26:56<1:46:50,  7.08s/it]
+2025-10-06 17:35:27 - ERROR - stderr - 
+2025-10-06 17:35:27 - ERROR - stderr - 
+2025-10-06 17:35:27 - INFO - stdout - {'loss': 1.1282, 'learning_rate': 0.0004177631098710005, 'epoch': 3.4}
+2025-10-06 17:35:27 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▋                                            | 1182/2088 [2:26:56<1:46:50,  7.08s/it]
+2025-10-06 17:35:34 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▊                                            | 1183/2088 [2:27:02<1:45:53,  7.02s/it]
+2025-10-06 17:35:34 - ERROR - stderr - 
+2025-10-06 17:35:34 - ERROR - stderr - 
+2025-10-06 17:35:34 - INFO - stdout - {'loss': 1.1321, 'learning_rate': 0.0004169980711849781, 'epoch': 3.4}
+2025-10-06 17:35:34 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▊                                            | 1183/2088 [2:27:02<1:45:53,  7.02s/it]
+2025-10-06 17:35:41 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▊                                            | 1184/2088 [2:27:09<1:45:41,  7.01s/it]
+2025-10-06 17:35:41 - ERROR - stderr - 
+2025-10-06 17:35:41 - ERROR - stderr - 
+2025-10-06 17:35:41 - INFO - stdout - {'loss': 1.0552, 'learning_rate': 0.0004162332322724139, 'epoch': 3.4}
+2025-10-06 17:35:41 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▊                                            | 1184/2088 [2:27:09<1:45:41,  7.01s/it]
+2025-10-06 17:35:48 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▉                                            | 1185/2088 [2:27:17<1:47:38,  7.15s/it]
+2025-10-06 17:35:48 - ERROR - stderr - 
+2025-10-06 17:35:48 - ERROR - stderr - 
+2025-10-06 17:35:48 - INFO - stdout - {'loss': 1.1434, 'learning_rate': 0.000415468594974163, 'epoch': 3.41}
+2025-10-06 17:35:48 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▉                                            | 1185/2088 [2:27:17<1:47:38,  7.15s/it]
+2025-10-06 17:35:56 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▉                                            | 1186/2088 [2:27:24<1:48:13,  7.20s/it]
+2025-10-06 17:35:56 - ERROR - stderr - 
+2025-10-06 17:35:56 - ERROR - stderr - 
+2025-10-06 17:35:56 - INFO - stdout - {'loss': 0.9777, 'learning_rate': 0.0004147041611305952, 'epoch': 3.41}
+2025-10-06 17:35:56 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▉                                            | 1186/2088 [2:27:24<1:48:13,  7.20s/it]
+2025-10-06 17:36:03 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▉                                            | 1187/2088 [2:27:31<1:47:34,  7.16s/it]
+2025-10-06 17:36:03 - ERROR - stderr - 
+2025-10-06 17:36:03 - ERROR - stderr - 
+2025-10-06 17:36:03 - INFO - stdout - {'loss': 1.1401, 'learning_rate': 0.0004139399325815905, 'epoch': 3.41}
+2025-10-06 17:36:03 - ERROR - stderr -  57%|█████████████████████████████████████████████████████████▉                                            | 1187/2088 [2:27:31<1:47:34,  7.16s/it]
+2025-10-06 17:36:10 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████                                            | 1188/2088 [2:27:38<1:47:09,  7.14s/it]
+2025-10-06 17:36:10 - ERROR - stderr - 
+2025-10-06 17:36:10 - ERROR - stderr - 
+2025-10-06 17:36:10 - INFO - stdout - {'loss': 1.1323, 'learning_rate': 0.00041317591116653486, 'epoch': 3.41}
+2025-10-06 17:36:10 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████                                            | 1188/2088 [2:27:38<1:47:09,  7.14s/it]
+2025-10-06 17:36:17 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████                                            | 1189/2088 [2:27:45<1:46:57,  7.14s/it]
+2025-10-06 17:36:17 - ERROR - stderr - 
+2025-10-06 17:36:17 - ERROR - stderr - 
+2025-10-06 17:36:17 - INFO - stdout - {'loss': 1.139, 'learning_rate': 0.00041241209872431564, 'epoch': 3.42}
+2025-10-06 17:36:17 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████                                            | 1189/2088 [2:27:46<1:46:57,  7.14s/it]
+2025-10-06 17:36:24 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▏                                           | 1190/2088 [2:27:52<1:44:50,  7.00s/it]
+2025-10-06 17:36:24 - ERROR - stderr - 
+2025-10-06 17:36:24 - ERROR - stderr - 
+2025-10-06 17:36:24 - INFO - stdout - {'loss': 1.0547, 'learning_rate': 0.0004116484970933174, 'epoch': 3.42}
+2025-10-06 17:36:24 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▏                                           | 1190/2088 [2:27:52<1:44:50,  7.00s/it]
+2025-10-06 17:36:31 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▏                                           | 1191/2088 [2:27:59<1:45:53,  7.08s/it]
+2025-10-06 17:36:31 - ERROR - stderr - 
+2025-10-06 17:36:31 - ERROR - stderr - 
+2025-10-06 17:36:31 - INFO - stdout - {'loss': 1.1146, 'learning_rate': 0.0004108851081114169, 'epoch': 3.42}
+2025-10-06 17:36:31 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▏                                           | 1191/2088 [2:27:59<1:45:53,  7.08s/it]
+2025-10-06 17:36:38 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▏                                           | 1192/2088 [2:28:06<1:45:36,  7.07s/it]
+2025-10-06 17:36:38 - ERROR - stderr - 
+2025-10-06 17:36:38 - ERROR - stderr - 
+2025-10-06 17:36:38 - INFO - stdout - {'loss': 1.1124, 'learning_rate': 0.0004101219336159795, 'epoch': 3.43}
+2025-10-06 17:36:38 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▏                                           | 1192/2088 [2:28:07<1:45:36,  7.07s/it]
+2025-10-06 17:36:45 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▎                                           | 1193/2088 [2:28:13<1:43:37,  6.95s/it]
+2025-10-06 17:36:45 - ERROR - stderr - 
+2025-10-06 17:36:45 - ERROR - stderr - 
+2025-10-06 17:36:45 - INFO - stdout - {'loss': 1.0973, 'learning_rate': 0.00040935897544385424, 'epoch': 3.43}
+2025-10-06 17:36:45 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▎                                           | 1193/2088 [2:28:13<1:43:37,  6.95s/it]
+2025-10-06 17:36:52 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▎                                           | 1194/2088 [2:28:20<1:43:48,  6.97s/it]
+2025-10-06 17:36:52 - ERROR - stderr - 
+2025-10-06 17:36:52 - ERROR - stderr - 
+2025-10-06 17:36:52 - INFO - stdout - {'loss': 1.1036, 'learning_rate': 0.0004085962354313694, 'epoch': 3.43}
+2025-10-06 17:36:52 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▎                                           | 1194/2088 [2:28:20<1:43:48,  6.97s/it]
+2025-10-06 17:36:59 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▍                                           | 1195/2088 [2:28:27<1:45:15,  7.07s/it]
+2025-10-06 17:36:59 - ERROR - stderr - 
+2025-10-06 17:36:59 - ERROR - stderr - 
+2025-10-06 17:36:59 - INFO - stdout - {'loss': 1.0389, 'learning_rate': 0.0004078337154143281, 'epoch': 3.43}
+2025-10-06 17:36:59 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▍                                           | 1195/2088 [2:28:27<1:45:15,  7.07s/it]
+2025-10-06 17:37:06 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▍                                           | 1196/2088 [2:28:35<1:45:30,  7.10s/it]
+2025-10-06 17:37:06 - ERROR - stderr - 
+2025-10-06 17:37:06 - ERROR - stderr - 
+2025-10-06 17:37:06 - INFO - stdout - {'loss': 1.0622, 'learning_rate': 0.00040707141722800427, 'epoch': 3.44}
+2025-10-06 17:37:06 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▍                                           | 1196/2088 [2:28:35<1:45:30,  7.10s/it]
+2025-10-06 17:37:13 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▍                                           | 1197/2088 [2:28:42<1:45:31,  7.11s/it]
+2025-10-06 17:37:13 - ERROR - stderr - 
+2025-10-06 17:37:13 - ERROR - stderr - 
+2025-10-06 17:37:13 - INFO - stdout - {'loss': 1.1476, 'learning_rate': 0.0004063093427071376, 'epoch': 3.44}
+2025-10-06 17:37:13 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▍                                           | 1197/2088 [2:28:42<1:45:31,  7.11s/it]
+2025-10-06 17:37:20 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▌                                           | 1198/2088 [2:28:49<1:43:55,  7.01s/it]
+2025-10-06 17:37:20 - ERROR - stderr - 
+2025-10-06 17:37:20 - ERROR - stderr - 
+2025-10-06 17:37:20 - INFO - stdout - {'loss': 1.0923, 'learning_rate': 0.00040554749368592994, 'epoch': 3.44}
+2025-10-06 17:37:20 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▌                                           | 1198/2088 [2:28:49<1:43:55,  7.01s/it]
+2025-10-06 17:37:28 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▌                                           | 1199/2088 [2:28:56<1:46:00,  7.16s/it]
+2025-10-06 17:37:28 - ERROR - stderr - 
+2025-10-06 17:37:28 - ERROR - stderr - 
+2025-10-06 17:37:28 - INFO - stdout - {'loss': 1.0991, 'learning_rate': 0.0004047858719980396, 'epoch': 3.45}
+2025-10-06 17:37:28 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▌                                           | 1199/2088 [2:28:56<1:46:00,  7.16s/it]
+2025-10-06 17:37:34 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▌                                           | 1200/2088 [2:29:03<1:43:49,  7.02s/it]
+2025-10-06 17:37:34 - ERROR - stderr - 
+2025-10-06 17:37:34 - ERROR - stderr - 
+2025-10-06 17:37:34 - INFO - stdout - {'loss': 1.1234, 'learning_rate': 0.0004040244794765783, 'epoch': 3.45}
+2025-10-06 17:37:34 - ERROR - stderr -  57%|██████████████████████████████████████████████████████████▌                                           | 1200/2088 [2:29:03<1:43:49,  7.02s/it]
+2025-10-06 17:37:35 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200
+2025-10-06 17:37:35 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200
+2025-10-06 17:37:35 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/config.json
+2025-10-06 17:37:35 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/config.json
+2025-10-06 17:37:35 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/generation_config.json
+2025-10-06 17:37:35 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/generation_config.json
+2025-10-06 17:38:13 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/pytorch_model.bin.index.json.
+2025-10-06 17:38:13 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/pytorch_model.bin.index.json.
+2025-10-06 17:38:13 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/tokenizer_config.json
+2025-10-06 17:38:13 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/tokenizer_config.json
+2025-10-06 17:38:13 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/special_tokens_map.json
+2025-10-06 17:38:13 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/special_tokens_map.json
+2025-10-06 17:38:13 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/added_tokens.json
+2025-10-06 17:38:13 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200/added_tokens.json
+2025-10-06 17:38:15 - INFO - transformers.trainer - Deleting older checkpoint [epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800] due to args.save_total_limit
+2025-10-06 17:38:15 - INFO - transformers.trainer - Deleting older checkpoint [epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-800] due to args.save_total_limit
+2025-10-06 17:38:21 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 17:38:21 - ERROR - stderr -   warnings.warn(
+2025-10-06 17:38:25 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▋                                           | 1201/2088 [2:29:54<4:58:41, 20.20s/it]
+2025-10-06 17:38:25 - ERROR - stderr - 
+2025-10-06 17:38:25 - ERROR - stderr - 
+2025-10-06 17:38:25 - INFO - stdout - {'loss': 1.1391, 'learning_rate': 0.00040326331795410614, 'epoch': 3.45}
+2025-10-06 17:38:25 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▋                                           | 1201/2088 [2:29:54<4:58:41, 20.20s/it]
+2025-10-06 17:38:32 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▋                                           | 1202/2088 [2:30:01<3:59:07, 16.19s/it]
+2025-10-06 17:38:32 - ERROR - stderr - 
+2025-10-06 17:38:32 - ERROR - stderr - 
+2025-10-06 17:38:32 - INFO - stdout - {'loss': 1.0998, 'learning_rate': 0.0004025023892626272, 'epoch': 3.45}
+2025-10-06 17:38:32 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▋                                           | 1202/2088 [2:30:01<3:59:07, 16.19s/it]
+2025-10-06 17:38:39 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▊                                           | 1203/2088 [2:30:08<3:18:25, 13.45s/it]
+2025-10-06 17:38:39 - ERROR - stderr - 
+2025-10-06 17:38:39 - ERROR - stderr - 
+2025-10-06 17:38:39 - INFO - stdout - {'loss': 1.1592, 'learning_rate': 0.0004017416952335849, 'epoch': 3.46}
+2025-10-06 17:38:39 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▊                                           | 1203/2088 [2:30:08<3:18:25, 13.45s/it]
+2025-10-06 17:38:46 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▊                                           | 1204/2088 [2:30:15<2:50:17, 11.56s/it]
+2025-10-06 17:38:46 - ERROR - stderr - 
+2025-10-06 17:38:46 - ERROR - stderr - 
+2025-10-06 17:38:46 - INFO - stdout - {'loss': 1.1339, 'learning_rate': 0.00040098123769785843, 'epoch': 3.46}
+2025-10-06 17:38:46 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▊                                           | 1204/2088 [2:30:15<2:50:17, 11.56s/it]
+2025-10-06 17:38:53 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▊                                           | 1205/2088 [2:30:22<2:29:14, 10.14s/it]
+2025-10-06 17:38:53 - ERROR - stderr - 
+2025-10-06 17:38:53 - ERROR - stderr - 
+2025-10-06 17:38:53 - INFO - stdout - {'loss': 1.1047, 'learning_rate': 0.00040022101848575755, 'epoch': 3.46}
+2025-10-06 17:38:53 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▊                                           | 1205/2088 [2:30:22<2:29:14, 10.14s/it]
+2025-10-06 17:39:00 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▉                                           | 1206/2088 [2:30:29<2:16:09,  9.26s/it]
+2025-10-06 17:39:00 - ERROR - stderr - 
+2025-10-06 17:39:00 - ERROR - stderr - 
+2025-10-06 17:39:00 - INFO - stdout - {'loss': 1.1565, 'learning_rate': 0.0003994610394270178, 'epoch': 3.47}
+2025-10-06 17:39:00 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▉                                           | 1206/2088 [2:30:29<2:16:09,  9.26s/it]
+2025-10-06 17:39:07 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▉                                           | 1207/2088 [2:30:36<2:05:40,  8.56s/it]
+2025-10-06 17:39:07 - ERROR - stderr - 
+2025-10-06 17:39:07 - ERROR - stderr - 
+2025-10-06 17:39:07 - INFO - stdout - {'loss': 1.011, 'learning_rate': 0.0003987013023507975, 'epoch': 3.47}
+2025-10-06 17:39:07 - ERROR - stderr -  58%|██████████████████████████████████████████████████████████▉                                           | 1207/2088 [2:30:36<2:05:40,  8.56s/it]
+2025-10-06 17:39:14 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████                                           | 1208/2088 [2:30:43<1:58:25,  8.07s/it]
+2025-10-06 17:39:14 - ERROR - stderr - 
+2025-10-06 17:39:14 - ERROR - stderr - 
+2025-10-06 17:39:14 - INFO - stdout - {'loss': 1.1354, 'learning_rate': 0.00039794180908567223, 'epoch': 3.47}
+2025-10-06 17:39:14 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████                                           | 1208/2088 [2:30:43<1:58:25,  8.07s/it]
+2025-10-06 17:39:22 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████                                           | 1209/2088 [2:30:50<1:55:10,  7.86s/it]
+2025-10-06 17:39:22 - ERROR - stderr - 
+2025-10-06 17:39:22 - ERROR - stderr - 
+2025-10-06 17:39:22 - INFO - stdout - {'loss': 1.1952, 'learning_rate': 0.00039718256145963073, 'epoch': 3.47}
+2025-10-06 17:39:22 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████                                           | 1209/2088 [2:30:50<1:55:10,  7.86s/it]
+2025-10-06 17:39:28 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████                                           | 1210/2088 [2:30:57<1:50:25,  7.55s/it]
+2025-10-06 17:39:28 - ERROR - stderr - 
+2025-10-06 17:39:28 - ERROR - stderr - 
+2025-10-06 17:39:28 - INFO - stdout - {'loss': 1.0661, 'learning_rate': 0.00039642356130007074, 'epoch': 3.48}
+2025-10-06 17:39:28 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████                                           | 1210/2088 [2:30:57<1:50:25,  7.55s/it]
+2025-10-06 17:39:35 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▏                                          | 1211/2088 [2:31:04<1:47:37,  7.36s/it]
+2025-10-06 17:39:35 - ERROR - stderr - 
+2025-10-06 17:39:35 - ERROR - stderr - 
+2025-10-06 17:39:35 - INFO - stdout - {'loss': 1.1195, 'learning_rate': 0.00039566481043379413, 'epoch': 3.48}
+2025-10-06 17:39:35 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▏                                          | 1211/2088 [2:31:04<1:47:37,  7.36s/it]
+2025-10-06 17:39:42 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▏                                          | 1212/2088 [2:31:11<1:46:53,  7.32s/it]
+2025-10-06 17:39:42 - ERROR - stderr - 
+2025-10-06 17:39:42 - ERROR - stderr - 
+2025-10-06 17:39:42 - INFO - stdout - {'loss': 1.0968, 'learning_rate': 0.00039490631068700313, 'epoch': 3.48}
+2025-10-06 17:39:42 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▏                                          | 1212/2088 [2:31:11<1:46:53,  7.32s/it]
+2025-10-06 17:39:50 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▎                                          | 1213/2088 [2:31:19<1:49:29,  7.51s/it]
+2025-10-06 17:39:50 - ERROR - stderr - 
+2025-10-06 17:39:50 - ERROR - stderr - 
+2025-10-06 17:39:50 - INFO - stdout - {'loss': 1.1565, 'learning_rate': 0.00039414806388529477, 'epoch': 3.49}
+2025-10-06 17:39:50 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▎                                          | 1213/2088 [2:31:19<1:49:29,  7.51s/it]
+2025-10-06 17:39:57 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▎                                          | 1214/2088 [2:31:26<1:47:07,  7.35s/it]
+2025-10-06 17:39:57 - ERROR - stderr - 
+2025-10-06 17:39:57 - ERROR - stderr - 
+2025-10-06 17:39:57 - INFO - stdout - {'loss': 1.0669, 'learning_rate': 0.0003933900718536579, 'epoch': 3.49}
+2025-10-06 17:39:57 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▎                                          | 1214/2088 [2:31:26<1:47:07,  7.35s/it]
+2025-10-06 17:40:05 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▎                                          | 1215/2088 [2:31:33<1:46:20,  7.31s/it]
+2025-10-06 17:40:05 - ERROR - stderr - 
+2025-10-06 17:40:05 - ERROR - stderr - 
+2025-10-06 17:40:05 - INFO - stdout - {'loss': 1.139, 'learning_rate': 0.0003926323364164684, 'epoch': 3.49}
+2025-10-06 17:40:05 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▎                                          | 1215/2088 [2:31:33<1:46:20,  7.31s/it]
+2025-10-06 17:40:12 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▍                                          | 1216/2088 [2:31:41<1:48:04,  7.44s/it]
+2025-10-06 17:40:12 - ERROR - stderr - 
+2025-10-06 17:40:12 - ERROR - stderr - 
+2025-10-06 17:40:12 - INFO - stdout - {'loss': 1.1439, 'learning_rate': 0.000391874859397484, 'epoch': 3.49}
+2025-10-06 17:40:12 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▍                                          | 1216/2088 [2:31:41<1:48:04,  7.44s/it]
+2025-10-06 17:40:19 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▍                                          | 1217/2088 [2:31:48<1:45:29,  7.27s/it]
+2025-10-06 17:40:19 - ERROR - stderr - 
+2025-10-06 17:40:19 - ERROR - stderr - 
+2025-10-06 17:40:19 - INFO - stdout - {'loss': 1.1568, 'learning_rate': 0.00039111764261984077, 'epoch': 3.5}
+2025-10-06 17:40:19 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▍                                          | 1217/2088 [2:31:48<1:45:29,  7.27s/it]
+2025-10-06 17:40:26 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▌                                          | 1218/2088 [2:31:55<1:44:44,  7.22s/it]
+2025-10-06 17:40:26 - ERROR - stderr - 
+2025-10-06 17:40:26 - ERROR - stderr - 
+2025-10-06 17:40:26 - INFO - stdout - {'loss': 1.1454, 'learning_rate': 0.0003903606879060483, 'epoch': 3.5}
+2025-10-06 17:40:26 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▌                                          | 1218/2088 [2:31:55<1:44:44,  7.22s/it]
+2025-10-06 17:40:33 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▌                                          | 1219/2088 [2:32:02<1:43:02,  7.11s/it]
+2025-10-06 17:40:33 - ERROR - stderr - 
+2025-10-06 17:40:33 - ERROR - stderr - 
+2025-10-06 17:40:33 - INFO - stdout - {'loss': 1.1343, 'learning_rate': 0.0003896039970779857, 'epoch': 3.5}
+2025-10-06 17:40:33 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▌                                          | 1219/2088 [2:32:02<1:43:02,  7.11s/it]
+2025-10-06 17:40:40 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▌                                          | 1220/2088 [2:32:09<1:42:19,  7.07s/it]
+2025-10-06 17:40:40 - ERROR - stderr - 
+2025-10-06 17:40:40 - ERROR - stderr - 
+2025-10-06 17:40:40 - INFO - stdout - {'loss': 1.0951, 'learning_rate': 0.0003888475719568961, 'epoch': 3.51}
+2025-10-06 17:40:40 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▌                                          | 1220/2088 [2:32:09<1:42:19,  7.07s/it]
+2025-10-06 17:40:47 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▋                                          | 1221/2088 [2:32:16<1:41:59,  7.06s/it]
+2025-10-06 17:40:47 - ERROR - stderr - 
+2025-10-06 17:40:47 - ERROR - stderr - 
+2025-10-06 17:40:47 - INFO - stdout - {'loss': 1.0398, 'learning_rate': 0.00038809141436338434, 'epoch': 3.51}
+2025-10-06 17:40:47 - ERROR - stderr -  58%|███████████████████████████████████████████████████████████▋                                          | 1221/2088 [2:32:16<1:41:59,  7.06s/it]
+2025-10-06 17:40:54 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▋                                          | 1222/2088 [2:32:23<1:40:56,  6.99s/it]
+2025-10-06 17:40:54 - ERROR - stderr - 
+2025-10-06 17:40:54 - ERROR - stderr - 
+2025-10-06 17:40:54 - INFO - stdout - {'loss': 1.1971, 'learning_rate': 0.00038733552611741053, 'epoch': 3.51}
+2025-10-06 17:40:54 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▋                                          | 1222/2088 [2:32:23<1:40:56,  6.99s/it]
+2025-10-06 17:41:01 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▋                                          | 1223/2088 [2:32:29<1:40:28,  6.97s/it]
+2025-10-06 17:41:01 - ERROR - stderr - 
+2025-10-06 17:41:01 - ERROR - stderr - 
+2025-10-06 17:41:01 - INFO - stdout - {'loss': 1.1419, 'learning_rate': 0.0003865799090382866, 'epoch': 3.51}
+2025-10-06 17:41:01 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▋                                          | 1223/2088 [2:32:29<1:40:28,  6.97s/it]
+2025-10-06 17:41:08 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▊                                          | 1224/2088 [2:32:37<1:40:58,  7.01s/it]
+2025-10-06 17:41:08 - ERROR - stderr - 
+2025-10-06 17:41:08 - ERROR - stderr - 
+2025-10-06 17:41:08 - INFO - stdout - {'loss': 1.0533, 'learning_rate': 0.0003858245649446721, 'epoch': 3.52}
+2025-10-06 17:41:08 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▊                                          | 1224/2088 [2:32:37<1:40:58,  7.01s/it]
+2025-10-06 17:41:15 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▊                                          | 1225/2088 [2:32:43<1:39:13,  6.90s/it]
+2025-10-06 17:41:15 - ERROR - stderr - 
+2025-10-06 17:41:15 - ERROR - stderr - 
+2025-10-06 17:41:15 - INFO - stdout - {'loss': 1.1525, 'learning_rate': 0.0003850694956545694, 'epoch': 3.52}
+2025-10-06 17:41:15 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▊                                          | 1225/2088 [2:32:43<1:39:13,  6.90s/it]
+2025-10-06 17:41:21 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▉                                          | 1226/2088 [2:32:50<1:38:32,  6.86s/it]
+2025-10-06 17:41:21 - ERROR - stderr - 
+2025-10-06 17:41:21 - ERROR - stderr - 
+2025-10-06 17:41:21 - INFO - stdout - {'loss': 1.0634, 'learning_rate': 0.0003843147029853194, 'epoch': 3.52}
+2025-10-06 17:41:21 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▉                                          | 1226/2088 [2:32:50<1:38:32,  6.86s/it]
+2025-10-06 17:41:28 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▉                                          | 1227/2088 [2:32:57<1:38:41,  6.88s/it]
+2025-10-06 17:41:28 - ERROR - stderr - 
+2025-10-06 17:41:28 - ERROR - stderr - 
+2025-10-06 17:41:28 - INFO - stdout - {'loss': 1.1188, 'learning_rate': 0.0003835601887535971, 'epoch': 3.53}
+2025-10-06 17:41:28 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▉                                          | 1227/2088 [2:32:57<1:38:41,  6.88s/it]
+2025-10-06 17:41:36 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▉                                          | 1228/2088 [2:33:04<1:40:53,  7.04s/it]
+2025-10-06 17:41:36 - ERROR - stderr - 
+2025-10-06 17:41:36 - ERROR - stderr - 
+2025-10-06 17:41:36 - INFO - stdout - {'loss': 1.2265, 'learning_rate': 0.0003828059547754077, 'epoch': 3.53}
+2025-10-06 17:41:36 - ERROR - stderr -  59%|███████████████████████████████████████████████████████████▉                                          | 1228/2088 [2:33:04<1:40:53,  7.04s/it]
+2025-10-06 17:41:43 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████                                          | 1229/2088 [2:33:11<1:40:33,  7.02s/it]
+2025-10-06 17:41:43 - ERROR - stderr - 
+2025-10-06 17:41:43 - ERROR - stderr - 
+2025-10-06 17:41:43 - INFO - stdout - {'loss': 1.1111, 'learning_rate': 0.0003820520028660815, 'epoch': 3.53}
+2025-10-06 17:41:43 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████                                          | 1229/2088 [2:33:11<1:40:33,  7.02s/it]
+2025-10-06 17:41:50 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████                                          | 1230/2088 [2:33:18<1:40:23,  7.02s/it]
+2025-10-06 17:41:50 - ERROR - stderr - 
+2025-10-06 17:41:50 - ERROR - stderr - 
+2025-10-06 17:41:50 - INFO - stdout - {'loss': 1.0358, 'learning_rate': 0.0003812983348402703, 'epoch': 3.53}
+2025-10-06 17:41:50 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████                                          | 1230/2088 [2:33:18<1:40:23,  7.02s/it]
+2025-10-06 17:41:57 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▏                                         | 1231/2088 [2:33:25<1:39:25,  6.96s/it]
+2025-10-06 17:41:57 - ERROR - stderr - 
+2025-10-06 17:41:57 - ERROR - stderr - 
+2025-10-06 17:41:57 - INFO - stdout - {'loss': 1.1176, 'learning_rate': 0.00038054495251194217, 'epoch': 3.54}
+2025-10-06 17:41:57 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▏                                         | 1231/2088 [2:33:25<1:39:25,  6.96s/it]
+2025-10-06 17:42:04 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▏                                         | 1232/2088 [2:33:32<1:40:00,  7.01s/it]
+2025-10-06 17:42:04 - ERROR - stderr - 
+2025-10-06 17:42:04 - ERROR - stderr - 
+2025-10-06 17:42:04 - INFO - stdout - {'loss': 1.0404, 'learning_rate': 0.0003797918576943779, 'epoch': 3.54}
+2025-10-06 17:42:04 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▏                                         | 1232/2088 [2:33:32<1:40:00,  7.01s/it]
+2025-10-06 17:42:11 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▏                                         | 1233/2088 [2:33:39<1:40:04,  7.02s/it]
+2025-10-06 17:42:11 - ERROR - stderr - 
+2025-10-06 17:42:11 - ERROR - stderr - 
+2025-10-06 17:42:11 - INFO - stdout - {'loss': 1.1569, 'learning_rate': 0.0003790390522001662, 'epoch': 3.54}
+2025-10-06 17:42:11 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▏                                         | 1233/2088 [2:33:39<1:40:04,  7.02s/it]
+2025-10-06 17:42:18 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▎                                         | 1234/2088 [2:33:47<1:40:46,  7.08s/it]
+2025-10-06 17:42:18 - ERROR - stderr - 
+2025-10-06 17:42:18 - ERROR - stderr - 
+2025-10-06 17:42:18 - INFO - stdout - {'loss': 1.1015, 'learning_rate': 0.0003782865378411993, 'epoch': 3.55}
+2025-10-06 17:42:18 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▎                                         | 1234/2088 [2:33:47<1:40:46,  7.08s/it]
+2025-10-06 17:42:25 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▎                                         | 1235/2088 [2:33:54<1:41:24,  7.13s/it]
+2025-10-06 17:42:25 - ERROR - stderr - 
+2025-10-06 17:42:25 - ERROR - stderr - 
+2025-10-06 17:42:25 - INFO - stdout - {'loss': 1.0963, 'learning_rate': 0.00037753431642866876, 'epoch': 3.55}
+2025-10-06 17:42:25 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▎                                         | 1235/2088 [2:33:54<1:41:24,  7.13s/it]
+2025-10-06 17:42:32 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▍                                         | 1236/2088 [2:34:01<1:40:24,  7.07s/it]
+2025-10-06 17:42:32 - ERROR - stderr - 
+2025-10-06 17:42:32 - ERROR - stderr - 
+2025-10-06 17:42:32 - INFO - stdout - {'loss': 1.0757, 'learning_rate': 0.0003767823897730612, 'epoch': 3.55}
+2025-10-06 17:42:32 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▍                                         | 1236/2088 [2:34:01<1:40:24,  7.07s/it]
+2025-10-06 17:42:40 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▍                                         | 1237/2088 [2:34:08<1:41:53,  7.18s/it]
+2025-10-06 17:42:40 - ERROR - stderr - 
+2025-10-06 17:42:40 - ERROR - stderr - 
+2025-10-06 17:42:40 - INFO - stdout - {'loss': 1.1504, 'learning_rate': 0.0003760307596841536, 'epoch': 3.55}
+2025-10-06 17:42:40 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▍                                         | 1237/2088 [2:34:08<1:41:53,  7.18s/it]
+2025-10-06 17:42:47 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▍                                         | 1238/2088 [2:34:15<1:41:18,  7.15s/it]
+2025-10-06 17:42:47 - ERROR - stderr - 
+2025-10-06 17:42:47 - ERROR - stderr - 
+2025-10-06 17:42:47 - INFO - stdout - {'loss': 1.0463, 'learning_rate': 0.0003752794279710094, 'epoch': 3.56}
+2025-10-06 17:42:47 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▍                                         | 1238/2088 [2:34:15<1:41:18,  7.15s/it]
+2025-10-06 17:42:54 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▌                                         | 1239/2088 [2:34:22<1:40:12,  7.08s/it]
+2025-10-06 17:42:54 - ERROR - stderr - 
+2025-10-06 17:42:54 - ERROR - stderr - 
+2025-10-06 17:42:54 - INFO - stdout - {'loss': 1.0775, 'learning_rate': 0.00037452839644197354, 'epoch': 3.56}
+2025-10-06 17:42:54 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▌                                         | 1239/2088 [2:34:22<1:40:12,  7.08s/it]
+2025-10-06 17:43:01 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▌                                         | 1240/2088 [2:34:29<1:39:22,  7.03s/it]
+2025-10-06 17:43:01 - ERROR - stderr - 
+2025-10-06 17:43:01 - ERROR - stderr - 
+2025-10-06 17:43:01 - INFO - stdout - {'loss': 1.0404, 'learning_rate': 0.00037377766690466885, 'epoch': 3.56}
+2025-10-06 17:43:01 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▌                                         | 1240/2088 [2:34:29<1:39:22,  7.03s/it]
+2025-10-06 17:43:08 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▌                                         | 1241/2088 [2:34:36<1:39:00,  7.01s/it]
+2025-10-06 17:43:08 - ERROR - stderr - 
+2025-10-06 17:43:08 - ERROR - stderr - 
+2025-10-06 17:43:08 - INFO - stdout - {'loss': 1.1212, 'learning_rate': 0.0003730272411659912, 'epoch': 3.57}
+2025-10-06 17:43:08 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▌                                         | 1241/2088 [2:34:36<1:39:00,  7.01s/it]
+2025-10-06 17:43:15 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▋                                         | 1242/2088 [2:34:43<1:38:50,  7.01s/it]
+2025-10-06 17:43:15 - ERROR - stderr - 
+2025-10-06 17:43:15 - ERROR - stderr - 
+2025-10-06 17:43:15 - INFO - stdout - {'loss': 1.1282, 'learning_rate': 0.0003722771210321048, 'epoch': 3.57}
+2025-10-06 17:43:15 - ERROR - stderr -  59%|████████████████████████████████████████████████████████████▋                                         | 1242/2088 [2:34:43<1:38:50,  7.01s/it]
+2025-10-06 17:43:22 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▋                                         | 1243/2088 [2:34:50<1:39:46,  7.08s/it]
+2025-10-06 17:43:22 - ERROR - stderr - 
+2025-10-06 17:43:22 - ERROR - stderr - 
+2025-10-06 17:43:22 - INFO - stdout - {'loss': 1.1237, 'learning_rate': 0.000371527308308439, 'epoch': 3.57}
+2025-10-06 17:43:22 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▋                                         | 1243/2088 [2:34:50<1:39:46,  7.08s/it]
+2025-10-06 17:43:29 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▊                                         | 1244/2088 [2:34:57<1:39:01,  7.04s/it]
+2025-10-06 17:43:29 - ERROR - stderr - 
+2025-10-06 17:43:29 - ERROR - stderr - 
+2025-10-06 17:43:29 - INFO - stdout - {'loss': 1.0828, 'learning_rate': 0.0003707778047996828, 'epoch': 3.57}
+2025-10-06 17:43:29 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▊                                         | 1244/2088 [2:34:57<1:39:01,  7.04s/it]
+2025-10-06 17:43:36 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▊                                         | 1245/2088 [2:35:05<1:40:36,  7.16s/it]
+2025-10-06 17:43:36 - ERROR - stderr - 
+2025-10-06 17:43:36 - ERROR - stderr - 
+2025-10-06 17:43:36 - INFO - stdout - {'loss': 1.1194, 'learning_rate': 0.00037002861230978133, 'epoch': 3.58}
+2025-10-06 17:43:36 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▊                                         | 1245/2088 [2:35:05<1:40:36,  7.16s/it]
+2025-10-06 17:43:43 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▊                                         | 1246/2088 [2:35:12<1:40:27,  7.16s/it]
+2025-10-06 17:43:43 - ERROR - stderr - 
+2025-10-06 17:43:43 - ERROR - stderr - 
+2025-10-06 17:43:43 - INFO - stdout - {'loss': 1.1095, 'learning_rate': 0.0003692797326419307, 'epoch': 3.58}
+2025-10-06 17:43:43 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▊                                         | 1246/2088 [2:35:12<1:40:27,  7.16s/it]
+2025-10-06 17:43:50 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▉                                         | 1247/2088 [2:35:19<1:39:44,  7.12s/it]
+2025-10-06 17:43:50 - ERROR - stderr - 
+2025-10-06 17:43:50 - ERROR - stderr - 
+2025-10-06 17:43:50 - INFO - stdout - {'loss': 1.0495, 'learning_rate': 0.0003685311675985745, 'epoch': 3.58}
+2025-10-06 17:43:50 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▉                                         | 1247/2088 [2:35:19<1:39:44,  7.12s/it]
+2025-10-06 17:43:58 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▉                                         | 1248/2088 [2:35:26<1:40:04,  7.15s/it]
+2025-10-06 17:43:58 - ERROR - stderr - 
+2025-10-06 17:43:58 - ERROR - stderr - 
+2025-10-06 17:43:58 - INFO - stdout - {'loss': 1.1702, 'learning_rate': 0.00036778291898139905, 'epoch': 3.59}
+2025-10-06 17:43:58 - ERROR - stderr -  60%|████████████████████████████████████████████████████████████▉                                         | 1248/2088 [2:35:26<1:40:04,  7.15s/it]
+2025-10-06 17:44:04 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████                                         | 1249/2088 [2:35:33<1:38:12,  7.02s/it]
+2025-10-06 17:44:04 - ERROR - stderr - 
+2025-10-06 17:44:04 - ERROR - stderr - 
+2025-10-06 17:44:04 - INFO - stdout - {'loss': 1.1353, 'learning_rate': 0.00036703498859132845, 'epoch': 3.59}
+2025-10-06 17:44:04 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████                                         | 1249/2088 [2:35:33<1:38:12,  7.02s/it]
+2025-10-06 17:44:11 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████                                         | 1250/2088 [2:35:40<1:37:12,  6.96s/it]
+2025-10-06 17:44:11 - ERROR - stderr - 
+2025-10-06 17:44:11 - ERROR - stderr - 
+2025-10-06 17:44:11 - INFO - stdout - {'loss': 1.1516, 'learning_rate': 0.00036628737822852177, 'epoch': 3.59}
+2025-10-06 17:44:11 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████                                         | 1250/2088 [2:35:40<1:37:12,  6.96s/it]
+2025-10-06 17:44:18 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████                                         | 1251/2088 [2:35:47<1:37:55,  7.02s/it]
+2025-10-06 17:44:18 - ERROR - stderr - 
+2025-10-06 17:44:18 - ERROR - stderr - 
+2025-10-06 17:44:18 - INFO - stdout - {'loss': 1.1132, 'learning_rate': 0.00036554008969236717, 'epoch': 3.59}
+2025-10-06 17:44:18 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████                                         | 1251/2088 [2:35:47<1:37:55,  7.02s/it]
+2025-10-06 17:44:26 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▏                                        | 1252/2088 [2:35:54<1:38:49,  7.09s/it]
+2025-10-06 17:44:26 - ERROR - stderr - 
+2025-10-06 17:44:26 - ERROR - stderr - 
+2025-10-06 17:44:26 - INFO - stdout - {'loss': 1.0936, 'learning_rate': 0.00036479312478147864, 'epoch': 3.6}
+2025-10-06 17:44:26 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▏                                        | 1252/2088 [2:35:54<1:38:49,  7.09s/it]
+2025-10-06 17:44:32 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▏                                        | 1253/2088 [2:36:01<1:38:08,  7.05s/it]
+2025-10-06 17:44:33 - ERROR - stderr - 
+2025-10-06 17:44:33 - ERROR - stderr - 
+2025-10-06 17:44:33 - INFO - stdout - {'loss': 1.0472, 'learning_rate': 0.0003640464852936909, 'epoch': 3.6}
+2025-10-06 17:44:33 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▏                                        | 1253/2088 [2:36:01<1:38:08,  7.05s/it]
+2025-10-06 17:44:39 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▎                                        | 1254/2088 [2:36:08<1:37:21,  7.00s/it]
+2025-10-06 17:44:39 - ERROR - stderr - 
+2025-10-06 17:44:39 - ERROR - stderr - 
+2025-10-06 17:44:39 - INFO - stdout - {'loss': 1.1039, 'learning_rate': 0.00036330017302605577, 'epoch': 3.6}
+2025-10-06 17:44:39 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▎                                        | 1254/2088 [2:36:08<1:37:21,  7.00s/it]
+2025-10-06 17:44:46 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▎                                        | 1255/2088 [2:36:15<1:37:12,  7.00s/it]
+2025-10-06 17:44:46 - ERROR - stderr - 
+2025-10-06 17:44:46 - ERROR - stderr - 
+2025-10-06 17:44:46 - INFO - stdout - {'loss': 1.0149, 'learning_rate': 0.00036255418977483746, 'epoch': 3.61}
+2025-10-06 17:44:46 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▎                                        | 1255/2088 [2:36:15<1:37:12,  7.00s/it]
+2025-10-06 17:44:53 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▎                                        | 1256/2088 [2:36:22<1:36:05,  6.93s/it]
+2025-10-06 17:44:53 - ERROR - stderr - 
+2025-10-06 17:44:53 - ERROR - stderr - 
+2025-10-06 17:44:53 - INFO - stdout - {'loss': 1.1908, 'learning_rate': 0.00036180853733550766, 'epoch': 3.61}
+2025-10-06 17:44:53 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▎                                        | 1256/2088 [2:36:22<1:36:05,  6.93s/it]
+2025-10-06 17:45:00 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▍                                        | 1257/2088 [2:36:29<1:37:43,  7.06s/it]
+2025-10-06 17:45:01 - ERROR - stderr - 
+2025-10-06 17:45:01 - ERROR - stderr - 
+2025-10-06 17:45:01 - INFO - stdout - {'loss': 1.0795, 'learning_rate': 0.0003610632175027427, 'epoch': 3.61}
+2025-10-06 17:45:01 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▍                                        | 1257/2088 [2:36:29<1:37:43,  7.06s/it]
+2025-10-06 17:45:07 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▍                                        | 1258/2088 [2:36:36<1:37:12,  7.03s/it]
+2025-10-06 17:45:07 - ERROR - stderr - 
+2025-10-06 17:45:07 - ERROR - stderr - 
+2025-10-06 17:45:07 - INFO - stdout - {'loss': 1.0151, 'learning_rate': 0.0003603182320704179, 'epoch': 3.61}
+2025-10-06 17:45:07 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▍                                        | 1258/2088 [2:36:36<1:37:12,  7.03s/it]
+2025-10-06 17:45:15 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▌                                        | 1259/2088 [2:36:43<1:38:11,  7.11s/it]
+2025-10-06 17:45:15 - ERROR - stderr - 
+2025-10-06 17:45:15 - ERROR - stderr - 
+2025-10-06 17:45:15 - INFO - stdout - {'loss': 1.1572, 'learning_rate': 0.0003595735828316037, 'epoch': 3.62}
+2025-10-06 17:45:15 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▌                                        | 1259/2088 [2:36:43<1:38:11,  7.11s/it]
+2025-10-06 17:45:22 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▌                                        | 1260/2088 [2:36:50<1:37:03,  7.03s/it]
+2025-10-06 17:45:22 - ERROR - stderr - 
+2025-10-06 17:45:22 - ERROR - stderr - 
+2025-10-06 17:45:22 - INFO - stdout - {'loss': 1.0668, 'learning_rate': 0.0003588292715785617, 'epoch': 3.62}
+2025-10-06 17:45:22 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▌                                        | 1260/2088 [2:36:50<1:37:03,  7.03s/it]
+2025-10-06 17:45:28 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▌                                        | 1261/2088 [2:36:57<1:35:50,  6.95s/it]
+2025-10-06 17:45:28 - ERROR - stderr - 
+2025-10-06 17:45:28 - ERROR - stderr - 
+2025-10-06 17:45:28 - INFO - stdout - {'loss': 1.0474, 'learning_rate': 0.00035808530010273987, 'epoch': 3.62}
+2025-10-06 17:45:28 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▌                                        | 1261/2088 [2:36:57<1:35:50,  6.95s/it]
+2025-10-06 17:45:35 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▋                                        | 1262/2088 [2:37:04<1:36:07,  6.98s/it]
+2025-10-06 17:45:35 - ERROR - stderr - 
+2025-10-06 17:45:35 - ERROR - stderr - 
+2025-10-06 17:45:35 - INFO - stdout - {'loss': 1.1472, 'learning_rate': 0.00035734167019476845, 'epoch': 3.63}
+2025-10-06 17:45:35 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▋                                        | 1262/2088 [2:37:04<1:36:07,  6.98s/it]
+2025-10-06 17:45:42 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▋                                        | 1263/2088 [2:37:11<1:34:47,  6.89s/it]
+2025-10-06 17:45:42 - ERROR - stderr - 
+2025-10-06 17:45:42 - ERROR - stderr - 
+2025-10-06 17:45:42 - INFO - stdout - {'loss': 1.0584, 'learning_rate': 0.00035659838364445503, 'epoch': 3.63}
+2025-10-06 17:45:42 - ERROR - stderr -  60%|█████████████████████████████████████████████████████████████▋                                        | 1263/2088 [2:37:11<1:34:47,  6.89s/it]
+2025-10-06 17:45:49 - ERROR - stderr -  61%|█████████████████████████████████████████████████████████████▋                                        | 1264/2088 [2:37:18<1:36:19,  7.01s/it]
+2025-10-06 17:45:49 - ERROR - stderr - 
+2025-10-06 17:45:49 - ERROR - stderr - 
+2025-10-06 17:45:49 - INFO - stdout - {'loss': 1.1284, 'learning_rate': 0.0003558554422407814, 'epoch': 3.63}
+2025-10-06 17:45:49 - ERROR - stderr -  61%|█████████████████████████████████████████████████████████████▋                                        | 1264/2088 [2:37:18<1:36:19,  7.01s/it]
+2025-10-06 17:45:57 - ERROR - stderr -  61%|█████████████████████████████████████████████████████████████▊                                        | 1265/2088 [2:37:26<1:38:42,  7.20s/it]
+2025-10-06 17:45:57 - ERROR - stderr - 
+2025-10-06 17:45:57 - ERROR - stderr - 
+2025-10-06 17:45:57 - INFO - stdout - {'loss': 1.1419, 'learning_rate': 0.0003551128477718985, 'epoch': 3.64}
+2025-10-06 17:45:57 - ERROR - stderr -  61%|█████████████████████████████████████████████████���███████████▊                                        | 1265/2088 [2:37:26<1:38:42,  7.20s/it]
+2025-10-06 17:46:04 - ERROR - stderr -  61%|█████████████████████████████████████████████████████████████▊                                        | 1266/2088 [2:37:33<1:38:35,  7.20s/it]
+2025-10-06 17:46:04 - ERROR - stderr - 
+2025-10-06 17:46:04 - ERROR - stderr - 
+2025-10-06 17:46:04 - INFO - stdout - {'loss': 1.0989, 'learning_rate': 0.00035437060202512226, 'epoch': 3.64}
+2025-10-06 17:46:04 - ERROR - stderr -  61%|█████████████████████████████████████████████████████████████▊                                        | 1266/2088 [2:37:33<1:38:35,  7.20s/it]
+2025-10-06 17:46:11 - ERROR - stderr -  61%|█████████████████████████████████████████████████████████████▉                                        | 1267/2088 [2:37:40<1:38:29,  7.20s/it]
+2025-10-06 17:46:11 - ERROR - stderr - 
+2025-10-06 17:46:11 - ERROR - stderr - 
+2025-10-06 17:46:11 - INFO - stdout - {'loss': 1.1245, 'learning_rate': 0.00035362870678692926, 'epoch': 3.64}
+2025-10-06 17:46:11 - ERROR - stderr -  61%|█████████████████████████████████████████████████████████████▉                                        | 1267/2088 [2:37:40<1:38:29,  7.20s/it]
+2025-10-06 17:46:19 - ERROR - stderr -  61%|█████████████████████████████████████████████████████████████▉                                        | 1268/2088 [2:37:47<1:38:56,  7.24s/it]
+2025-10-06 17:46:19 - ERROR - stderr - 
+2025-10-06 17:46:19 - ERROR - stderr - 
+2025-10-06 17:46:19 - INFO - stdout - {'loss': 1.1798, 'learning_rate': 0.00035288716384295236, 'epoch': 3.64}
+2025-10-06 17:46:19 - ERROR - stderr -  61%|█████████████████████████████████████████████████████████████▉                                        | 1268/2088 [2:37:47<1:38:56,  7.24s/it]
+2025-10-06 17:46:26 - ERROR - stderr -  61%|█████████████████████████████████████████████████████████████▉                                        | 1269/2088 [2:37:54<1:37:47,  7.16s/it]
+2025-10-06 17:46:26 - ERROR - stderr - 
+2025-10-06 17:46:26 - ERROR - stderr - 
+2025-10-06 17:46:26 - INFO - stdout - {'loss': 1.0601, 'learning_rate': 0.0003521459749779768, 'epoch': 3.65}
+2025-10-06 17:46:26 - ERROR - stderr -  61%|█████████████████████████████████████████████████████████████▉                                        | 1269/2088 [2:37:54<1:37:47,  7.16s/it]
+2025-10-06 17:46:33 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████                                        | 1270/2088 [2:38:01<1:37:02,  7.12s/it]
+2025-10-06 17:46:33 - ERROR - stderr - 
+2025-10-06 17:46:33 - ERROR - stderr - 
+2025-10-06 17:46:33 - INFO - stdout - {'loss': 1.1217, 'learning_rate': 0.0003514051419759349, 'epoch': 3.65}
+2025-10-06 17:46:33 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████                                        | 1270/2088 [2:38:01<1:37:02,  7.12s/it]
+2025-10-06 17:46:40 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████                                        | 1271/2088 [2:38:08<1:36:18,  7.07s/it]
+2025-10-06 17:46:40 - ERROR - stderr - 
+2025-10-06 17:46:40 - ERROR - stderr - 
+2025-10-06 17:46:40 - INFO - stdout - {'loss': 1.0551, 'learning_rate': 0.00035066466661990315, 'epoch': 3.65}
+2025-10-06 17:46:40 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████                                        | 1271/2088 [2:38:08<1:36:18,  7.07s/it]
+2025-10-06 17:46:47 - ERROR - stderr -  61%|████████████���█████████████████████████████████████████████████▏                                       | 1272/2088 [2:38:15<1:36:17,  7.08s/it]
+2025-10-06 17:46:47 - ERROR - stderr - 
+2025-10-06 17:46:47 - ERROR - stderr - 
+2025-10-06 17:46:47 - INFO - stdout - {'loss': 1.1149, 'learning_rate': 0.00034992455069209717, 'epoch': 3.66}
+2025-10-06 17:46:47 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▏                                       | 1272/2088 [2:38:15<1:36:17,  7.08s/it]
+2025-10-06 17:46:54 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▏                                       | 1273/2088 [2:38:22<1:35:45,  7.05s/it]
+2025-10-06 17:46:54 - ERROR - stderr - 
+2025-10-06 17:46:54 - ERROR - stderr - 
+2025-10-06 17:46:54 - INFO - stdout - {'loss': 1.0224, 'learning_rate': 0.00034918479597386727, 'epoch': 3.66}
+2025-10-06 17:46:54 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▏                                       | 1273/2088 [2:38:22<1:35:45,  7.05s/it]
+2025-10-06 17:47:01 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▏                                       | 1274/2088 [2:38:30<1:36:25,  7.11s/it]
+2025-10-06 17:47:01 - ERROR - stderr - 
+2025-10-06 17:47:01 - ERROR - stderr - 
+2025-10-06 17:47:01 - INFO - stdout - {'loss': 1.138, 'learning_rate': 0.0003484454042456945, 'epoch': 3.66}
+2025-10-06 17:47:01 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▏                                       | 1274/2088 [2:38:30<1:36:25,  7.11s/it]
+2025-10-06 17:47:08 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▎                                       | 1275/2088 [2:38:37<1:37:31,  7.20s/it]
+2025-10-06 17:47:08 - ERROR - stderr - 
+2025-10-06 17:47:08 - ERROR - stderr - 
+2025-10-06 17:47:08 - INFO - stdout - {'loss': 1.1843, 'learning_rate': 0.00034770637728718607, 'epoch': 3.66}
+2025-10-06 17:47:08 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▎                                       | 1275/2088 [2:38:37<1:37:31,  7.20s/it]
+2025-10-06 17:47:15 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▎                                       | 1276/2088 [2:38:44<1:36:22,  7.12s/it]
+2025-10-06 17:47:15 - ERROR - stderr - 
+2025-10-06 17:47:15 - ERROR - stderr - 
+2025-10-06 17:47:15 - INFO - stdout - {'loss': 1.1707, 'learning_rate': 0.00034696771687707176, 'epoch': 3.67}
+2025-10-06 17:47:15 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▎                                       | 1276/2088 [2:38:44<1:36:22,  7.12s/it]
+2025-10-06 17:47:22 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▍                                       | 1277/2088 [2:38:51<1:35:00,  7.03s/it]
+2025-10-06 17:47:22 - ERROR - stderr - 
+2025-10-06 17:47:22 - ERROR - stderr - 
+2025-10-06 17:47:22 - INFO - stdout - {'loss': 1.1132, 'learning_rate': 0.0003462294247931982, 'epoch': 3.67}
+2025-10-06 17:47:22 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▍                                       | 1277/2088 [2:38:51<1:35:00,  7.03s/it]
+2025-10-06 17:47:29 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▍                                       | 1278/2088 [2:38:58<1:34:41,  7.01s/it]
+2025-10-06 17:47:29 - ERROR - stderr - 
+2025-10-06 17:47:29 - ERROR - stderr - 
+2025-10-06 17:47:29 - INFO - stdout - {'loss': 1.0982, 'learning_rate': 0.00034549150281252633, 'epoch': 3.67}
+2025-10-06 17:47:29 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▍                                       | 1278/2088 [2:38:58<1:34:41,  7.01s/it]
+2025-10-06 17:47:36 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▍                                       | 1279/2088 [2:39:05<1:34:02,  6.97s/it]
+2025-10-06 17:47:36 - ERROR - stderr - 
+2025-10-06 17:47:36 - ERROR - stderr - 
+2025-10-06 17:47:36 - INFO - stdout - {'loss': 1.0505, 'learning_rate': 0.0003447539527111261, 'epoch': 3.68}
+2025-10-06 17:47:36 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▍                                       | 1279/2088 [2:39:05<1:34:02,  6.97s/it]
+2025-10-06 17:47:43 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▌                                       | 1280/2088 [2:39:12<1:34:53,  7.05s/it]
+2025-10-06 17:47:43 - ERROR - stderr - 
+2025-10-06 17:47:43 - ERROR - stderr - 
+2025-10-06 17:47:43 - INFO - stdout - {'loss': 1.1529, 'learning_rate': 0.00034401677626417224, 'epoch': 3.68}
+2025-10-06 17:47:43 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▌                                       | 1280/2088 [2:39:12<1:34:53,  7.05s/it]
+2025-10-06 17:47:50 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▌                                       | 1281/2088 [2:39:19<1:33:53,  6.98s/it]
+2025-10-06 17:47:50 - ERROR - stderr - 
+2025-10-06 17:47:50 - ERROR - stderr - 
+2025-10-06 17:47:50 - INFO - stdout - {'loss': 1.1424, 'learning_rate': 0.00034327997524594026, 'epoch': 3.68}
+2025-10-06 17:47:50 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▌                                       | 1281/2088 [2:39:19<1:33:53,  6.98s/it]
+2025-10-06 17:47:58 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▋                                       | 1282/2088 [2:39:26<1:36:18,  7.17s/it]
+2025-10-06 17:47:58 - ERROR - stderr - 
+2025-10-06 17:47:58 - ERROR - stderr - 
+2025-10-06 17:47:58 - INFO - stdout - {'loss': 1.1188, 'learning_rate': 0.0003425435514298021, 'epoch': 3.68}
+2025-10-06 17:47:58 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▋                                       | 1282/2088 [2:39:26<1:36:18,  7.17s/it]
+2025-10-06 17:48:05 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▋                                       | 1283/2088 [2:39:33<1:36:35,  7.20s/it]
+2025-10-06 17:48:05 - ERROR - stderr - 
+2025-10-06 17:48:05 - ERROR - stderr - 
+2025-10-06 17:48:05 - INFO - stdout - {'loss': 1.0826, 'learning_rate': 0.0003418075065882217, 'epoch': 3.69}
+2025-10-06 17:48:05 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▋                                       | 1283/2088 [2:39:34<1:36:35,  7.20s/it]
+2025-10-06 17:48:12 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▋                                       | 1284/2088 [2:39:40<1:35:24,  7.12s/it]
+2025-10-06 17:48:12 - ERROR - stderr - 
+2025-10-06 17:48:12 - ERROR - stderr - 
+2025-10-06 17:48:12 - INFO - stdout - {'loss': 1.1197, 'learning_rate': 0.00034107184249275116, 'epoch': 3.69}
+2025-10-06 17:48:12 - ERROR - stderr -  61%|██████████████████████████████████████████████████████████████▋                                       | 1284/2088 [2:39:40<1:35:24,  7.12s/it]
+2025-10-06 17:48:19 - ERROR - stderr -  62%|██████████████████████████████████████████████████████████████▊                                       | 1285/2088 [2:39:48<1:35:50,  7.16s/it]
+2025-10-06 17:48:19 - ERROR - stderr - 
+2025-10-06 17:48:19 - ERROR - stderr - 
+2025-10-06 17:48:19 - INFO - stdout - {'loss': 1.2033, 'learning_rate': 0.0003403365609140256, 'epoch': 3.69}
+2025-10-06 17:48:19 - ERROR - stderr -  62%|██████████████████████████████████████████████████████████████▊                                       | 1285/2088 [2:39:48<1:35:50,  7.16s/it]
+2025-10-06 17:48:26 - ERROR - stderr -  62%|██████████████████████████████████████████████████████████████▊                                       | 1286/2088 [2:39:55<1:34:56,  7.10s/it]
+2025-10-06 17:48:26 - ERROR - stderr - 
+2025-10-06 17:48:26 - ERROR - stderr - 
+2025-10-06 17:48:26 - INFO - stdout - {'loss': 1.0914, 'learning_rate': 0.0003396016636217601, 'epoch': 3.7}
+2025-10-06 17:48:26 - ERROR - stderr -  62%|██████████████████████████████████████████████████████████████▊                                       | 1286/2088 [2:39:55<1:34:56,  7.10s/it]
+2025-10-06 17:48:33 - ERROR - stderr -  62%|██████████████████████████████████████████████████████████████▊                                       | 1287/2088 [2:40:02<1:34:48,  7.10s/it]
+2025-10-06 17:48:33 - ERROR - stderr - 
+2025-10-06 17:48:33 - ERROR - stderr - 
+2025-10-06 17:48:33 - INFO - stdout - {'loss': 1.1586, 'learning_rate': 0.00033886715238474455, 'epoch': 3.7}
+2025-10-06 17:48:33 - ERROR - stderr -  62%|██████████████████████████████████████████████████████████████▊                                       | 1287/2088 [2:40:02<1:34:48,  7.10s/it]
+2025-10-06 17:48:40 - ERROR - stderr -  62%|██████████████████████████████████████████████████████████████▉                                       | 1288/2088 [2:40:09<1:33:40,  7.03s/it]
+2025-10-06 17:48:40 - ERROR - stderr - 
+2025-10-06 17:48:40 - ERROR - stderr - 
+2025-10-06 17:48:40 - INFO - stdout - {'loss': 1.1275, 'learning_rate': 0.0003381330289708395, 'epoch': 3.7}
+2025-10-06 17:48:40 - ERROR - stderr -  62%|██████████████████████████████████████████████████████████████▉                                       | 1288/2088 [2:40:09<1:33:40,  7.03s/it]
+2025-10-06 17:48:47 - ERROR - stderr -  62%|██████████████████████████████████████████████████████████████▉                                       | 1289/2088 [2:40:16<1:33:55,  7.05s/it]
+2025-10-06 17:48:47 - ERROR - stderr - 
+2025-10-06 17:48:47 - ERROR - stderr - 
+2025-10-06 17:48:47 - INFO - stdout - {'loss': 1.0731, 'learning_rate': 0.00033739929514697245, 'epoch': 3.7}
+2025-10-06 17:48:47 - ERROR - stderr -  62%|██████████████████████████████████████████████████████████████▉                                       | 1289/2088 [2:40:16<1:33:55,  7.05s/it]
+2025-10-06 17:48:54 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████                                       | 1290/2088 [2:40:23<1:33:52,  7.06s/it]
+2025-10-06 17:48:54 - ERROR - stderr - 
+2025-10-06 17:48:54 - ERROR - stderr - 
+2025-10-06 17:48:54 - INFO - stdout - {'loss': 1.028, 'learning_rate': 0.0003366659526791329, 'epoch': 3.71}
+2025-10-06 17:48:54 - ERROR - stderr -  62%|███████████████████████��███████████████████████████████████████                                       | 1290/2088 [2:40:23<1:33:52,  7.06s/it]
+2025-10-06 17:49:02 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████                                       | 1291/2088 [2:40:30<1:34:58,  7.15s/it]
+2025-10-06 17:49:02 - ERROR - stderr - 
+2025-10-06 17:49:02 - ERROR - stderr - 
+2025-10-06 17:49:02 - INFO - stdout - {'loss': 1.0471, 'learning_rate': 0.0003359330033323686, 'epoch': 3.71}
+2025-10-06 17:49:02 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████                                       | 1291/2088 [2:40:30<1:34:58,  7.15s/it]
+2025-10-06 17:49:09 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████                                       | 1292/2088 [2:40:37<1:33:48,  7.07s/it]
+2025-10-06 17:49:09 - ERROR - stderr - 
+2025-10-06 17:49:09 - ERROR - stderr - 
+2025-10-06 17:49:09 - INFO - stdout - {'loss': 1.0809, 'learning_rate': 0.00033520044887078095, 'epoch': 3.71}
+2025-10-06 17:49:09 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████                                       | 1292/2088 [2:40:37<1:33:48,  7.07s/it]
+2025-10-06 17:49:16 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▏                                      | 1293/2088 [2:40:44<1:33:53,  7.09s/it]
+2025-10-06 17:49:16 - ERROR - stderr - 
+2025-10-06 17:49:16 - ERROR - stderr - 
+2025-10-06 17:49:16 - INFO - stdout - {'loss': 1.0576, 'learning_rate': 0.000334468291057521, 'epoch': 3.72}
+2025-10-06 17:49:16 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▏                                      | 1293/2088 [2:40:44<1:33:53,  7.09s/it]
+2025-10-06 17:49:23 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▏                                      | 1294/2088 [2:40:51<1:34:38,  7.15s/it]
+2025-10-06 17:49:23 - ERROR - stderr - 
+2025-10-06 17:49:23 - ERROR - stderr - 
+2025-10-06 17:49:23 - INFO - stdout - {'loss': 1.1566, 'learning_rate': 0.0003337365316547852, 'epoch': 3.72}
+2025-10-06 17:49:23 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▏                                      | 1294/2088 [2:40:51<1:34:38,  7.15s/it]
+2025-10-06 17:49:30 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▎                                      | 1295/2088 [2:40:59<1:35:08,  7.20s/it]
+2025-10-06 17:49:30 - ERROR - stderr - 
+2025-10-06 17:49:30 - ERROR - stderr - 
+2025-10-06 17:49:30 - INFO - stdout - {'loss': 1.0915, 'learning_rate': 0.0003330051724238109, 'epoch': 3.72}
+2025-10-06 17:49:30 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▎                                      | 1295/2088 [2:40:59<1:35:08,  7.20s/it]
+2025-10-06 17:49:37 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▎                                      | 1296/2088 [2:41:06<1:34:59,  7.20s/it]
+2025-10-06 17:49:37 - ERROR - stderr - 
+2025-10-06 17:49:37 - ERROR - stderr - 
+2025-10-06 17:49:37 - INFO - stdout - {'loss': 1.1704, 'learning_rate': 0.00033227421512487253, 'epoch': 3.72}
+2025-10-06 17:49:37 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▎                                      | 1296/2088 [2:41:06<1:34:59,  7.20s/it]
+2025-10-06 17:49:45 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▎                                      | 1297/2088 [2:41:13<1:34:32,  7.17s/it]
+2025-10-06 17:49:45 - ERROR - stderr - 
+2025-10-06 17:49:45 - ERROR - stderr - 
+2025-10-06 17:49:45 - INFO - stdout - {'loss': 1.1026, 'learning_rate': 0.0003315436615172769, 'epoch': 3.73}
+2025-10-06 17:49:45 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▎                                      | 1297/2088 [2:41:13<1:34:32,  7.17s/it]
+2025-10-06 17:49:52 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▍                                      | 1298/2088 [2:41:20<1:33:37,  7.11s/it]
+2025-10-06 17:49:52 - ERROR - stderr - 
+2025-10-06 17:49:52 - ERROR - stderr - 
+2025-10-06 17:49:52 - INFO - stdout - {'loss': 1.112, 'learning_rate': 0.0003308135133593595, 'epoch': 3.73}
+2025-10-06 17:49:52 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▍                                      | 1298/2088 [2:41:20<1:33:37,  7.11s/it]
+2025-10-06 17:49:59 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▍                                      | 1299/2088 [2:41:27<1:33:52,  7.14s/it]
+2025-10-06 17:49:59 - ERROR - stderr - 
+2025-10-06 17:49:59 - ERROR - stderr - 
+2025-10-06 17:49:59 - INFO - stdout - {'loss': 1.1145, 'learning_rate': 0.0003300837724084795, 'epoch': 3.73}
+2025-10-06 17:49:59 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▍                                      | 1299/2088 [2:41:27<1:33:52,  7.14s/it]
+2025-10-06 17:50:06 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▌                                      | 1300/2088 [2:41:34<1:32:36,  7.05s/it]
+2025-10-06 17:50:06 - ERROR - stderr - 
+2025-10-06 17:50:06 - ERROR - stderr - 
+2025-10-06 17:50:06 - INFO - stdout - {'loss': 1.0967, 'learning_rate': 0.0003293544404210164, 'epoch': 3.74}
+2025-10-06 17:50:06 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▌                                      | 1300/2088 [2:41:34<1:32:36,  7.05s/it]
+2025-10-06 17:50:13 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▌                                      | 1301/2088 [2:41:41<1:32:58,  7.09s/it]
+2025-10-06 17:50:13 - ERROR - stderr - 
+2025-10-06 17:50:13 - ERROR - stderr - 
+2025-10-06 17:50:13 - INFO - stdout - {'loss': 1.0699, 'learning_rate': 0.0003286255191523652, 'epoch': 3.74}
+2025-10-06 17:50:13 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▌                                      | 1301/2088 [2:41:41<1:32:58,  7.09s/it]
+2025-10-06 17:50:20 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▌                                      | 1302/2088 [2:41:48<1:32:39,  7.07s/it]
+2025-10-06 17:50:20 - ERROR - stderr - 
+2025-10-06 17:50:20 - ERROR - stderr - 
+2025-10-06 17:50:20 - INFO - stdout - {'loss': 1.0608, 'learning_rate': 0.00032789701035693244, 'epoch': 3.74}
+2025-10-06 17:50:20 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▌                                      | 1302/2088 [2:41:48<1:32:39,  7.07s/it]
+2025-10-06 17:50:27 - ERROR - stderr -  62%|██████████████████████████���████████████████████████████████████▋                                      | 1303/2088 [2:41:56<1:33:54,  7.18s/it]
+2025-10-06 17:50:27 - ERROR - stderr - 
+2025-10-06 17:50:27 - ERROR - stderr - 
+2025-10-06 17:50:27 - INFO - stdout - {'loss': 1.1206, 'learning_rate': 0.00032716891578813166, 'epoch': 3.74}
+2025-10-06 17:50:27 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▋                                      | 1303/2088 [2:41:56<1:33:54,  7.18s/it]
+2025-10-06 17:50:34 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▋                                      | 1304/2088 [2:42:03<1:33:11,  7.13s/it]
+2025-10-06 17:50:34 - ERROR - stderr - 
+2025-10-06 17:50:34 - ERROR - stderr - 
+2025-10-06 17:50:34 - INFO - stdout - {'loss': 1.1646, 'learning_rate': 0.0003264412371983797, 'epoch': 3.75}
+2025-10-06 17:50:34 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▋                                      | 1304/2088 [2:42:03<1:33:11,  7.13s/it]
+2025-10-06 17:50:41 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▊                                      | 1305/2088 [2:42:10<1:32:38,  7.10s/it]
+2025-10-06 17:50:41 - ERROR - stderr - 
+2025-10-06 17:50:41 - ERROR - stderr - 
+2025-10-06 17:50:41 - INFO - stdout - {'loss': 1.0123, 'learning_rate': 0.0003257139763390925, 'epoch': 3.75}
+2025-10-06 17:50:41 - ERROR - stderr -  62%|███████████████████████████████████████████████████████████████▊                                      | 1305/2088 [2:42:10<1:32:38,  7.10s/it]
+2025-10-06 17:50:49 - ERROR - stderr -  63%|███████████████████████████████████████████████████████████████▊                                      | 1306/2088 [2:42:17<1:33:13,  7.15s/it]
+2025-10-06 17:50:49 - ERROR - stderr - 
+2025-10-06 17:50:49 - ERROR - stderr - 
+2025-10-06 17:50:49 - INFO - stdout - {'loss': 1.1629, 'learning_rate': 0.0003249871349606796, 'epoch': 3.75}
+2025-10-06 17:50:49 - ERROR - stderr -  63%|███████████████████████████████████████████████████████████████▊                                      | 1306/2088 [2:42:17<1:33:13,  7.15s/it]
+2025-10-06 17:50:56 - ERROR - stderr -  63%|███████████████████████████████████████████████████████████████▊                                      | 1307/2088 [2:42:24<1:32:56,  7.14s/it]
+2025-10-06 17:50:56 - ERROR - stderr - 
+2025-10-06 17:50:56 - ERROR - stderr - 
+2025-10-06 17:50:56 - INFO - stdout - {'loss': 1.0411, 'learning_rate': 0.0003242607148125418, 'epoch': 3.76}
+2025-10-06 17:50:56 - ERROR - stderr -  63%|███████████████████████████████████████████████████████████████▊                                      | 1307/2088 [2:42:24<1:32:56,  7.14s/it]
+2025-10-06 17:51:03 - ERROR - stderr -  63%|███████████████████████████████████████████████████████████████▉                                      | 1308/2088 [2:42:31<1:33:00,  7.15s/it]
+2025-10-06 17:51:03 - ERROR - stderr - 
+2025-10-06 17:51:03 - ERROR - stderr - 
+2025-10-06 17:51:03 - INFO - stdout - {'loss': 1.0418, 'learning_rate': 0.00032353471764306563, 'epoch': 3.76}
+2025-10-06 17:51:03 - ERROR - stderr -  63%|███████████████████████████████████████████████████████████████▉                                      | 1308/2088 [2:42:31<1:33:00,  7.15s/it]
+2025-10-06 17:51:11 - ERROR - stderr -  63%|███████████████████████████████████████████████████████████████▉                                      | 1309/2088 [2:42:39<1:34:51,  7.31s/it]
+2025-10-06 17:51:11 - ERROR - stderr - 
+2025-10-06 17:51:11 - ERROR - stderr - 
+2025-10-06 17:51:11 - INFO - stdout - {'loss': 1.0995, 'learning_rate': 0.0003228091451996198, 'epoch': 3.76}
+2025-10-06 17:51:11 - ERROR - stderr -  63%|███████████████████████████████████████████████████████████████▉                                      | 1309/2088 [2:42:39<1:34:51,  7.31s/it]
+2025-10-06 17:51:18 - ERROR - stderr -  63%|███████████████████████████████████████████████████████████████▉                                      | 1310/2088 [2:42:46<1:34:04,  7.26s/it]
+2025-10-06 17:51:18 - ERROR - stderr - 
+2025-10-06 17:51:18 - ERROR - stderr - 
+2025-10-06 17:51:18 - INFO - stdout - {'loss': 1.0431, 'learning_rate': 0.0003220839992285505, 'epoch': 3.76}
+2025-10-06 17:51:18 - ERROR - stderr -  63%|███████████████████████████████████████████████████████████████▉                                      | 1310/2088 [2:42:46<1:34:04,  7.26s/it]
+2025-10-06 17:51:25 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████                                      | 1311/2088 [2:42:53<1:34:04,  7.27s/it]
+2025-10-06 17:51:25 - ERROR - stderr - 
+2025-10-06 17:51:25 - ERROR - stderr - 
+2025-10-06 17:51:25 - INFO - stdout - {'loss': 1.0853, 'learning_rate': 0.00032135928147517803, 'epoch': 3.77}
+2025-10-06 17:51:25 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████                                      | 1311/2088 [2:42:53<1:34:04,  7.27s/it]
+2025-10-06 17:51:32 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████                                      | 1312/2088 [2:43:00<1:32:18,  7.14s/it]
+2025-10-06 17:51:32 - ERROR - stderr - 
+2025-10-06 17:51:32 - ERROR - stderr - 
+2025-10-06 17:51:32 - INFO - stdout - {'loss': 1.0508, 'learning_rate': 0.0003206349936837915, 'epoch': 3.77}
+2025-10-06 17:51:32 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████                                      | 1312/2088 [2:43:00<1:32:18,  7.14s/it]
+2025-10-06 17:51:39 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▏                                     | 1313/2088 [2:43:07<1:30:35,  7.01s/it]
+2025-10-06 17:51:39 - ERROR - stderr - 
+2025-10-06 17:51:39 - ERROR - stderr - 
+2025-10-06 17:51:39 - INFO - stdout - {'loss': 1.041, 'learning_rate': 0.0003199111375976449, 'epoch': 3.77}
+2025-10-06 17:51:39 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▏                                     | 1313/2088 [2:43:07<1:30:35,  7.01s/it]
+2025-10-06 17:51:46 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▏                                     | 1314/2088 [2:43:14<1:31:52,  7.12s/it]
+2025-10-06 17:51:46 - ERROR - stderr - 
+2025-10-06 17:51:46 - ERROR - stderr - 
+2025-10-06 17:51:46 - INFO - stdout - {'loss': 1.0864, 'learning_rate': 0.00031918771495895393, 'epoch': 3.78}
+2025-10-06 17:51:46 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▏                                     | 1314/2088 [2:43:14<1:31:52,  7.12s/it]
+2025-10-06 17:51:53 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▏                                     | 1315/2088 [2:43:22<1:33:32,  7.26s/it]
+2025-10-06 17:51:53 - ERROR - stderr - 
+2025-10-06 17:51:53 - ERROR - stderr - 
+2025-10-06 17:51:53 - INFO - stdout - {'loss': 1.1069, 'learning_rate': 0.00031846472750889066, 'epoch': 3.78}
+2025-10-06 17:51:53 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▏                                     | 1315/2088 [2:43:22<1:33:32,  7.26s/it]
+2025-10-06 17:52:00 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▎                                     | 1316/2088 [2:43:29<1:31:41,  7.13s/it]
+2025-10-06 17:52:00 - ERROR - stderr - 
+2025-10-06 17:52:00 - ERROR - stderr - 
+2025-10-06 17:52:00 - INFO - stdout - {'loss': 1.1347, 'learning_rate': 0.0003177421769875796, 'epoch': 3.78}
+2025-10-06 17:52:00 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▎                                     | 1316/2088 [2:43:29<1:31:41,  7.13s/it]
+2025-10-06 17:52:07 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▎                                     | 1317/2088 [2:43:36<1:30:34,  7.05s/it]
+2025-10-06 17:52:07 - ERROR - stderr - 
+2025-10-06 17:52:07 - ERROR - stderr - 
+2025-10-06 17:52:07 - INFO - stdout - {'loss': 1.1424, 'learning_rate': 0.0003170200651340939, 'epoch': 3.78}
+2025-10-06 17:52:07 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▎                                     | 1317/2088 [2:43:36<1:30:34,  7.05s/it]
+2025-10-06 17:52:14 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▍                                     | 1318/2088 [2:43:43<1:30:49,  7.08s/it]
+2025-10-06 17:52:14 - ERROR - stderr - 
+2025-10-06 17:52:14 - ERROR - stderr - 
+2025-10-06 17:52:14 - INFO - stdout - {'loss': 1.0853, 'learning_rate': 0.00031629839368645086, 'epoch': 3.79}
+2025-10-06 17:52:14 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▍                                     | 1318/2088 [2:43:43<1:30:49,  7.08s/it]
+2025-10-06 17:52:21 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▍                                     | 1319/2088 [2:43:50<1:30:59,  7.10s/it]
+2025-10-06 17:52:21 - ERROR - stderr - 
+2025-10-06 17:52:21 - ERROR - stderr - 
+2025-10-06 17:52:21 - INFO - stdout - {'loss': 1.105, 'learning_rate': 0.00031557716438160787, 'epoch': 3.79}
+2025-10-06 17:52:21 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▍                                     | 1319/2088 [2:43:50<1:30:59,  7.10s/it]
+2025-10-06 17:52:28 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▍                                     | 1320/2088 [2:43:57<1:30:18,  7.06s/it]
+2025-10-06 17:52:28 - ERROR - stderr - 
+2025-10-06 17:52:28 - ERROR - stderr - 
+2025-10-06 17:52:28 - INFO - stdout - {'loss': 1.133, 'learning_rate': 0.0003148563789554575, 'epoch': 3.79}
+2025-10-06 17:52:28 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▍                                     | 1320/2088 [2:43:57<1:30:18,  7.06s/it]
+2025-10-06 17:52:35 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▌                                     | 1321/2088 [2:44:04<1:30:05,  7.05s/it]
+2025-10-06 17:52:35 - ERROR - stderr - 
+2025-10-06 17:52:35 - ERROR - stderr - 
+2025-10-06 17:52:35 - INFO - stdout - {'loss': 1.0474, 'learning_rate': 0.00031413603914282474, 'epoch': 3.8}
+2025-10-06 17:52:35 - ERROR - stderr -  63%|█��██████████████████████████████████████████████████████████████▌                                     | 1321/2088 [2:44:04<1:30:05,  7.05s/it]
+2025-10-06 17:52:43 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▌                                     | 1322/2088 [2:44:11<1:30:29,  7.09s/it]
+2025-10-06 17:52:43 - ERROR - stderr - 
+2025-10-06 17:52:43 - ERROR - stderr - 
+2025-10-06 17:52:43 - INFO - stdout - {'loss': 1.099, 'learning_rate': 0.00031341614667746164, 'epoch': 3.8}
+2025-10-06 17:52:43 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▌                                     | 1322/2088 [2:44:11<1:30:29,  7.09s/it]
+2025-10-06 17:52:50 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▋                                     | 1323/2088 [2:44:18<1:30:28,  7.10s/it]
+2025-10-06 17:52:50 - ERROR - stderr - 
+2025-10-06 17:52:50 - ERROR - stderr - 
+2025-10-06 17:52:50 - INFO - stdout - {'loss': 1.0156, 'learning_rate': 0.00031269670329204396, 'epoch': 3.8}
+2025-10-06 17:52:50 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▋                                     | 1323/2088 [2:44:18<1:30:28,  7.10s/it]
+2025-10-06 17:52:57 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▋                                     | 1324/2088 [2:44:25<1:29:34,  7.03s/it]
+2025-10-06 17:52:57 - ERROR - stderr - 
+2025-10-06 17:52:57 - ERROR - stderr - 
+2025-10-06 17:52:57 - INFO - stdout - {'loss': 1.157, 'learning_rate': 0.0003119777107181662, 'epoch': 3.8}
+2025-10-06 17:52:57 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▋                                     | 1324/2088 [2:44:25<1:29:34,  7.03s/it]
+2025-10-06 17:53:04 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▋                                     | 1325/2088 [2:44:32<1:29:37,  7.05s/it]
+2025-10-06 17:53:04 - ERROR - stderr - 
+2025-10-06 17:53:04 - ERROR - stderr - 
+2025-10-06 17:53:04 - INFO - stdout - {'loss': 1.0669, 'learning_rate': 0.0003112591706863378, 'epoch': 3.81}
+2025-10-06 17:53:04 - ERROR - stderr -  63%|████████████████████████████████████████████████████████████████▋                                     | 1325/2088 [2:44:32<1:29:37,  7.05s/it]
+2025-10-06 17:53:10 - ERROR - stderr -  64%|████████████████████████████████████████████████████████████████▊                                     | 1326/2088 [2:44:39<1:28:09,  6.94s/it]
+2025-10-06 17:53:10 - ERROR - stderr - 
+2025-10-06 17:53:10 - ERROR - stderr - 
+2025-10-06 17:53:10 - INFO - stdout - {'loss': 1.1242, 'learning_rate': 0.00031054108492597956, 'epoch': 3.81}
+2025-10-06 17:53:10 - ERROR - stderr -  64%|████████████████████████████████████████████████████████████████▊                                     | 1326/2088 [2:44:39<1:28:09,  6.94s/it]
+2025-10-06 17:53:18 - ERROR - stderr -  64%|████████████████████████████████████████████████████████████████▊                                     | 1327/2088 [2:44:46<1:28:43,  7.00s/it]
+2025-10-06 17:53:18 - ERROR - stderr - 
+2025-10-06 17:53:18 - ERROR - stderr - 
+2025-10-06 17:53:18 - INFO - stdout - {'loss': 1.1134, 'learning_rate': 0.00030982345516541776, 'epoch': 3.81}
+2025-10-06 17:53:18 - ERROR - stderr -  64%|██████████████████████████████████████████████��█████████████████▊                                     | 1327/2088 [2:44:46<1:28:43,  7.00s/it]
+2025-10-06 17:53:24 - ERROR - stderr -  64%|████████████████████████████████████████████████████████████████▊                                     | 1328/2088 [2:44:53<1:27:30,  6.91s/it]
+2025-10-06 17:53:24 - ERROR - stderr - 
+2025-10-06 17:53:24 - ERROR - stderr - 
+2025-10-06 17:53:24 - INFO - stdout - {'loss': 1.0876, 'learning_rate': 0.0003091062831318825, 'epoch': 3.82}
+2025-10-06 17:53:24 - ERROR - stderr -  64%|████████████████████████████████████████████████████████████████▊                                     | 1328/2088 [2:44:53<1:27:30,  6.91s/it]
+2025-10-06 17:53:31 - ERROR - stderr -  64%|████████████████████████████████████████████████████████████████▉                                     | 1329/2088 [2:45:00<1:27:49,  6.94s/it]
+2025-10-06 17:53:31 - ERROR - stderr - 
+2025-10-06 17:53:31 - ERROR - stderr - 
+2025-10-06 17:53:31 - INFO - stdout - {'loss': 1.1316, 'learning_rate': 0.00030838957055150134, 'epoch': 3.82}
+2025-10-06 17:53:31 - ERROR - stderr -  64%|████████████████████████████████████████████████████████████████▉                                     | 1329/2088 [2:45:00<1:27:49,  6.94s/it]
+2025-10-06 17:53:38 - ERROR - stderr -  64%|████████████████████████████████████████████████████████████████▉                                     | 1330/2088 [2:45:07<1:28:31,  7.01s/it]
+2025-10-06 17:53:38 - ERROR - stderr - 
+2025-10-06 17:53:38 - ERROR - stderr - 
+2025-10-06 17:53:38 - INFO - stdout - {'loss': 1.126, 'learning_rate': 0.00030767331914929635, 'epoch': 3.82}
+2025-10-06 17:53:38 - ERROR - stderr -  64%|████████████████████████████████████████████████████████████████▉                                     | 1330/2088 [2:45:07<1:28:31,  7.01s/it]
+2025-10-06 17:53:45 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████                                     | 1331/2088 [2:45:14<1:27:45,  6.96s/it]
+2025-10-06 17:53:45 - ERROR - stderr - 
+2025-10-06 17:53:45 - ERROR - stderr - 
+2025-10-06 17:53:45 - INFO - stdout - {'loss': 1.0188, 'learning_rate': 0.0003069575306491794, 'epoch': 3.82}
+2025-10-06 17:53:45 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████                                     | 1331/2088 [2:45:14<1:27:45,  6.96s/it]
+2025-10-06 17:53:52 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████                                     | 1332/2088 [2:45:21<1:28:01,  6.99s/it]
+2025-10-06 17:53:52 - ERROR - stderr - 
+2025-10-06 17:53:52 - ERROR - stderr - 
+2025-10-06 17:53:52 - INFO - stdout - {'loss': 1.0437, 'learning_rate': 0.0003062422067739485, 'epoch': 3.83}
+2025-10-06 17:53:52 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████                                     | 1332/2088 [2:45:21<1:28:01,  6.99s/it]
+2025-10-06 17:53:59 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████                                     | 1333/2088 [2:45:28<1:28:01,  7.00s/it]
+2025-10-06 17:53:59 - ERROR - stderr - 
+2025-10-06 17:53:59 - ERROR - stderr - 
+2025-10-06 17:53:59 - INFO - stdout - {'loss': 1.0687, 'learning_rate': 0.000305527349245283, 'epoch': 3.83}
+2025-10-06 17:53:59 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████                                     | 1333/2088 [2:45:28<1:28:01,  7.00s/it]
+2025-10-06 17:54:06 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▏                                    | 1334/2088 [2:45:35<1:28:04,  7.01s/it]
+2025-10-06 17:54:06 - ERROR - stderr - 
+2025-10-06 17:54:06 - ERROR - stderr - 
+2025-10-06 17:54:06 - INFO - stdout - {'loss': 1.1534, 'learning_rate': 0.00030481295978374034, 'epoch': 3.83}
+2025-10-06 17:54:06 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▏                                    | 1334/2088 [2:45:35<1:28:04,  7.01s/it]
+2025-10-06 17:54:13 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▏                                    | 1335/2088 [2:45:42<1:27:03,  6.94s/it]
+2025-10-06 17:54:13 - ERROR - stderr - 
+2025-10-06 17:54:13 - ERROR - stderr - 
+2025-10-06 17:54:13 - INFO - stdout - {'loss': 1.1119, 'learning_rate': 0.0003040990401087508, 'epoch': 3.84}
+2025-10-06 17:54:13 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▏                                    | 1335/2088 [2:45:42<1:27:03,  6.94s/it]
+2025-10-06 17:54:20 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▎                                    | 1336/2088 [2:45:49<1:27:34,  6.99s/it]
+2025-10-06 17:54:20 - ERROR - stderr - 
+2025-10-06 17:54:20 - ERROR - stderr - 
+2025-10-06 17:54:20 - INFO - stdout - {'loss': 1.1918, 'learning_rate': 0.0003033855919386143, 'epoch': 3.84}
+2025-10-06 17:54:20 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▎                                    | 1336/2088 [2:45:49<1:27:34,  6.99s/it]
+2025-10-06 17:54:27 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▎                                    | 1337/2088 [2:45:56<1:27:27,  6.99s/it]
+2025-10-06 17:54:27 - ERROR - stderr - 
+2025-10-06 17:54:27 - ERROR - stderr - 
+2025-10-06 17:54:27 - INFO - stdout - {'loss': 1.0773, 'learning_rate': 0.0003026726169904959, 'epoch': 3.84}
+2025-10-06 17:54:27 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▎                                    | 1337/2088 [2:45:56<1:27:27,  6.99s/it]
+2025-10-06 17:54:34 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▎                                    | 1338/2088 [2:46:03<1:27:28,  7.00s/it]
+2025-10-06 17:54:34 - ERROR - stderr - 
+2025-10-06 17:54:34 - ERROR - stderr - 
+2025-10-06 17:54:34 - INFO - stdout - {'loss': 1.1186, 'learning_rate': 0.0003019601169804216, 'epoch': 3.84}
+2025-10-06 17:54:34 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▎                                    | 1338/2088 [2:46:03<1:27:28,  7.00s/it]
+2025-10-06 17:54:41 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▍                                    | 1339/2088 [2:46:10<1:27:53,  7.04s/it]
+2025-10-06 17:54:41 - ERROR - stderr - 
+2025-10-06 17:54:41 - ERROR - stderr - 
+2025-10-06 17:54:41 - INFO - stdout - {'loss': 1.0725, 'learning_rate': 0.0003012480936232744, 'epoch': 3.85}
+2025-10-06 17:54:41 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▍                                    | 1339/2088 [2:46:10<1:27:53,  7.04s/it]
+2025-10-06 17:54:49 - ERROR - stderr -  64%|█████████████████████���███████████████████████████████████████████▍                                    | 1340/2088 [2:46:17<1:28:25,  7.09s/it]
+2025-10-06 17:54:49 - ERROR - stderr - 
+2025-10-06 17:54:49 - ERROR - stderr - 
+2025-10-06 17:54:49 - INFO - stdout - {'loss': 1.1453, 'learning_rate': 0.00030053654863278987, 'epoch': 3.85}
+2025-10-06 17:54:49 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▍                                    | 1340/2088 [2:46:17<1:28:25,  7.09s/it]
+2025-10-06 17:54:56 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▌                                    | 1341/2088 [2:46:24<1:29:12,  7.17s/it]
+2025-10-06 17:54:56 - ERROR - stderr - 
+2025-10-06 17:54:56 - ERROR - stderr - 
+2025-10-06 17:54:56 - INFO - stdout - {'loss': 1.1075, 'learning_rate': 0.0002998254837215526, 'epoch': 3.85}
+2025-10-06 17:54:56 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▌                                    | 1341/2088 [2:46:24<1:29:12,  7.17s/it]
+2025-10-06 17:55:03 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▌                                    | 1342/2088 [2:46:32<1:29:23,  7.19s/it]
+2025-10-06 17:55:03 - ERROR - stderr - 
+2025-10-06 17:55:03 - ERROR - stderr - 
+2025-10-06 17:55:03 - INFO - stdout - {'loss': 1.0844, 'learning_rate': 0.00029911490060099114, 'epoch': 3.86}
+2025-10-06 17:55:03 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▌                                    | 1342/2088 [2:46:32<1:29:23,  7.19s/it]
+2025-10-06 17:55:10 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▌                                    | 1343/2088 [2:46:39<1:28:30,  7.13s/it]
+2025-10-06 17:55:10 - ERROR - stderr - 
+2025-10-06 17:55:10 - ERROR - stderr - 
+2025-10-06 17:55:10 - INFO - stdout - {'loss': 1.1322, 'learning_rate': 0.000298404800981375, 'epoch': 3.86}
+2025-10-06 17:55:10 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▌                                    | 1343/2088 [2:46:39<1:28:30,  7.13s/it]
+2025-10-06 17:55:17 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▋                                    | 1344/2088 [2:46:46<1:28:04,  7.10s/it]
+2025-10-06 17:55:17 - ERROR - stderr - 
+2025-10-06 17:55:17 - ERROR - stderr - 
+2025-10-06 17:55:17 - INFO - stdout - {'loss': 1.0411, 'learning_rate': 0.0002976951865718095, 'epoch': 3.86}
+2025-10-06 17:55:17 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▋                                    | 1344/2088 [2:46:46<1:28:04,  7.10s/it]
+2025-10-06 17:55:24 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▋                                    | 1345/2088 [2:46:53<1:27:11,  7.04s/it]
+2025-10-06 17:55:24 - ERROR - stderr - 
+2025-10-06 17:55:24 - ERROR - stderr - 
+2025-10-06 17:55:24 - INFO - stdout - {'loss': 1.0456, 'learning_rate': 0.0002969860590802326, 'epoch': 3.86}
+2025-10-06 17:55:24 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▋                                    | 1345/2088 [2:46:53<1:27:11,  7.04s/it]
+2025-10-06 17:55:31 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████��███████▊                                    | 1346/2088 [2:47:00<1:26:46,  7.02s/it]
+2025-10-06 17:55:31 - ERROR - stderr - 
+2025-10-06 17:55:31 - ERROR - stderr - 
+2025-10-06 17:55:31 - INFO - stdout - {'loss': 1.1246, 'learning_rate': 0.0002962774202134098, 'epoch': 3.87}
+2025-10-06 17:55:31 - ERROR - stderr -  64%|█████████████████████████████████████████████████████████████████▊                                    | 1346/2088 [2:47:00<1:26:46,  7.02s/it]
+2025-10-06 17:55:38 - ERROR - stderr -  65%|█████████████████████████████████████████████████████████████████▊                                    | 1347/2088 [2:47:07<1:27:39,  7.10s/it]
+2025-10-06 17:55:38 - ERROR - stderr - 
+2025-10-06 17:55:38 - ERROR - stderr - 
+2025-10-06 17:55:38 - INFO - stdout - {'loss': 1.1682, 'learning_rate': 0.00029556927167693104, 'epoch': 3.87}
+2025-10-06 17:55:38 - ERROR - stderr -  65%|█████████████████████████████████████████████████████████████████▊                                    | 1347/2088 [2:47:07<1:27:39,  7.10s/it]
+2025-10-06 17:55:46 - ERROR - stderr -  65%|█████████████████████████████████████████████████████████████████▊                                    | 1348/2088 [2:47:14<1:28:00,  7.14s/it]
+2025-10-06 17:55:46 - ERROR - stderr - 
+2025-10-06 17:55:46 - ERROR - stderr - 
+2025-10-06 17:55:46 - INFO - stdout - {'loss': 1.0113, 'learning_rate': 0.00029486161517520596, 'epoch': 3.87}
+2025-10-06 17:55:46 - ERROR - stderr -  65%|█████████████████████████████████████████████████████████████████▊                                    | 1348/2088 [2:47:14<1:28:00,  7.14s/it]
+2025-10-06 17:55:52 - ERROR - stderr -  65%|█████████████████████████████████████████████████████████████████▉                                    | 1349/2088 [2:47:21<1:26:56,  7.06s/it]
+2025-10-06 17:55:52 - ERROR - stderr - 
+2025-10-06 17:55:52 - ERROR - stderr - 
+2025-10-06 17:55:52 - INFO - stdout - {'loss': 1.0967, 'learning_rate': 0.00029415445241145967, 'epoch': 3.88}
+2025-10-06 17:55:52 - ERROR - stderr -  65%|█████████████████████████████████████████████████████████████████▉                                    | 1349/2088 [2:47:21<1:26:56,  7.06s/it]
+2025-10-06 17:55:59 - ERROR - stderr -  65%|█████████████████████████████████████████████████████████████████▉                                    | 1350/2088 [2:47:28<1:25:41,  6.97s/it]
+2025-10-06 17:55:59 - ERROR - stderr - 
+2025-10-06 17:55:59 - ERROR - stderr - 
+2025-10-06 17:55:59 - INFO - stdout - {'loss': 1.1221, 'learning_rate': 0.00029344778508772916, 'epoch': 3.88}
+2025-10-06 17:55:59 - ERROR - stderr -  65%|█████████████████████████████████████████████████████████████████▉                                    | 1350/2088 [2:47:28<1:25:41,  6.97s/it]
+2025-10-06 17:56:06 - ERROR - stderr -  65%|█████████████████████████████████████████████████████████████████▉                                    | 1351/2088 [2:47:35<1:25:39,  6.97s/it]
+2025-10-06 17:56:06 - ERROR - stderr - 
+2025-10-06 17:56:06 - ERROR - stderr - 
+2025-10-06 17:56:06 - INFO - stdout - {'loss': 1.1205, 'learning_rate': 0.0002927416149048591, 'epoch': 3.88}
+2025-10-06 17:56:06 - ERROR - stderr -  65%|█████████████████████████████████████████████████████████████████▉                                    | 1351/2088 [2:47:35<1:25:39,  6.97s/it]
+2025-10-06 17:56:13 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████                                    | 1352/2088 [2:47:41<1:24:56,  6.92s/it]
+2025-10-06 17:56:13 - ERROR - stderr - 
+2025-10-06 17:56:13 - ERROR - stderr - 
+2025-10-06 17:56:13 - INFO - stdout - {'loss': 1.1395, 'learning_rate': 0.00029203594356249724, 'epoch': 3.89}
+2025-10-06 17:56:13 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████                                    | 1352/2088 [2:47:42<1:24:56,  6.92s/it]
+2025-10-06 17:56:20 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████                                    | 1353/2088 [2:47:49<1:25:40,  6.99s/it]
+2025-10-06 17:56:20 - ERROR - stderr - 
+2025-10-06 17:56:20 - ERROR - stderr - 
+2025-10-06 17:56:20 - INFO - stdout - {'loss': 1.1085, 'learning_rate': 0.0002913307727590911, 'epoch': 3.89}
+2025-10-06 17:56:20 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████                                    | 1353/2088 [2:47:49<1:25:40,  6.99s/it]
+2025-10-06 17:56:27 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▏                                   | 1354/2088 [2:47:56<1:25:27,  6.99s/it]
+2025-10-06 17:56:27 - ERROR - stderr - 
+2025-10-06 17:56:27 - ERROR - stderr - 
+2025-10-06 17:56:27 - INFO - stdout - {'loss': 1.1068, 'learning_rate': 0.0002906261041918831, 'epoch': 3.89}
+2025-10-06 17:56:27 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▏                                   | 1354/2088 [2:47:56<1:25:27,  6.99s/it]
+2025-10-06 17:56:34 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▏                                   | 1355/2088 [2:48:03<1:26:04,  7.05s/it]
+2025-10-06 17:56:34 - ERROR - stderr - 
+2025-10-06 17:56:34 - ERROR - stderr - 
+2025-10-06 17:56:34 - INFO - stdout - {'loss': 1.0502, 'learning_rate': 0.0002899219395569075, 'epoch': 3.89}
+2025-10-06 17:56:34 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▏                                   | 1355/2088 [2:48:03<1:26:04,  7.05s/it]
+2025-10-06 17:56:41 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▏                                   | 1356/2088 [2:48:10<1:25:55,  7.04s/it]
+2025-10-06 17:56:41 - ERROR - stderr - 
+2025-10-06 17:56:41 - ERROR - stderr - 
+2025-10-06 17:56:41 - INFO - stdout - {'loss': 1.0593, 'learning_rate': 0.0002892182805489846, 'epoch': 3.9}
+2025-10-06 17:56:41 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▏                                   | 1356/2088 [2:48:10<1:25:55,  7.04s/it]
+2025-10-06 17:56:49 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▎                                   | 1357/2088 [2:48:17<1:26:38,  7.11s/it]
+2025-10-06 17:56:49 - ERROR - stderr - 
+2025-10-06 17:56:49 - ERROR - stderr - 
+2025-10-06 17:56:49 - INFO - stdout - {'loss': 1.063, 'learning_rate': 0.0002885151288617185, 'epoch': 3.9}
+2025-10-06 17:56:49 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▎                                   | 1357/2088 [2:48:17<1:26:38,  7.11s/it]
+2025-10-06 17:56:56 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▎                                   | 1358/2088 [2:48:24<1:27:18,  7.18s/it]
+2025-10-06 17:56:56 - ERROR - stderr - 
+2025-10-06 17:56:56 - ERROR - stderr - 
+2025-10-06 17:56:56 - INFO - stdout - {'loss': 1.076, 'learning_rate': 0.0002878124861874923, 'epoch': 3.9}
+2025-10-06 17:56:56 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▎                                   | 1358/2088 [2:48:24<1:27:18,  7.18s/it]
+2025-10-06 17:57:03 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▍                                   | 1359/2088 [2:48:31<1:26:24,  7.11s/it]
+2025-10-06 17:57:03 - ERROR - stderr - 
+2025-10-06 17:57:03 - ERROR - stderr - 
+2025-10-06 17:57:03 - INFO - stdout - {'loss': 1.1588, 'learning_rate': 0.00028711035421746366, 'epoch': 3.91}
+2025-10-06 17:57:03 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▍                                   | 1359/2088 [2:48:31<1:26:24,  7.11s/it]
+2025-10-06 17:57:10 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▍                                   | 1360/2088 [2:48:39<1:27:52,  7.24s/it]
+2025-10-06 17:57:10 - ERROR - stderr - 
+2025-10-06 17:57:10 - ERROR - stderr - 
+2025-10-06 17:57:10 - INFO - stdout - {'loss': 1.09, 'learning_rate': 0.0002864087346415613, 'epoch': 3.91}
+2025-10-06 17:57:10 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▍                                   | 1360/2088 [2:48:39<1:27:52,  7.24s/it]
+2025-10-06 17:57:18 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▍                                   | 1361/2088 [2:48:46<1:27:43,  7.24s/it]
+2025-10-06 17:57:18 - ERROR - stderr - 
+2025-10-06 17:57:18 - ERROR - stderr - 
+2025-10-06 17:57:18 - INFO - stdout - {'loss': 1.1083, 'learning_rate': 0.0002857076291484801, 'epoch': 3.91}
+2025-10-06 17:57:18 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▍                                   | 1361/2088 [2:48:46<1:27:43,  7.24s/it]
+2025-10-06 17:57:25 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▌                                   | 1362/2088 [2:48:54<1:28:29,  7.31s/it]
+2025-10-06 17:57:25 - ERROR - stderr - 
+2025-10-06 17:57:25 - ERROR - stderr - 
+2025-10-06 17:57:25 - INFO - stdout - {'loss': 1.0771, 'learning_rate': 0.00028500703942567875, 'epoch': 3.91}
+2025-10-06 17:57:25 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▌                                   | 1362/2088 [2:48:54<1:28:29,  7.31s/it]
+2025-10-06 17:57:32 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▌                                   | 1363/2088 [2:49:00<1:25:50,  7.10s/it]
+2025-10-06 17:57:32 - ERROR - stderr - 
+2025-10-06 17:57:32 - ERROR - stderr - 
+2025-10-06 17:57:32 - INFO - stdout - {'loss': 1.0822, 'learning_rate': 0.0002843069671593734, 'epoch': 3.92}
+2025-10-06 17:57:32 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▌                                   | 1363/2088 [2:49:00<1:25:50,  7.10s/it]
+2025-10-06 17:57:39 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▋                                   | 1364/2088 [2:49:07<1:25:07,  7.05s/it]
+2025-10-06 17:57:39 - ERROR - stderr - 
+2025-10-06 17:57:39 - ERROR - stderr - 
+2025-10-06 17:57:39 - INFO - stdout - {'loss': 1.0481, 'learning_rate': 0.0002836074140345352, 'epoch': 3.92}
+2025-10-06 17:57:39 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▋                                   | 1364/2088 [2:49:07<1:25:07,  7.05s/it]
+2025-10-06 17:57:46 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▋                                   | 1365/2088 [2:49:15<1:26:29,  7.18s/it]
+2025-10-06 17:57:46 - ERROR - stderr - 
+2025-10-06 17:57:46 - ERROR - stderr - 
+2025-10-06 17:57:46 - INFO - stdout - {'loss': 1.1627, 'learning_rate': 0.00028290838173488595, 'epoch': 3.92}
+2025-10-06 17:57:46 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▋                                   | 1365/2088 [2:49:15<1:26:29,  7.18s/it]
+2025-10-06 17:57:53 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▋                                   | 1366/2088 [2:49:22<1:25:25,  7.10s/it]
+2025-10-06 17:57:53 - ERROR - stderr - 
+2025-10-06 17:57:53 - ERROR - stderr - 
+2025-10-06 17:57:53 - INFO - stdout - {'loss': 1.1189, 'learning_rate': 0.00028220987194289376, 'epoch': 3.93}
+2025-10-06 17:57:53 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▋                                   | 1366/2088 [2:49:22<1:25:25,  7.10s/it]
+2025-10-06 17:58:00 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▊                                   | 1367/2088 [2:49:29<1:25:29,  7.11s/it]
+2025-10-06 17:58:00 - ERROR - stderr - 
+2025-10-06 17:58:00 - ERROR - stderr - 
+2025-10-06 17:58:00 - INFO - stdout - {'loss': 1.1086, 'learning_rate': 0.0002815118863397694, 'epoch': 3.93}
+2025-10-06 17:58:00 - ERROR - stderr -  65%|██████████████████████████████████████████████████████████████████▊                                   | 1367/2088 [2:49:29<1:25:29,  7.11s/it]
+2025-10-06 17:58:07 - ERROR - stderr -  66%|██████████████████████████████████████████████████████████████████▊                                   | 1368/2088 [2:49:36<1:25:24,  7.12s/it]
+2025-10-06 17:58:07 - ERROR - stderr - 
+2025-10-06 17:58:07 - ERROR - stderr - 
+2025-10-06 17:58:07 - INFO - stdout - {'loss': 1.0687, 'learning_rate': 0.00028081442660546124, 'epoch': 3.93}
+2025-10-06 17:58:07 - ERROR - stderr -  66%|██████████████████████████████████████████████████████████████████▊                                   | 1368/2088 [2:49:36<1:25:24,  7.12s/it]
+2025-10-06 17:58:15 - ERROR - stderr -  66%|██████████████████████████████████████████████████████████████████▉                                   | 1369/2088 [2:49:43<1:26:02,  7.18s/it]
+2025-10-06 17:58:15 - ERROR - stderr - 
+2025-10-06 17:58:15 - ERROR - stderr - 
+2025-10-06 17:58:15 - INFO - stdout - {'loss': 1.0745, 'learning_rate': 0.000280117494418653, 'epoch': 3.93}
+2025-10-06 17:58:15 - ERROR - stderr -  66%|██████████████████████████████████████████████████████████████████▉                                   | 1369/2088 [2:49:43<1:26:02,  7.18s/it]
+2025-10-06 17:58:22 - ERROR - stderr -  66%|██████████████████████████████████████████████████████████████████▉                                   | 1370/2088 [2:49:50<1:25:46,  7.17s/it]
+2025-10-06 17:58:22 - ERROR - stderr - 
+2025-10-06 17:58:22 - ERROR - stderr - 
+2025-10-06 17:58:22 - INFO - stdout - {'loss': 1.058, 'learning_rate': 0.000279421091456758, 'epoch': 3.94}
+2025-10-06 17:58:22 - ERROR - stderr -  66%|██████████████████████████████████████████████████████████████████▉                                   | 1370/2088 [2:49:50<1:25:46,  7.17s/it]
+2025-10-06 17:58:29 - ERROR - stderr -  66%|██████████████████████████████████████████████████████████████████▉                                   | 1371/2088 [2:49:57<1:24:30,  7.07s/it]
+2025-10-06 17:58:29 - ERROR - stderr - 
+2025-10-06 17:58:29 - ERROR - stderr - 
+2025-10-06 17:58:29 - INFO - stdout - {'loss': 1.0708, 'learning_rate': 0.00027872521939591556, 'epoch': 3.94}
+2025-10-06 17:58:29 - ERROR - stderr -  66%|██████████████████████████████████████████████████████████████████▉                                   | 1371/2088 [2:49:57<1:24:30,  7.07s/it]
+2025-10-06 17:58:36 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████                                   | 1372/2088 [2:50:04<1:25:00,  7.12s/it]
+2025-10-06 17:58:36 - ERROR - stderr - 
+2025-10-06 17:58:36 - ERROR - stderr - 
+2025-10-06 17:58:36 - INFO - stdout - {'loss': 1.1077, 'learning_rate': 0.00027802987991098815, 'epoch': 3.94}
+2025-10-06 17:58:36 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████                                   | 1372/2088 [2:50:04<1:25:00,  7.12s/it]
+2025-10-06 17:58:43 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████                                   | 1373/2088 [2:50:11<1:24:08,  7.06s/it]
+2025-10-06 17:58:43 - ERROR - stderr - 
+2025-10-06 17:58:43 - ERROR - stderr - 
+2025-10-06 17:58:43 - INFO - stdout - {'loss': 1.0548, 'learning_rate': 0.0002773350746755553, 'epoch': 3.95}
+2025-10-06 17:58:43 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████                                   | 1373/2088 [2:50:11<1:24:08,  7.06s/it]
+2025-10-06 17:58:50 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████                                   | 1374/2088 [2:50:18<1:23:08,  6.99s/it]
+2025-10-06 17:58:50 - ERROR - stderr - 
+2025-10-06 17:58:50 - ERROR - stderr - 
+2025-10-06 17:58:50 - INFO - stdout - {'loss': 1.1224, 'learning_rate': 0.0002766408053619118, 'epoch': 3.95}
+2025-10-06 17:58:50 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████                                   | 1374/2088 [2:50:18<1:23:08,  6.99s/it]
+2025-10-06 17:58:57 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▏                                  | 1375/2088 [2:50:25<1:22:52,  6.97s/it]
+2025-10-06 17:58:57 - ERROR - stderr - 
+2025-10-06 17:58:57 - ERROR - stderr - 
+2025-10-06 17:58:57 - INFO - stdout - {'loss': 1.0293, 'learning_rate': 0.00027594707364106137, 'epoch': 3.95}
+2025-10-06 17:58:57 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▏                                  | 1375/2088 [2:50:25<1:22:52,  6.97s/it]
+2025-10-06 17:59:04 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▏                                  | 1376/2088 [2:50:32<1:22:32,  6.96s/it]
+2025-10-06 17:59:04 - ERROR - stderr - 
+2025-10-06 17:59:04 - ERROR - stderr - 
+2025-10-06 17:59:04 - INFO - stdout - {'loss': 1.1254, 'learning_rate': 0.00027525388118271495, 'epoch': 3.95}
+2025-10-06 17:59:04 - ERROR - stderr -  66%|████████████████████████████████████���██████████████████████████████▏                                  | 1376/2088 [2:50:32<1:22:32,  6.96s/it]
+2025-10-06 17:59:11 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▎                                  | 1377/2088 [2:50:39<1:24:09,  7.10s/it]
+2025-10-06 17:59:11 - ERROR - stderr - 
+2025-10-06 17:59:11 - ERROR - stderr - 
+2025-10-06 17:59:11 - INFO - stdout - {'loss': 1.0609, 'learning_rate': 0.00027456122965528474, 'epoch': 3.96}
+2025-10-06 17:59:11 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▎                                  | 1377/2088 [2:50:39<1:24:09,  7.10s/it]
+2025-10-06 17:59:19 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▎                                  | 1378/2088 [2:50:47<1:25:47,  7.25s/it]
+2025-10-06 17:59:19 - ERROR - stderr - 
+2025-10-06 17:59:19 - ERROR - stderr - 
+2025-10-06 17:59:19 - INFO - stdout - {'loss': 1.0853, 'learning_rate': 0.0002738691207258812, 'epoch': 3.96}
+2025-10-06 17:59:19 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▎                                  | 1378/2088 [2:50:47<1:25:47,  7.25s/it]
+2025-10-06 17:59:25 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▎                                  | 1379/2088 [2:50:54<1:24:23,  7.14s/it]
+2025-10-06 17:59:25 - ERROR - stderr - 
+2025-10-06 17:59:25 - ERROR - stderr - 
+2025-10-06 17:59:25 - INFO - stdout - {'loss': 1.0399, 'learning_rate': 0.0002731775560603092, 'epoch': 3.96}
+2025-10-06 17:59:25 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▎                                  | 1379/2088 [2:50:54<1:24:23,  7.14s/it]
+2025-10-06 17:59:33 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▍                                  | 1380/2088 [2:51:01<1:24:39,  7.18s/it]
+2025-10-06 17:59:33 - ERROR - stderr - 
+2025-10-06 17:59:33 - ERROR - stderr - 
+2025-10-06 17:59:33 - INFO - stdout - {'loss': 1.101, 'learning_rate': 0.00027248653732306317, 'epoch': 3.97}
+2025-10-06 17:59:33 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▍                                  | 1380/2088 [2:51:01<1:24:39,  7.18s/it]
+2025-10-06 17:59:40 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▍                                  | 1381/2088 [2:51:08<1:24:16,  7.15s/it]
+2025-10-06 17:59:40 - ERROR - stderr - 
+2025-10-06 17:59:40 - ERROR - stderr - 
+2025-10-06 17:59:40 - INFO - stdout - {'loss': 1.0538, 'learning_rate': 0.000271796066177324, 'epoch': 3.97}
+2025-10-06 17:59:40 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▍                                  | 1381/2088 [2:51:08<1:24:16,  7.15s/it]
+2025-10-06 17:59:47 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▌                                  | 1382/2088 [2:51:15<1:23:27,  7.09s/it]
+2025-10-06 17:59:47 - ERROR - stderr - 
+2025-10-06 17:59:47 - ERROR - stderr - 
+2025-10-06 17:59:47 - INFO - stdout - {'loss': 1.1322, 'learning_rate': 0.00027110614428495396, 'epoch': 3.97}
+2025-10-06 17:59:47 - ERROR - stderr -  66%|████████████████████████████████████████████████████████��██████████▌                                  | 1382/2088 [2:51:15<1:23:27,  7.09s/it]
+2025-10-06 17:59:54 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▌                                  | 1383/2088 [2:51:23<1:24:17,  7.17s/it]
+2025-10-06 17:59:54 - ERROR - stderr - 
+2025-10-06 17:59:54 - ERROR - stderr - 
+2025-10-06 17:59:54 - INFO - stdout - {'loss': 1.1962, 'learning_rate': 0.0002704167733064941, 'epoch': 3.97}
+2025-10-06 17:59:54 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▌                                  | 1383/2088 [2:51:23<1:24:17,  7.17s/it]
+2025-10-06 18:00:01 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▌                                  | 1384/2088 [2:51:30<1:24:08,  7.17s/it]
+2025-10-06 18:00:01 - ERROR - stderr - 
+2025-10-06 18:00:01 - ERROR - stderr - 
+2025-10-06 18:00:01 - INFO - stdout - {'loss': 1.077, 'learning_rate': 0.00026972795490115943, 'epoch': 3.98}
+2025-10-06 18:00:01 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▌                                  | 1384/2088 [2:51:30<1:24:08,  7.17s/it]
+2025-10-06 18:00:08 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▋                                  | 1385/2088 [2:51:37<1:23:19,  7.11s/it]
+2025-10-06 18:00:08 - ERROR - stderr - 
+2025-10-06 18:00:08 - ERROR - stderr - 
+2025-10-06 18:00:08 - INFO - stdout - {'loss': 1.0896, 'learning_rate': 0.00026903969072683396, 'epoch': 3.98}
+2025-10-06 18:00:08 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▋                                  | 1385/2088 [2:51:37<1:23:19,  7.11s/it]
+2025-10-06 18:00:15 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▋                                  | 1386/2088 [2:51:44<1:22:18,  7.04s/it]
+2025-10-06 18:00:15 - ERROR - stderr - 
+2025-10-06 18:00:15 - ERROR - stderr - 
+2025-10-06 18:00:15 - INFO - stdout - {'loss': 1.0934, 'learning_rate': 0.00026835198244006924, 'epoch': 3.98}
+2025-10-06 18:00:15 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▋                                  | 1386/2088 [2:51:44<1:22:18,  7.04s/it]
+2025-10-06 18:00:22 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▊                                  | 1387/2088 [2:51:51<1:22:33,  7.07s/it]
+2025-10-06 18:00:22 - ERROR - stderr - 
+2025-10-06 18:00:22 - ERROR - stderr - 
+2025-10-06 18:00:22 - INFO - stdout - {'loss': 1.0652, 'learning_rate': 0.0002676648316960777, 'epoch': 3.99}
+2025-10-06 18:00:22 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▊                                  | 1387/2088 [2:51:51<1:22:33,  7.07s/it]
+2025-10-06 18:00:29 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▊                                  | 1388/2088 [2:51:58<1:21:45,  7.01s/it]
+2025-10-06 18:00:29 - ERROR - stderr - 
+2025-10-06 18:00:29 - ERROR - stderr - 
+2025-10-06 18:00:29 - INFO - stdout - {'loss': 1.0697, 'learning_rate': 0.0002669782401487307, 'epoch': 3.99}
+2025-10-06 18:00:29 - ERROR - stderr -  66%|███████████████████████████████████████████████████████████████████▊                                  | 1388/2088 [2:51:58<1:21:45,  7.01s/it]
+2025-10-06 18:00:36 - ERROR - stderr -  67%|███████████████████████████████████████████████████████████████████▊                                  | 1389/2088 [2:52:05<1:21:42,  7.01s/it]
+2025-10-06 18:00:36 - ERROR - stderr - 
+2025-10-06 18:00:36 - ERROR - stderr - 
+2025-10-06 18:00:36 - INFO - stdout - {'loss': 1.0753, 'learning_rate': 0.0002662922094505529, 'epoch': 3.99}
+2025-10-06 18:00:36 - ERROR - stderr -  67%|███████████████████████████████████████████████████████████████████▊                                  | 1389/2088 [2:52:05<1:21:42,  7.01s/it]
+2025-10-06 18:00:43 - ERROR - stderr -  67%|███████████████████████████████████████████████████████████████████▉                                  | 1390/2088 [2:52:12<1:21:14,  6.98s/it]
+2025-10-06 18:00:43 - ERROR - stderr - 
+2025-10-06 18:00:43 - ERROR - stderr - 
+2025-10-06 18:00:43 - INFO - stdout - {'loss': 1.0786, 'learning_rate': 0.0002656067412527197, 'epoch': 3.99}
+2025-10-06 18:00:43 - ERROR - stderr -  67%|███████████████████████████████████████████████████████████████████▉                                  | 1390/2088 [2:52:12<1:21:14,  6.98s/it]
+2025-10-06 18:00:50 - ERROR - stderr -  67%|███████████████████████████████████████████████████████████████████▉                                  | 1391/2088 [2:52:18<1:20:29,  6.93s/it]
+2025-10-06 18:00:50 - ERROR - stderr - 
+2025-10-06 18:00:50 - ERROR - stderr - 
+2025-10-06 18:00:50 - INFO - stdout - {'loss': 1.037, 'learning_rate': 0.0002649218372050528, 'epoch': 4.0}
+2025-10-06 18:00:50 - ERROR - stderr -  67%|███████████████████████████████████████████████████████████████████▉                                  | 1391/2088 [2:52:18<1:20:29,  6.93s/it]
+2025-10-06 18:00:54 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████                                  | 1392/2088 [2:52:22<1:10:37,  6.09s/it]
+2025-10-06 18:00:54 - ERROR - stderr - 
+2025-10-06 18:00:54 - ERROR - stderr - 
+2025-10-06 18:00:54 - INFO - stdout - {'loss': 0.9392, 'learning_rate': 0.0002642374989560149, 'epoch': 4.0}
+2025-10-06 18:00:54 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████                                  | 1392/2088 [2:52:22<1:10:37,  6.09s/it]
+2025-10-06 18:01:01 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████                                  | 1393/2088 [2:52:29<1:13:40,  6.36s/it]
+2025-10-06 18:01:01 - ERROR - stderr - 
+2025-10-06 18:01:01 - ERROR - stderr - 
+2025-10-06 18:01:01 - INFO - stdout - {'loss': 0.9085, 'learning_rate': 0.00026355372815270835, 'epoch': 4.0}
+2025-10-06 18:01:01 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████                                  | 1393/2088 [2:52:29<1:13:40,  6.36s/it]
+2025-10-06 18:01:08 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████                                  | 1394/2088 [2:52:37<1:16:07,  6.58s/it]
+2025-10-06 18:01:08 - ERROR - stderr - 
+2025-10-06 18:01:08 - ERROR - stderr - 
+2025-10-06 18:01:08 - INFO - stdout - {'loss': 1.068, 'learning_rate': 0.00026287052644086866, 'epoch': 4.01}
+2025-10-06 18:01:08 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████                                  | 1394/2088 [2:52:37<1:16:07,  6.58s/it]
+2025-10-06 18:01:15 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▏                                 | 1395/2088 [2:52:44<1:17:30,  6.71s/it]
+2025-10-06 18:01:15 - ERROR - stderr - 
+2025-10-06 18:01:15 - ERROR - stderr - 
+2025-10-06 18:01:15 - INFO - stdout - {'loss': 0.9927, 'learning_rate': 0.00026218789546486235, 'epoch': 4.01}
+2025-10-06 18:01:15 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▏                                 | 1395/2088 [2:52:44<1:17:30,  6.71s/it]
+2025-10-06 18:01:23 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▏                                 | 1396/2088 [2:52:51<1:20:13,  6.96s/it]
+2025-10-06 18:01:23 - ERROR - stderr - 
+2025-10-06 18:01:23 - ERROR - stderr - 
+2025-10-06 18:01:23 - INFO - stdout - {'loss': 1.0365, 'learning_rate': 0.000261505836867682, 'epoch': 4.01}
+2025-10-06 18:01:23 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▏                                 | 1396/2088 [2:52:51<1:20:13,  6.96s/it]
+2025-10-06 18:01:30 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▏                                 | 1397/2088 [2:52:59<1:21:36,  7.09s/it]
+2025-10-06 18:01:30 - ERROR - stderr - 
+2025-10-06 18:01:30 - ERROR - stderr - 
+2025-10-06 18:01:30 - INFO - stdout - {'loss': 0.9705, 'learning_rate': 0.00026082435229094224, 'epoch': 4.01}
+2025-10-06 18:01:30 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▏                                 | 1397/2088 [2:52:59<1:21:36,  7.09s/it]
+2025-10-06 18:01:37 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▎                                 | 1398/2088 [2:53:06<1:22:20,  7.16s/it]
+2025-10-06 18:01:37 - ERROR - stderr - 
+2025-10-06 18:01:37 - ERROR - stderr - 
+2025-10-06 18:01:37 - INFO - stdout - {'loss': 1.0147, 'learning_rate': 0.0002601434433748771, 'epoch': 4.02}
+2025-10-06 18:01:37 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▎                                 | 1398/2088 [2:53:06<1:22:20,  7.16s/it]
+2025-10-06 18:01:44 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▎                                 | 1399/2088 [2:53:13<1:21:53,  7.13s/it]
+2025-10-06 18:01:44 - ERROR - stderr - 
+2025-10-06 18:01:44 - ERROR - stderr - 
+2025-10-06 18:01:44 - INFO - stdout - {'loss': 1.0635, 'learning_rate': 0.00025946311175833336, 'epoch': 4.02}
+2025-10-06 18:01:44 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▎                                 | 1399/2088 [2:53:13<1:21:53,  7.13s/it]
+2025-10-06 18:01:51 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▍                                 | 1400/2088 [2:53:20<1:20:09,  6.99s/it]
+2025-10-06 18:01:51 - ERROR - stderr - 
+2025-10-06 18:01:51 - ERROR - stderr - 
+2025-10-06 18:01:51 - INFO - stdout - {'loss': 0.9752, 'learning_rate': 0.0002587833590787699, 'epoch': 4.02}
+2025-10-06 18:01:51 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▍                                 | 1400/2088 [2:53:20<1:20:09,  6.99s/it]
+2025-10-06 18:01:58 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▍                                 | 1401/2088 [2:53:27<1:20:24,  7.02s/it]
+2025-10-06 18:01:58 - ERROR - stderr - 
+2025-10-06 18:01:58 - ERROR - stderr - 
+2025-10-06 18:01:58 - INFO - stdout - {'loss': 1.0546, 'learning_rate': 0.0002581041869722519, 'epoch': 4.03}
+2025-10-06 18:01:58 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▍                                 | 1401/2088 [2:53:27<1:20:24,  7.02s/it]
+2025-10-06 18:02:05 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▍                                 | 1402/2088 [2:53:34<1:20:25,  7.03s/it]
+2025-10-06 18:02:05 - ERROR - stderr - 
+2025-10-06 18:02:05 - ERROR - stderr - 
+2025-10-06 18:02:05 - INFO - stdout - {'loss': 0.9612, 'learning_rate': 0.0002574255970734464, 'epoch': 4.03}
+2025-10-06 18:02:05 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▍                                 | 1402/2088 [2:53:34<1:20:25,  7.03s/it]
+2025-10-06 18:02:12 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▌                                 | 1403/2088 [2:53:41<1:20:24,  7.04s/it]
+2025-10-06 18:02:12 - ERROR - stderr - 
+2025-10-06 18:02:12 - ERROR - stderr - 
+2025-10-06 18:02:12 - INFO - stdout - {'loss': 1.0275, 'learning_rate': 0.00025674759101562006, 'epoch': 4.03}
+2025-10-06 18:02:12 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▌                                 | 1403/2088 [2:53:41<1:20:24,  7.04s/it]
+2025-10-06 18:02:19 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▌                                 | 1404/2088 [2:53:48<1:20:48,  7.09s/it]
+2025-10-06 18:02:19 - ERROR - stderr - 
+2025-10-06 18:02:19 - ERROR - stderr - 
+2025-10-06 18:02:19 - INFO - stdout - {'loss': 0.9698, 'learning_rate': 0.0002560701704306336, 'epoch': 4.03}
+2025-10-06 18:02:19 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▌                                 | 1404/2088 [2:53:48<1:20:48,  7.09s/it]
+2025-10-06 18:02:26 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▋                                 | 1405/2088 [2:53:55<1:19:59,  7.03s/it]
+2025-10-06 18:02:26 - ERROR - stderr - 
+2025-10-06 18:02:26 - ERROR - stderr - 
+2025-10-06 18:02:26 - INFO - stdout - {'loss': 0.9866, 'learning_rate': 0.0002553933369489395, 'epoch': 4.04}
+2025-10-06 18:02:26 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▋                                 | 1405/2088 [2:53:55<1:19:59,  7.03s/it]
+2025-10-06 18:02:33 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▋                                 | 1406/2088 [2:54:02<1:19:07,  6.96s/it]
+2025-10-06 18:02:33 - ERROR - stderr - 
+2025-10-06 18:02:33 - ERROR - stderr - 
+2025-10-06 18:02:33 - INFO - stdout - {'loss': 1.0127, 'learning_rate': 0.0002547170921995757, 'epoch': 4.04}
+2025-10-06 18:02:33 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▋                                 | 1406/2088 [2:54:02<1:19:07,  6.96s/it]
+2025-10-06 18:02:40 - ERROR - stderr -  67%|██████████████���█████████████████████████████████████████████████████▋                                 | 1407/2088 [2:54:09<1:18:51,  6.95s/it]
+2025-10-06 18:02:40 - ERROR - stderr - 
+2025-10-06 18:02:40 - ERROR - stderr - 
+2025-10-06 18:02:40 - INFO - stdout - {'loss': 1.0202, 'learning_rate': 0.0002540414378101647, 'epoch': 4.04}
+2025-10-06 18:02:40 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▋                                 | 1407/2088 [2:54:09<1:18:51,  6.95s/it]
+2025-10-06 18:02:47 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▊                                 | 1408/2088 [2:54:16<1:19:09,  6.98s/it]
+2025-10-06 18:02:47 - ERROR - stderr - 
+2025-10-06 18:02:47 - ERROR - stderr - 
+2025-10-06 18:02:47 - INFO - stdout - {'loss': 1.006, 'learning_rate': 0.00025336637540690737, 'epoch': 4.05}
+2025-10-06 18:02:47 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▊                                 | 1408/2088 [2:54:16<1:19:09,  6.98s/it]
+2025-10-06 18:02:54 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▊                                 | 1409/2088 [2:54:22<1:18:17,  6.92s/it]
+2025-10-06 18:02:54 - ERROR - stderr - 
+2025-10-06 18:02:54 - ERROR - stderr - 
+2025-10-06 18:02:54 - INFO - stdout - {'loss': 1.0233, 'learning_rate': 0.00025269190661457956, 'epoch': 4.05}
+2025-10-06 18:02:54 - ERROR - stderr -  67%|████████████████████████████████████████████████████████████████████▊                                 | 1409/2088 [2:54:22<1:18:17,  6.92s/it]
+2025-10-06 18:03:01 - ERROR - stderr -  68%|████████████████████████████████████████████████████████████████████▉                                 | 1410/2088 [2:54:29<1:17:57,  6.90s/it]
+2025-10-06 18:03:01 - ERROR - stderr - 
+2025-10-06 18:03:01 - ERROR - stderr - 
+2025-10-06 18:03:01 - INFO - stdout - {'loss': 1.004, 'learning_rate': 0.000252018033056529, 'epoch': 4.05}
+2025-10-06 18:03:01 - ERROR - stderr -  68%|████████████████████████████████████████████████████████████████████▉                                 | 1410/2088 [2:54:29<1:17:57,  6.90s/it]
+2025-10-06 18:03:08 - ERROR - stderr -  68%|████████████████████████████████████████████████████████████████████▉                                 | 1411/2088 [2:54:37<1:19:01,  7.00s/it]
+2025-10-06 18:03:08 - ERROR - stderr - 
+2025-10-06 18:03:08 - ERROR - stderr - 
+2025-10-06 18:03:08 - INFO - stdout - {'loss': 0.983, 'learning_rate': 0.00025134475635467, 'epoch': 4.05}
+2025-10-06 18:03:08 - ERROR - stderr -  68%|████████████████████████████████████████████████████████████████████▉                                 | 1411/2088 [2:54:37<1:19:01,  7.00s/it]
+2025-10-06 18:03:15 - ERROR - stderr -  68%|████████████████████████████████████████████████████████████████████▉                                 | 1412/2088 [2:54:44<1:19:38,  7.07s/it]
+2025-10-06 18:03:15 - ERROR - stderr - 
+2025-10-06 18:03:15 - ERROR - stderr - 
+2025-10-06 18:03:15 - INFO - stdout - {'loss': 0.9769, 'learning_rate': 0.00025067207812948125, 'epoch': 4.06}
+2025-10-06 18:03:15 - ERROR - stderr -  68%|████████████████████████████████████████████████████████████████████▉                                 | 1412/2088 [2:54:44<1:19:38,  7.07s/it]
+2025-10-06 18:03:22 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████                                 | 1413/2088 [2:54:51<1:19:09,  7.04s/it]
+2025-10-06 18:03:22 - ERROR - stderr - 
+2025-10-06 18:03:22 - ERROR - stderr - 
+2025-10-06 18:03:22 - INFO - stdout - {'loss': 1.0267, 'learning_rate': 0.0002500000000000001, 'epoch': 4.06}
+2025-10-06 18:03:22 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████                                 | 1413/2088 [2:54:51<1:19:09,  7.04s/it]
+2025-10-06 18:03:29 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████                                 | 1414/2088 [2:54:58<1:18:42,  7.01s/it]
+2025-10-06 18:03:29 - ERROR - stderr - 
+2025-10-06 18:03:29 - ERROR - stderr - 
+2025-10-06 18:03:29 - INFO - stdout - {'loss': 0.9571, 'learning_rate': 0.0002493285235838199, 'epoch': 4.06}
+2025-10-06 18:03:29 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████                                 | 1414/2088 [2:54:58<1:18:42,  7.01s/it]
+2025-10-06 18:03:36 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████                                 | 1415/2088 [2:55:05<1:18:58,  7.04s/it]
+2025-10-06 18:03:36 - ERROR - stderr - 
+2025-10-06 18:03:36 - ERROR - stderr - 
+2025-10-06 18:03:36 - INFO - stdout - {'loss': 1.0481, 'learning_rate': 0.0002486576504970862, 'epoch': 4.07}
+2025-10-06 18:03:36 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████                                 | 1415/2088 [2:55:05<1:18:58,  7.04s/it]
+2025-10-06 18:03:43 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▏                                | 1416/2088 [2:55:12<1:18:55,  7.05s/it]
+2025-10-06 18:03:43 - ERROR - stderr - 
+2025-10-06 18:03:43 - ERROR - stderr - 
+2025-10-06 18:03:43 - INFO - stdout - {'loss': 1.0873, 'learning_rate': 0.0002479873823544916, 'epoch': 4.07}
+2025-10-06 18:03:43 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▏                                | 1416/2088 [2:55:12<1:18:55,  7.05s/it]
+2025-10-06 18:03:51 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▏                                | 1417/2088 [2:55:19<1:19:46,  7.13s/it]
+2025-10-06 18:03:51 - ERROR - stderr - 
+2025-10-06 18:03:51 - ERROR - stderr - 
+2025-10-06 18:03:51 - INFO - stdout - {'loss': 0.9655, 'learning_rate': 0.00024731772076927363, 'epoch': 4.07}
+2025-10-06 18:03:51 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▏                                | 1417/2088 [2:55:19<1:19:46,  7.13s/it]
+2025-10-06 18:03:58 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▎                                | 1418/2088 [2:55:26<1:19:42,  7.14s/it]
+2025-10-06 18:03:58 - ERROR - stderr - 
+2025-10-06 18:03:58 - ERROR - stderr - 
+2025-10-06 18:03:58 - INFO - stdout - {'loss': 1.0679, 'learning_rate': 0.00024664866735320885, 'epoch': 4.07}
+2025-10-06 18:03:58 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▎                                | 1418/2088 [2:55:26<1:19:42,  7.14s/it]
+2025-10-06 18:04:05 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▎                                | 1419/2088 [2:55:34<1:20:01,  7.18s/it]
+2025-10-06 18:04:05 - ERROR - stderr - 
+2025-10-06 18:04:05 - ERROR - stderr - 
+2025-10-06 18:04:05 - INFO - stdout - {'loss': 1.0472, 'learning_rate': 0.0002459802237166111, 'epoch': 4.08}
+2025-10-06 18:04:05 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▎                                | 1419/2088 [2:55:34<1:20:01,  7.18s/it]
+2025-10-06 18:04:12 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▎                                | 1420/2088 [2:55:40<1:18:27,  7.05s/it]
+2025-10-06 18:04:12 - ERROR - stderr - 
+2025-10-06 18:04:12 - ERROR - stderr - 
+2025-10-06 18:04:12 - INFO - stdout - {'loss': 1.0581, 'learning_rate': 0.0002453123914683259, 'epoch': 4.08}
+2025-10-06 18:04:12 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▎                                | 1420/2088 [2:55:40<1:18:27,  7.05s/it]
+2025-10-06 18:04:19 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▍                                | 1421/2088 [2:55:47<1:18:32,  7.07s/it]
+2025-10-06 18:04:19 - ERROR - stderr - 
+2025-10-06 18:04:19 - ERROR - stderr - 
+2025-10-06 18:04:19 - INFO - stdout - {'loss': 1.0082, 'learning_rate': 0.00024464517221572723, 'epoch': 4.08}
+2025-10-06 18:04:19 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▍                                | 1421/2088 [2:55:47<1:18:32,  7.07s/it]
+2025-10-06 18:04:26 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▍                                | 1422/2088 [2:55:54<1:17:50,  7.01s/it]
+2025-10-06 18:04:26 - ERROR - stderr - 
+2025-10-06 18:04:26 - ERROR - stderr - 
+2025-10-06 18:04:26 - INFO - stdout - {'loss': 1.0309, 'learning_rate': 0.0002439785675647143, 'epoch': 4.09}
+2025-10-06 18:04:26 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▍                                | 1422/2088 [2:55:54<1:17:50,  7.01s/it]
+2025-10-06 18:04:33 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▌                                | 1423/2088 [2:56:01<1:18:15,  7.06s/it]
+2025-10-06 18:04:33 - ERROR - stderr - 
+2025-10-06 18:04:33 - ERROR - stderr - 
+2025-10-06 18:04:33 - INFO - stdout - {'loss': 1.0537, 'learning_rate': 0.00024331257911970627, 'epoch': 4.09}
+2025-10-06 18:04:33 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▌                                | 1423/2088 [2:56:02<1:18:15,  7.06s/it]
+2025-10-06 18:04:40 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▌                                | 1424/2088 [2:56:08<1:17:26,  7.00s/it]
+2025-10-06 18:04:40 - ERROR - stderr - 
+2025-10-06 18:04:40 - ERROR - stderr - 
+2025-10-06 18:04:40 - INFO - stdout - {'loss': 0.9972, 'learning_rate': 0.0002426472084836399, 'epoch': 4.09}
+2025-10-06 18:04:40 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▌                                | 1424/2088 [2:56:08<1:17:26,  7.00s/it]
+2025-10-06 18:04:47 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▌                                | 1425/2088 [2:56:15<1:16:49,  6.95s/it]
+2025-10-06 18:04:47 - ERROR - stderr - 
+2025-10-06 18:04:47 - ERROR - stderr - 
+2025-10-06 18:04:47 - INFO - stdout - {'loss': 1.0592, 'learning_rate': 0.00024198245725796426, 'epoch': 4.09}
+2025-10-06 18:04:47 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▌                                | 1425/2088 [2:56:15<1:16:49,  6.95s/it]
+2025-10-06 18:04:54 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▋                                | 1426/2088 [2:56:23<1:18:23,  7.10s/it]
+2025-10-06 18:04:54 - ERROR - stderr - 
+2025-10-06 18:04:54 - ERROR - stderr - 
+2025-10-06 18:04:54 - INFO - stdout - {'loss': 0.9019, 'learning_rate': 0.0002413183270426384, 'epoch': 4.1}
+2025-10-06 18:04:54 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▋                                | 1426/2088 [2:56:23<1:18:23,  7.10s/it]
+2025-10-06 18:05:01 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▋                                | 1427/2088 [2:56:30<1:17:43,  7.05s/it]
+2025-10-06 18:05:01 - ERROR - stderr - 
+2025-10-06 18:05:01 - ERROR - stderr - 
+2025-10-06 18:05:01 - INFO - stdout - {'loss': 1.0839, 'learning_rate': 0.000240654819436126, 'epoch': 4.1}
+2025-10-06 18:05:01 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▋                                | 1427/2088 [2:56:30<1:17:43,  7.05s/it]
+2025-10-06 18:05:08 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▊                                | 1428/2088 [2:56:37<1:17:59,  7.09s/it]
+2025-10-06 18:05:08 - ERROR - stderr - 
+2025-10-06 18:05:08 - ERROR - stderr - 
+2025-10-06 18:05:08 - INFO - stdout - {'loss': 1.066, 'learning_rate': 0.00023999193603539232, 'epoch': 4.1}
+2025-10-06 18:05:08 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▊                                | 1428/2088 [2:56:37<1:17:59,  7.09s/it]
+2025-10-06 18:05:16 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▊                                | 1429/2088 [2:56:44<1:18:26,  7.14s/it]
+2025-10-06 18:05:16 - ERROR - stderr - 
+2025-10-06 18:05:16 - ERROR - stderr - 
+2025-10-06 18:05:16 - INFO - stdout - {'loss': 1.0023, 'learning_rate': 0.00023932967843590076, 'epoch': 4.11}
+2025-10-06 18:05:16 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▊                                | 1429/2088 [2:56:44<1:18:26,  7.14s/it]
+2025-10-06 18:05:23 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▊                                | 1430/2088 [2:56:51<1:18:29,  7.16s/it]
+2025-10-06 18:05:23 - ERROR - stderr - 
+2025-10-06 18:05:23 - ERROR - stderr - 
+2025-10-06 18:05:23 - INFO - stdout - {'loss': 1.0005, 'learning_rate': 0.00023866804823160777, 'epoch': 4.11}
+2025-10-06 18:05:23 - ERROR - stderr -  68%|█████████████████████████████████████████████████████████████████████▊                                | 1430/2088 [2:56:51<1:18:29,  7.16s/it]
+2025-10-06 18:05:30 - ERROR - stderr -  69%|█████████████████████████████████████████████████████████████████████▉                                | 1431/2088 [2:56:58<1:18:38,  7.18s/it]
+2025-10-06 18:05:30 - ERROR - stderr - 
+2025-10-06 18:05:30 - ERROR - stderr - 
+2025-10-06 18:05:30 - INFO - stdout - {'loss': 1.0193, 'learning_rate': 0.00023800704701496051, 'epoch': 4.11}
+2025-10-06 18:05:30 - ERROR - stderr -  69%|█████████████████████████████████████████████████████████████████████▉                                | 1431/2088 [2:56:58<1:18:38,  7.18s/it]
+2025-10-06 18:05:37 - ERROR - stderr -  69%|█████████████████████████████████████████████████████████████████████▉                                | 1432/2088 [2:57:06<1:18:20,  7.17s/it]
+2025-10-06 18:05:37 - ERROR - stderr - 
+2025-10-06 18:05:37 - ERROR - stderr - 
+2025-10-06 18:05:37 - INFO - stdout - {'loss': 1.0218, 'learning_rate': 0.0002373466763768915, 'epoch': 4.11}
+2025-10-06 18:05:37 - ERROR - stderr -  69%|█████████████████████████████████████████████████████████████████████▉                                | 1432/2088 [2:57:06<1:18:20,  7.17s/it]
+2025-10-06 18:05:44 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████                                | 1433/2088 [2:57:12<1:17:22,  7.09s/it]
+2025-10-06 18:05:44 - ERROR - stderr - 
+2025-10-06 18:05:44 - ERROR - stderr - 
+2025-10-06 18:05:44 - INFO - stdout - {'loss': 1.0485, 'learning_rate': 0.00023668693790681634, 'epoch': 4.12}
+2025-10-06 18:05:44 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████                                | 1433/2088 [2:57:13<1:17:22,  7.09s/it]
+2025-10-06 18:05:52 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████                                | 1434/2088 [2:57:20<1:20:00,  7.34s/it]
+2025-10-06 18:05:52 - ERROR - stderr - 
+2025-10-06 18:05:52 - ERROR - stderr - 
+2025-10-06 18:05:52 - INFO - stdout - {'loss': 0.9926, 'learning_rate': 0.00023602783319262843, 'epoch': 4.12}
+2025-10-06 18:05:52 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████                                | 1434/2088 [2:57:20<1:20:00,  7.34s/it]
+2025-10-06 18:05:59 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████                                | 1435/2088 [2:57:28<1:19:09,  7.27s/it]
+2025-10-06 18:05:59 - ERROR - stderr - 
+2025-10-06 18:05:59 - ERROR - stderr - 
+2025-10-06 18:05:59 - INFO - stdout - {'loss': 0.9638, 'learning_rate': 0.0002353693638206959, 'epoch': 4.12}
+2025-10-06 18:05:59 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████                                | 1435/2088 [2:57:28<1:19:09,  7.27s/it]
+2025-10-06 18:06:06 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▏                               | 1436/2088 [2:57:35<1:18:54,  7.26s/it]
+2025-10-06 18:06:06 - ERROR - stderr - 
+2025-10-06 18:06:06 - ERROR - stderr - 
+2025-10-06 18:06:06 - INFO - stdout - {'loss': 1.0285, 'learning_rate': 0.00023471153137585821, 'epoch': 4.13}
+2025-10-06 18:06:06 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▏                               | 1436/2088 [2:57:35<1:18:54,  7.26s/it]
+2025-10-06 18:06:13 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▏                               | 1437/2088 [2:57:42<1:18:21,  7.22s/it]
+2025-10-06 18:06:13 - ERROR - stderr - 
+2025-10-06 18:06:13 - ERROR - stderr - 
+2025-10-06 18:06:13 - INFO - stdout - {'loss': 1.0193, 'learning_rate': 0.0002340543374414212, 'epoch': 4.13}
+2025-10-06 18:06:13 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▏                               | 1437/2088 [2:57:42<1:18:21,  7.22s/it]
+2025-10-06 18:06:20 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▏                               | 1438/2088 [2:57:49<1:17:43,  7.17s/it]
+2025-10-06 18:06:20 - ERROR - stderr - 
+2025-10-06 18:06:20 - ERROR - stderr - 
+2025-10-06 18:06:20 - INFO - stdout - {'loss': 1.0685, 'learning_rate': 0.0002333977835991545, 'epoch': 4.13}
+2025-10-06 18:06:20 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▏                               | 1438/2088 [2:57:49<1:17:43,  7.17s/it]
+2025-10-06 18:06:28 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▎                               | 1439/2088 [2:57:56<1:17:51,  7.20s/it]
+2025-10-06 18:06:28 - ERROR - stderr - 
+2025-10-06 18:06:28 - ERROR - stderr - 
+2025-10-06 18:06:28 - INFO - stdout - {'loss': 0.9989, 'learning_rate': 0.00023274187142928644, 'epoch': 4.14}
+2025-10-06 18:06:28 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▎                               | 1439/2088 [2:57:56<1:17:51,  7.20s/it]
+2025-10-06 18:06:35 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▎                               | 1440/2088 [2:58:03<1:17:30,  7.18s/it]
+2025-10-06 18:06:35 - ERROR - stderr - 
+2025-10-06 18:06:35 - ERROR - stderr - 
+2025-10-06 18:06:35 - INFO - stdout - {'loss': 1.0505, 'learning_rate': 0.00023208660251050156, 'epoch': 4.14}
+2025-10-06 18:06:35 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▎                               | 1440/2088 [2:58:03<1:17:30,  7.18s/it]
+2025-10-06 18:06:42 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▍                               | 1441/2088 [2:58:10<1:17:11,  7.16s/it]
+2025-10-06 18:06:42 - ERROR - stderr - 
+2025-10-06 18:06:42 - ERROR - stderr - 
+2025-10-06 18:06:42 - INFO - stdout - {'loss': 1.0146, 'learning_rate': 0.00023143197841993634, 'epoch': 4.14}
+2025-10-06 18:06:42 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▍                               | 1441/2088 [2:58:10<1:17:11,  7.16s/it]
+2025-10-06 18:06:49 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▍                               | 1442/2088 [2:58:17<1:16:10,  7.07s/it]
+2025-10-06 18:06:49 - ERROR - stderr - 
+2025-10-06 18:06:49 - ERROR - stderr - 
+2025-10-06 18:06:49 - INFO - stdout - {'loss': 0.9759, 'learning_rate': 0.00023077800073317413, 'epoch': 4.14}
+2025-10-06 18:06:49 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▍                               | 1442/2088 [2:58:17<1:16:10,  7.07s/it]
+2025-10-06 18:06:56 - ERROR - stderr -  69%|██████████████████████████████████████████���███████████████████████████▍                               | 1443/2088 [2:58:24<1:15:49,  7.05s/it]
+2025-10-06 18:06:56 - ERROR - stderr - 
+2025-10-06 18:06:56 - ERROR - stderr - 
+2025-10-06 18:06:56 - INFO - stdout - {'loss': 1.0419, 'learning_rate': 0.00023012467102424372, 'epoch': 4.15}
+2025-10-06 18:06:56 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▍                               | 1443/2088 [2:58:24<1:15:49,  7.05s/it]
+2025-10-06 18:07:03 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▌                               | 1444/2088 [2:58:31<1:15:31,  7.04s/it]
+2025-10-06 18:07:03 - ERROR - stderr - 
+2025-10-06 18:07:03 - ERROR - stderr - 
+2025-10-06 18:07:03 - INFO - stdout - {'loss': 1.012, 'learning_rate': 0.00022947199086561344, 'epoch': 4.15}
+2025-10-06 18:07:03 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▌                               | 1444/2088 [2:58:31<1:15:31,  7.04s/it]
+2025-10-06 18:07:10 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▌                               | 1445/2088 [2:58:38<1:15:32,  7.05s/it]
+2025-10-06 18:07:10 - ERROR - stderr - 
+2025-10-06 18:07:10 - ERROR - stderr - 
+2025-10-06 18:07:10 - INFO - stdout - {'loss': 0.9735, 'learning_rate': 0.00022881996182818888, 'epoch': 4.15}
+2025-10-06 18:07:10 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▌                               | 1445/2088 [2:58:38<1:15:32,  7.05s/it]
+2025-10-06 18:07:17 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▋                               | 1446/2088 [2:58:46<1:15:55,  7.10s/it]
+2025-10-06 18:07:17 - ERROR - stderr - 
+2025-10-06 18:07:17 - ERROR - stderr - 
+2025-10-06 18:07:17 - INFO - stdout - {'loss': 0.9502, 'learning_rate': 0.00022816858548130837, 'epoch': 4.16}
+2025-10-06 18:07:17 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▋                               | 1446/2088 [2:58:46<1:15:55,  7.10s/it]
+2025-10-06 18:07:24 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▋                               | 1447/2088 [2:58:53<1:15:30,  7.07s/it]
+2025-10-06 18:07:24 - ERROR - stderr - 
+2025-10-06 18:07:24 - ERROR - stderr - 
+2025-10-06 18:07:24 - INFO - stdout - {'loss': 0.9871, 'learning_rate': 0.00022751786339273878, 'epoch': 4.16}
+2025-10-06 18:07:24 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▋                               | 1447/2088 [2:58:53<1:15:30,  7.07s/it]
+2025-10-06 18:07:32 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▋                               | 1448/2088 [2:59:00<1:16:36,  7.18s/it]
+2025-10-06 18:07:32 - ERROR - stderr - 
+2025-10-06 18:07:32 - ERROR - stderr - 
+2025-10-06 18:07:32 - INFO - stdout - {'loss': 1.0013, 'learning_rate': 0.00022686779712867316, 'epoch': 4.16}
+2025-10-06 18:07:32 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▋                               | 1448/2088 [2:59:00<1:16:36,  7.18s/it]
+2025-10-06 18:07:39 - ERROR - stderr -  69%|█████████████████████████████████████���████████████████████████████████▊                               | 1449/2088 [2:59:07<1:16:33,  7.19s/it]
+2025-10-06 18:07:39 - ERROR - stderr - 
+2025-10-06 18:07:39 - ERROR - stderr - 
+2025-10-06 18:07:39 - INFO - stdout - {'loss': 0.9927, 'learning_rate': 0.00022621838825372491, 'epoch': 4.16}
+2025-10-06 18:07:39 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▊                               | 1449/2088 [2:59:07<1:16:33,  7.19s/it]
+2025-10-06 18:07:46 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▊                               | 1450/2088 [2:59:14<1:15:57,  7.14s/it]
+2025-10-06 18:07:46 - ERROR - stderr - 
+2025-10-06 18:07:46 - ERROR - stderr - 
+2025-10-06 18:07:46 - INFO - stdout - {'loss': 1.0906, 'learning_rate': 0.00022556963833092648, 'epoch': 4.17}
+2025-10-06 18:07:46 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▊                               | 1450/2088 [2:59:14<1:15:57,  7.14s/it]
+2025-10-06 18:07:53 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▉                               | 1451/2088 [2:59:22<1:16:23,  7.20s/it]
+2025-10-06 18:07:53 - ERROR - stderr - 
+2025-10-06 18:07:53 - ERROR - stderr - 
+2025-10-06 18:07:53 - INFO - stdout - {'loss': 0.9828, 'learning_rate': 0.00022492154892172318, 'epoch': 4.17}
+2025-10-06 18:07:53 - ERROR - stderr -  69%|██████████████████████████████████████████████████████████████████████▉                               | 1451/2088 [2:59:22<1:16:23,  7.20s/it]
+2025-10-06 18:08:00 - ERROR - stderr -  70%|██████████████████████████████████████████████████████████████████████▉                               | 1452/2088 [2:59:29<1:16:32,  7.22s/it]
+2025-10-06 18:08:00 - ERROR - stderr - 
+2025-10-06 18:08:00 - ERROR - stderr - 
+2025-10-06 18:08:00 - INFO - stdout - {'loss': 1.0019, 'learning_rate': 0.00022427412158597133, 'epoch': 4.17}
+2025-10-06 18:08:00 - ERROR - stderr -  70%|██████████████████████████████████████████████████████████████████████▉                               | 1452/2088 [2:59:29<1:16:32,  7.22s/it]
+2025-10-06 18:08:07 - ERROR - stderr -  70%|██████████████████████████████████████████████████████████████████████▉                               | 1453/2088 [2:59:36<1:15:02,  7.09s/it]
+2025-10-06 18:08:07 - ERROR - stderr - 
+2025-10-06 18:08:07 - ERROR - stderr - 
+2025-10-06 18:08:07 - INFO - stdout - {'loss': 1.0062, 'learning_rate': 0.00022362735788193367, 'epoch': 4.18}
+2025-10-06 18:08:07 - ERROR - stderr -  70%|██████████████████████████████████████████████████████████████████████▉                               | 1453/2088 [2:59:36<1:15:02,  7.09s/it]
+2025-10-06 18:08:15 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████                               | 1454/2088 [2:59:43<1:15:48,  7.17s/it]
+2025-10-06 18:08:15 - ERROR - stderr - 
+2025-10-06 18:08:15 - ERROR - stderr - 
+2025-10-06 18:08:15 - INFO - stdout - {'loss': 0.9921, 'learning_rate': 0.00022298125936627517, 'epoch': 4.18}
+2025-10-06 18:08:15 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████                               | 1454/2088 [2:59:43<1:15:48,  7.17s/it]
+2025-10-06 18:08:22 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████                               | 1455/2088 [2:59:51<1:16:33,  7.26s/it]
+2025-10-06 18:08:22 - ERROR - stderr - 
+2025-10-06 18:08:22 - ERROR - stderr - 
+2025-10-06 18:08:22 - INFO - stdout - {'loss': 0.9761, 'learning_rate': 0.00022233582759406063, 'epoch': 4.18}
+2025-10-06 18:08:22 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████                               | 1455/2088 [2:59:51<1:16:33,  7.26s/it]
+2025-10-06 18:08:29 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▏                              | 1456/2088 [2:59:58<1:15:52,  7.20s/it]
+2025-10-06 18:08:29 - ERROR - stderr - 
+2025-10-06 18:08:29 - ERROR - stderr - 
+2025-10-06 18:08:29 - INFO - stdout - {'loss': 1.0569, 'learning_rate': 0.0002216910641187488, 'epoch': 4.18}
+2025-10-06 18:08:29 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▏                              | 1456/2088 [2:59:58<1:15:52,  7.20s/it]
+2025-10-06 18:08:36 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▏                              | 1457/2088 [3:00:05<1:15:37,  7.19s/it]
+2025-10-06 18:08:36 - ERROR - stderr - 
+2025-10-06 18:08:36 - ERROR - stderr - 
+2025-10-06 18:08:36 - INFO - stdout - {'loss': 0.9876, 'learning_rate': 0.00022104697049219114, 'epoch': 4.19}
+2025-10-06 18:08:36 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▏                              | 1457/2088 [3:00:05<1:15:37,  7.19s/it]
+2025-10-06 18:08:43 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▏                              | 1458/2088 [3:00:12<1:15:05,  7.15s/it]
+2025-10-06 18:08:43 - ERROR - stderr - 
+2025-10-06 18:08:43 - ERROR - stderr - 
+2025-10-06 18:08:43 - INFO - stdout - {'loss': 1.1193, 'learning_rate': 0.00022040354826462666, 'epoch': 4.19}
+2025-10-06 18:08:43 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▏                              | 1458/2088 [3:00:12<1:15:05,  7.15s/it]
+2025-10-06 18:08:50 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▎                              | 1459/2088 [3:00:19<1:14:13,  7.08s/it]
+2025-10-06 18:08:50 - ERROR - stderr - 
+2025-10-06 18:08:50 - ERROR - stderr - 
+2025-10-06 18:08:50 - INFO - stdout - {'loss': 1.037, 'learning_rate': 0.00021976079898467776, 'epoch': 4.19}
+2025-10-06 18:08:50 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▎                              | 1459/2088 [3:00:19<1:14:13,  7.08s/it]
+2025-10-06 18:08:58 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▎                              | 1460/2088 [3:00:26<1:14:53,  7.16s/it]
+2025-10-06 18:08:58 - ERROR - stderr - 
+2025-10-06 18:08:58 - ERROR - stderr - 
+2025-10-06 18:08:58 - INFO - stdout - {'loss': 1.0456, 'learning_rate': 0.00021911872419934803, 'epoch': 4.2}
+2025-10-06 18:08:58 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▎                              | 1460/2088 [3:00:26<1:14:53,  7.16s/it]
+2025-10-06 18:09:04 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▎                              | 1461/2088 [3:00:33<1:13:59,  7.08s/it]
+2025-10-06 18:09:04 - ERROR - stderr - 
+2025-10-06 18:09:04 - ERROR - stderr - 
+2025-10-06 18:09:04 - INFO - stdout - {'loss': 0.9441, 'learning_rate': 0.0002184773254540169, 'epoch': 4.2}
+2025-10-06 18:09:04 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▎                              | 1461/2088 [3:00:33<1:13:59,  7.08s/it]
+2025-10-06 18:09:12 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▍                              | 1462/2088 [3:00:40<1:13:43,  7.07s/it]
+2025-10-06 18:09:12 - ERROR - stderr - 
+2025-10-06 18:09:12 - ERROR - stderr - 
+2025-10-06 18:09:12 - INFO - stdout - {'loss': 1.0454, 'learning_rate': 0.00021783660429243747, 'epoch': 4.2}
+2025-10-06 18:09:12 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▍                              | 1462/2088 [3:00:40<1:13:43,  7.07s/it]
+2025-10-06 18:09:18 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▍                              | 1463/2088 [3:00:47<1:13:20,  7.04s/it]
+2025-10-06 18:09:18 - ERROR - stderr - 
+2025-10-06 18:09:18 - ERROR - stderr - 
+2025-10-06 18:09:18 - INFO - stdout - {'loss': 1.0297, 'learning_rate': 0.0002171965622567308, 'epoch': 4.2}
+2025-10-06 18:09:18 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▍                              | 1463/2088 [3:00:47<1:13:20,  7.04s/it]
+2025-10-06 18:09:25 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▌                              | 1464/2088 [3:00:54<1:12:10,  6.94s/it]
+2025-10-06 18:09:25 - ERROR - stderr - 
+2025-10-06 18:09:25 - ERROR - stderr - 
+2025-10-06 18:09:25 - INFO - stdout - {'loss': 0.9828, 'learning_rate': 0.0002165572008873845, 'epoch': 4.21}
+2025-10-06 18:09:25 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▌                              | 1464/2088 [3:00:54<1:12:10,  6.94s/it]
+2025-10-06 18:09:32 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▌                              | 1465/2088 [3:01:01<1:12:15,  6.96s/it]
+2025-10-06 18:09:32 - ERROR - stderr - 
+2025-10-06 18:09:32 - ERROR - stderr - 
+2025-10-06 18:09:32 - INFO - stdout - {'loss': 0.9823, 'learning_rate': 0.00021591852172324772, 'epoch': 4.21}
+2025-10-06 18:09:32 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▌                              | 1465/2088 [3:01:01<1:12:15,  6.96s/it]
+2025-10-06 18:09:39 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▌                              | 1466/2088 [3:01:08<1:12:06,  6.96s/it]
+2025-10-06 18:09:39 - ERROR - stderr - 
+2025-10-06 18:09:39 - ERROR - stderr - 
+2025-10-06 18:09:39 - INFO - stdout - {'loss': 0.9843, 'learning_rate': 0.00021528052630152706, 'epoch': 4.21}
+2025-10-06 18:09:39 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▌                              | 1466/2088 [3:01:08<1:12:06,  6.96s/it]
+2025-10-06 18:09:46 - ERROR - stderr -  70%|█████████��█████████████████████████████████████████████████████████████▋                              | 1467/2088 [3:01:14<1:11:32,  6.91s/it]
+2025-10-06 18:09:46 - ERROR - stderr - 
+2025-10-06 18:09:46 - ERROR - stderr - 
+2025-10-06 18:09:46 - INFO - stdout - {'loss': 1.0309, 'learning_rate': 0.0002146432161577842, 'epoch': 4.22}
+2025-10-06 18:09:46 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▋                              | 1467/2088 [3:01:14<1:11:32,  6.91s/it]
+2025-10-06 18:09:53 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▋                              | 1468/2088 [3:01:22<1:13:19,  7.10s/it]
+2025-10-06 18:09:53 - ERROR - stderr - 
+2025-10-06 18:09:53 - ERROR - stderr - 
+2025-10-06 18:09:53 - INFO - stdout - {'loss': 1.0149, 'learning_rate': 0.00021400659282593083, 'epoch': 4.22}
+2025-10-06 18:09:53 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▋                              | 1468/2088 [3:01:22<1:13:19,  7.10s/it]
+2025-10-06 18:10:01 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▊                              | 1469/2088 [3:01:30<1:15:11,  7.29s/it]
+2025-10-06 18:10:01 - ERROR - stderr - 
+2025-10-06 18:10:01 - ERROR - stderr - 
+2025-10-06 18:10:01 - INFO - stdout - {'loss': 0.9966, 'learning_rate': 0.00021337065783822606, 'epoch': 4.22}
+2025-10-06 18:10:01 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▊                              | 1469/2088 [3:01:30<1:15:11,  7.29s/it]
+2025-10-06 18:10:08 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▊                              | 1470/2088 [3:01:37<1:14:47,  7.26s/it]
+2025-10-06 18:10:08 - ERROR - stderr - 
+2025-10-06 18:10:08 - ERROR - stderr - 
+2025-10-06 18:10:08 - INFO - stdout - {'loss': 1.0574, 'learning_rate': 0.00021273541272527204, 'epoch': 4.22}
+2025-10-06 18:10:08 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▊                              | 1470/2088 [3:01:37<1:14:47,  7.26s/it]
+2025-10-06 18:10:15 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▊                              | 1471/2088 [3:01:44<1:13:50,  7.18s/it]
+2025-10-06 18:10:15 - ERROR - stderr - 
+2025-10-06 18:10:15 - ERROR - stderr - 
+2025-10-06 18:10:15 - INFO - stdout - {'loss': 0.9858, 'learning_rate': 0.00021210085901601024, 'epoch': 4.23}
+2025-10-06 18:10:15 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▊                              | 1471/2088 [3:01:44<1:13:50,  7.18s/it]
+2025-10-06 18:10:22 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▉                              | 1472/2088 [3:01:51<1:13:27,  7.15s/it]
+2025-10-06 18:10:23 - ERROR - stderr - 
+2025-10-06 18:10:23 - ERROR - stderr - 
+2025-10-06 18:10:23 - INFO - stdout - {'loss': 1.0257, 'learning_rate': 0.00021146699823771864, 'epoch': 4.23}
+2025-10-06 18:10:23 - ERROR - stderr -  70%|███████████████████████████████████████████████████████████████████████▉                              | 1472/2088 [3:01:51<1:13:27,  7.15s/it]
+2025-10-06 18:10:30 - ERROR - stderr -  71%|███████████████████████████████████████████████████████████████████████▉                              | 1473/2088 [3:01:58<1:13:26,  7.17s/it]
+2025-10-06 18:10:30 - ERROR - stderr - 
+2025-10-06 18:10:30 - ERROR - stderr - 
+2025-10-06 18:10:30 - INFO - stdout - {'loss': 1.0065, 'learning_rate': 0.00021083383191600674, 'epoch': 4.23}
+2025-10-06 18:10:30 - ERROR - stderr -  71%|███████████████████████████████████████████████████████████████████████▉                              | 1473/2088 [3:01:58<1:13:26,  7.17s/it]
+2025-10-06 18:10:37 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████                              | 1474/2088 [3:02:05<1:13:05,  7.14s/it]
+2025-10-06 18:10:37 - ERROR - stderr - 
+2025-10-06 18:10:37 - ERROR - stderr - 
+2025-10-06 18:10:37 - INFO - stdout - {'loss': 0.9876, 'learning_rate': 0.00021020136157481328, 'epoch': 4.24}
+2025-10-06 18:10:37 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████                              | 1474/2088 [3:02:05<1:13:05,  7.14s/it]
+2025-10-06 18:10:44 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████                              | 1475/2088 [3:02:12<1:12:16,  7.07s/it]
+2025-10-06 18:10:44 - ERROR - stderr - 
+2025-10-06 18:10:44 - ERROR - stderr - 
+2025-10-06 18:10:44 - INFO - stdout - {'loss': 0.9294, 'learning_rate': 0.0002095695887364012, 'epoch': 4.24}
+2025-10-06 18:10:44 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████                              | 1475/2088 [3:02:12<1:12:16,  7.07s/it]
+2025-10-06 18:10:51 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████                              | 1476/2088 [3:02:19<1:12:46,  7.13s/it]
+2025-10-06 18:10:51 - ERROR - stderr - 
+2025-10-06 18:10:51 - ERROR - stderr - 
+2025-10-06 18:10:51 - INFO - stdout - {'loss': 1.0694, 'learning_rate': 0.00020893851492135535, 'epoch': 4.24}
+2025-10-06 18:10:51 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████                              | 1476/2088 [3:02:19<1:12:46,  7.13s/it]
+2025-10-06 18:10:58 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▏                             | 1477/2088 [3:02:27<1:12:48,  7.15s/it]
+2025-10-06 18:10:58 - ERROR - stderr - 
+2025-10-06 18:10:58 - ERROR - stderr - 
+2025-10-06 18:10:58 - INFO - stdout - {'loss': 1.0201, 'learning_rate': 0.00020830814164857754, 'epoch': 4.24}
+2025-10-06 18:10:58 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▏                             | 1477/2088 [3:02:27<1:12:48,  7.15s/it]
+2025-10-06 18:11:05 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▏                             | 1478/2088 [3:02:34<1:12:44,  7.15s/it]
+2025-10-06 18:11:05 - ERROR - stderr - 
+2025-10-06 18:11:05 - ERROR - stderr - 
+2025-10-06 18:11:05 - INFO - stdout - {'loss': 1.0011, 'learning_rate': 0.0002076784704352835, 'epoch': 4.25}
+2025-10-06 18:11:05 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▏                             | 1478/2088 [3:02:34<1:12:44,  7.15s/it]
+2025-10-06 18:11:12 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▎                             | 1479/2088 [3:02:41<1:12:20,  7.13s/it]
+2025-10-06 18:11:12 - ERROR - stderr - 
+2025-10-06 18:11:12 - ERROR - stderr - 
+2025-10-06 18:11:12 - INFO - stdout - {'loss': 1.067, 'learning_rate': 0.00020704950279699987, 'epoch': 4.25}
+2025-10-06 18:11:12 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▎                             | 1479/2088 [3:02:41<1:12:20,  7.13s/it]
+2025-10-06 18:11:20 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▎                             | 1480/2088 [3:02:48<1:12:59,  7.20s/it]
+2025-10-06 18:11:20 - ERROR - stderr - 
+2025-10-06 18:11:20 - ERROR - stderr - 
+2025-10-06 18:11:20 - INFO - stdout - {'loss': 0.985, 'learning_rate': 0.00020642124024755892, 'epoch': 4.25}
+2025-10-06 18:11:20 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▎                             | 1480/2088 [3:02:48<1:12:59,  7.20s/it]
+2025-10-06 18:11:27 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▎                             | 1481/2088 [3:02:55<1:12:29,  7.17s/it]
+2025-10-06 18:11:27 - ERROR - stderr - 
+2025-10-06 18:11:27 - ERROR - stderr - 
+2025-10-06 18:11:27 - INFO - stdout - {'loss': 1.0007, 'learning_rate': 0.0002057936842990969, 'epoch': 4.26}
+2025-10-06 18:11:27 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▎                             | 1481/2088 [3:02:55<1:12:29,  7.17s/it]
+2025-10-06 18:11:34 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▍                             | 1482/2088 [3:03:03<1:13:06,  7.24s/it]
+2025-10-06 18:11:34 - ERROR - stderr - 
+2025-10-06 18:11:34 - ERROR - stderr - 
+2025-10-06 18:11:34 - INFO - stdout - {'loss': 0.9961, 'learning_rate': 0.00020516683646204837, 'epoch': 4.26}
+2025-10-06 18:11:34 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▍                             | 1482/2088 [3:03:03<1:13:06,  7.24s/it]
+2025-10-06 18:11:41 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▍                             | 1483/2088 [3:03:10<1:12:54,  7.23s/it]
+2025-10-06 18:11:41 - ERROR - stderr - 
+2025-10-06 18:11:41 - ERROR - stderr - 
+2025-10-06 18:11:41 - INFO - stdout - {'loss': 0.9702, 'learning_rate': 0.00020454069824514442, 'epoch': 4.26}
+2025-10-06 18:11:41 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▍                             | 1483/2088 [3:03:10<1:12:54,  7.23s/it]
+2025-10-06 18:11:49 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▍                             | 1484/2088 [3:03:17<1:12:42,  7.22s/it]
+2025-10-06 18:11:49 - ERROR - stderr - 
+2025-10-06 18:11:49 - ERROR - stderr - 
+2025-10-06 18:11:49 - INFO - stdout - {'loss': 1.0197, 'learning_rate': 0.00020391527115540777, 'epoch': 4.26}
+2025-10-06 18:11:49 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████��                             | 1484/2088 [3:03:17<1:12:42,  7.22s/it]
+2025-10-06 18:11:56 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▌                             | 1485/2088 [3:03:24<1:11:53,  7.15s/it]
+2025-10-06 18:11:56 - ERROR - stderr - 
+2025-10-06 18:11:56 - ERROR - stderr - 
+2025-10-06 18:11:56 - INFO - stdout - {'loss': 1.0332, 'learning_rate': 0.00020329055669814934, 'epoch': 4.27}
+2025-10-06 18:11:56 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▌                             | 1485/2088 [3:03:24<1:11:53,  7.15s/it]
+2025-10-06 18:12:03 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▌                             | 1486/2088 [3:03:31<1:11:32,  7.13s/it]
+2025-10-06 18:12:03 - ERROR - stderr - 
+2025-10-06 18:12:03 - ERROR - stderr - 
+2025-10-06 18:12:03 - INFO - stdout - {'loss': 0.9505, 'learning_rate': 0.00020266655637696547, 'epoch': 4.27}
+2025-10-06 18:12:03 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▌                             | 1486/2088 [3:03:31<1:11:32,  7.13s/it]
+2025-10-06 18:12:10 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▋                             | 1487/2088 [3:03:38<1:11:27,  7.13s/it]
+2025-10-06 18:12:10 - ERROR - stderr - 
+2025-10-06 18:12:10 - ERROR - stderr - 
+2025-10-06 18:12:10 - INFO - stdout - {'loss': 1.028, 'learning_rate': 0.000202043271693733, 'epoch': 4.27}
+2025-10-06 18:12:10 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▋                             | 1487/2088 [3:03:38<1:11:27,  7.13s/it]
+2025-10-06 18:12:17 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▋                             | 1488/2088 [3:03:46<1:11:29,  7.15s/it]
+2025-10-06 18:12:17 - ERROR - stderr - 
+2025-10-06 18:12:17 - ERROR - stderr - 
+2025-10-06 18:12:17 - INFO - stdout - {'loss': 0.9979, 'learning_rate': 0.00020142070414860702, 'epoch': 4.28}
+2025-10-06 18:12:17 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▋                             | 1488/2088 [3:03:46<1:11:29,  7.15s/it]
+2025-10-06 18:12:25 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▋                             | 1489/2088 [3:03:53<1:12:15,  7.24s/it]
+2025-10-06 18:12:25 - ERROR - stderr - 
+2025-10-06 18:12:25 - ERROR - stderr - 
+2025-10-06 18:12:25 - INFO - stdout - {'loss': 1.0094, 'learning_rate': 0.00020079885524001585, 'epoch': 4.28}
+2025-10-06 18:12:25 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▋                             | 1489/2088 [3:03:53<1:12:15,  7.24s/it]
+2025-10-06 18:12:32 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▊                             | 1490/2088 [3:04:00<1:11:33,  7.18s/it]
+2025-10-06 18:12:32 - ERROR - stderr - 
+2025-10-06 18:12:32 - ERROR - stderr - 
+2025-10-06 18:12:32 - INFO - stdout - {'loss': 1.0179, 'learning_rate': 0.00020017772646465875, 'epoch': 4.28}
+2025-10-06 18:12:32 - ERROR - stderr -  71%|████████████████████████████████████████████████████���███████████████████▊                             | 1490/2088 [3:04:00<1:11:33,  7.18s/it]
+2025-10-06 18:12:38 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▊                             | 1491/2088 [3:04:07<1:10:44,  7.11s/it]
+2025-10-06 18:12:39 - ERROR - stderr - 
+2025-10-06 18:12:39 - ERROR - stderr - 
+2025-10-06 18:12:39 - INFO - stdout - {'loss': 0.9858, 'learning_rate': 0.00019955731931750183, 'epoch': 4.28}
+2025-10-06 18:12:39 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▊                             | 1491/2088 [3:04:07<1:10:44,  7.11s/it]
+2025-10-06 18:12:45 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▉                             | 1492/2088 [3:04:14<1:09:37,  7.01s/it]
+2025-10-06 18:12:45 - ERROR - stderr - 
+2025-10-06 18:12:45 - ERROR - stderr - 
+2025-10-06 18:12:45 - INFO - stdout - {'loss': 0.9672, 'learning_rate': 0.00019893763529177329, 'epoch': 4.29}
+2025-10-06 18:12:45 - ERROR - stderr -  71%|████████████████████████████████████████████████████████████████████████▉                             | 1492/2088 [3:04:14<1:09:37,  7.01s/it]
+2025-10-06 18:12:52 - ERROR - stderr -  72%|████████████████████████████████████████████████████████████████████████▉                             | 1493/2088 [3:04:21<1:08:47,  6.94s/it]
+2025-10-06 18:12:52 - ERROR - stderr - 
+2025-10-06 18:12:52 - ERROR - stderr - 
+2025-10-06 18:12:52 - INFO - stdout - {'loss': 1.0064, 'learning_rate': 0.00019831867587896218, 'epoch': 4.29}
+2025-10-06 18:12:52 - ERROR - stderr -  72%|████████████████████████████████████████████████████████████████████████▉                             | 1493/2088 [3:04:21<1:08:47,  6.94s/it]
+2025-10-06 18:12:59 - ERROR - stderr -  72%|████████████████████████████████████████████████████████████████████████▉                             | 1494/2088 [3:04:27<1:08:32,  6.92s/it]
+2025-10-06 18:12:59 - ERROR - stderr - 
+2025-10-06 18:12:59 - ERROR - stderr - 
+2025-10-06 18:12:59 - INFO - stdout - {'loss': 0.9741, 'learning_rate': 0.00019770044256881258, 'epoch': 4.29}
+2025-10-06 18:12:59 - ERROR - stderr -  72%|████████████████████████████████████████████████████████████████████████▉                             | 1494/2088 [3:04:27<1:08:32,  6.92s/it]
+2025-10-06 18:13:06 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████                             | 1495/2088 [3:04:35<1:09:10,  7.00s/it]
+2025-10-06 18:13:06 - ERROR - stderr - 
+2025-10-06 18:13:06 - ERROR - stderr - 
+2025-10-06 18:13:06 - INFO - stdout - {'loss': 0.9994, 'learning_rate': 0.00019708293684932165, 'epoch': 4.3}
+2025-10-06 18:13:06 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████                             | 1495/2088 [3:04:35<1:09:10,  7.00s/it]
+2025-10-06 18:13:13 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████                             | 1496/2088 [3:04:42<1:09:47,  7.07s/it]
+2025-10-06 18:13:13 - ERROR - stderr - 
+2025-10-06 18:13:13 - ERROR - stderr - 
+2025-10-06 18:13:13 - INFO - stdout - {'loss': 0.9838, 'learning_rate': 0.00019646616020673475, 'epoch': 4.3}
+2025-10-06 18:13:13 - ERROR - stderr -  72%|███████████████████████████████��█████████████████████████████████████████                             | 1496/2088 [3:04:42<1:09:47,  7.07s/it]
+2025-10-06 18:13:21 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▏                            | 1497/2088 [3:04:49<1:10:16,  7.13s/it]
+2025-10-06 18:13:21 - ERROR - stderr - 
+2025-10-06 18:13:21 - ERROR - stderr - 
+2025-10-06 18:13:21 - INFO - stdout - {'loss': 1.0428, 'learning_rate': 0.00019585011412554272, 'epoch': 4.3}
+2025-10-06 18:13:21 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▏                            | 1497/2088 [3:04:49<1:10:16,  7.13s/it]
+2025-10-06 18:13:28 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▏                            | 1498/2088 [3:04:56<1:10:18,  7.15s/it]
+2025-10-06 18:13:28 - ERROR - stderr - 
+2025-10-06 18:13:28 - ERROR - stderr - 
+2025-10-06 18:13:28 - INFO - stdout - {'loss': 0.9872, 'learning_rate': 0.00019523480008847854, 'epoch': 4.3}
+2025-10-06 18:13:28 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▏                            | 1498/2088 [3:04:56<1:10:18,  7.15s/it]
+2025-10-06 18:13:35 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▏                            | 1499/2088 [3:05:04<1:10:26,  7.18s/it]
+2025-10-06 18:13:35 - ERROR - stderr - 
+2025-10-06 18:13:35 - ERROR - stderr - 
+2025-10-06 18:13:35 - INFO - stdout - {'loss': 1.0393, 'learning_rate': 0.00019462021957651206, 'epoch': 4.31}
+2025-10-06 18:13:35 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▏                            | 1499/2088 [3:05:04<1:10:26,  7.18s/it]
+2025-10-06 18:13:42 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▎                            | 1500/2088 [3:05:11<1:10:51,  7.23s/it]
+2025-10-06 18:13:42 - ERROR - stderr - 
+2025-10-06 18:13:42 - ERROR - stderr - 
+2025-10-06 18:13:42 - INFO - stdout - {'loss': 0.9901, 'learning_rate': 0.00019400637406884874, 'epoch': 4.31}
+2025-10-06 18:13:42 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▎                            | 1500/2088 [3:05:11<1:10:51,  7.23s/it]
+2025-10-06 18:13:49 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▎                            | 1501/2088 [3:05:18<1:10:14,  7.18s/it]
+2025-10-06 18:13:49 - ERROR - stderr - 
+2025-10-06 18:13:49 - ERROR - stderr - 
+2025-10-06 18:13:49 - INFO - stdout - {'loss': 0.9529, 'learning_rate': 0.00019339326504292444, 'epoch': 4.31}
+2025-10-06 18:13:49 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▎                            | 1501/2088 [3:05:18<1:10:14,  7.18s/it]
+2025-10-06 18:13:56 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▎                            | 1502/2088 [3:05:25<1:09:37,  7.13s/it]
+2025-10-06 18:13:56 - ERROR - stderr - 
+2025-10-06 18:13:56 - ERROR - stderr - 
+2025-10-06 18:13:56 - INFO - stdout - {'loss': 1.032, 'learning_rate': 0.00019278089397440268, 'epoch': 4.32}
+2025-10-06 18:13:56 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▎                            | 1502/2088 [3:05:25<1:09:37,  7.13s/it]
+2025-10-06 18:14:04 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▍                            | 1503/2088 [3:05:32<1:10:18,  7.21s/it]
+2025-10-06 18:14:04 - ERROR - stderr - 
+2025-10-06 18:14:04 - ERROR - stderr - 
+2025-10-06 18:14:04 - INFO - stdout - {'loss': 1.0156, 'learning_rate': 0.00019216926233717085, 'epoch': 4.32}
+2025-10-06 18:14:04 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▍                            | 1503/2088 [3:05:32<1:10:18,  7.21s/it]
+2025-10-06 18:14:11 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▍                            | 1504/2088 [3:05:40<1:10:13,  7.22s/it]
+2025-10-06 18:14:11 - ERROR - stderr - 
+2025-10-06 18:14:11 - ERROR - stderr - 
+2025-10-06 18:14:11 - INFO - stdout - {'loss': 0.9891, 'learning_rate': 0.00019155837160333628, 'epoch': 4.32}
+2025-10-06 18:14:11 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▍                            | 1504/2088 [3:05:40<1:10:13,  7.22s/it]
+2025-10-06 18:14:18 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▌                            | 1505/2088 [3:05:46<1:08:36,  7.06s/it]
+2025-10-06 18:14:18 - ERROR - stderr - 
+2025-10-06 18:14:18 - ERROR - stderr - 
+2025-10-06 18:14:18 - INFO - stdout - {'loss': 0.9682, 'learning_rate': 0.00019094822324322374, 'epoch': 4.32}
+2025-10-06 18:14:18 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▌                            | 1505/2088 [3:05:46<1:08:36,  7.06s/it]
+2025-10-06 18:14:25 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▌                            | 1506/2088 [3:05:53<1:08:36,  7.07s/it]
+2025-10-06 18:14:25 - ERROR - stderr - 
+2025-10-06 18:14:25 - ERROR - stderr - 
+2025-10-06 18:14:25 - INFO - stdout - {'loss': 1.0437, 'learning_rate': 0.00019033881872537007, 'epoch': 4.33}
+2025-10-06 18:14:25 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▌                            | 1506/2088 [3:05:53<1:08:36,  7.07s/it]
+2025-10-06 18:14:32 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▌                            | 1507/2088 [3:06:01<1:08:45,  7.10s/it]
+2025-10-06 18:14:32 - ERROR - stderr - 
+2025-10-06 18:14:32 - ERROR - stderr - 
+2025-10-06 18:14:32 - INFO - stdout - {'loss': 1.0728, 'learning_rate': 0.000189730159516523, 'epoch': 4.33}
+2025-10-06 18:14:32 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▌                            | 1507/2088 [3:06:01<1:08:45,  7.10s/it]
+2025-10-06 18:14:39 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▋                            | 1508/2088 [3:06:08<1:09:01,  7.14s/it]
+2025-10-06 18:14:39 - ERROR - stderr - 
+2025-10-06 18:14:39 - ERROR - stderr - 
+2025-10-06 18:14:39 - INFO - stdout - {'loss': 1.136, 'learning_rate': 0.00018912224708163562, 'epoch': 4.33}
+2025-10-06 18:14:39 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▋                            | 1508/2088 [3:06:08<1:09:01,  7.14s/it]
+2025-10-06 18:14:46 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▋                            | 1509/2088 [3:06:15<1:08:37,  7.11s/it]
+2025-10-06 18:14:46 - ERROR - stderr - 
+2025-10-06 18:14:46 - ERROR - stderr - 
+2025-10-06 18:14:46 - INFO - stdout - {'loss': 0.9912, 'learning_rate': 0.000188515082883864, 'epoch': 4.34}
+2025-10-06 18:14:46 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▋                            | 1509/2088 [3:06:15<1:08:37,  7.11s/it]
+2025-10-06 18:14:53 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▊                            | 1510/2088 [3:06:22<1:08:08,  7.07s/it]
+2025-10-06 18:14:53 - ERROR - stderr - 
+2025-10-06 18:14:53 - ERROR - stderr - 
+2025-10-06 18:14:53 - INFO - stdout - {'loss': 0.9792, 'learning_rate': 0.0001879086683845635, 'epoch': 4.34}
+2025-10-06 18:14:53 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▊                            | 1510/2088 [3:06:22<1:08:08,  7.07s/it]
+2025-10-06 18:15:00 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▊                            | 1511/2088 [3:06:29<1:07:12,  6.99s/it]
+2025-10-06 18:15:00 - ERROR - stderr - 
+2025-10-06 18:15:00 - ERROR - stderr - 
+2025-10-06 18:15:00 - INFO - stdout - {'loss': 1.0441, 'learning_rate': 0.00018730300504328436, 'epoch': 4.34}
+2025-10-06 18:15:00 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▊                            | 1511/2088 [3:06:29<1:07:12,  6.99s/it]
+2025-10-06 18:15:07 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▊                            | 1512/2088 [3:06:35<1:06:08,  6.89s/it]
+2025-10-06 18:15:07 - ERROR - stderr - 
+2025-10-06 18:15:07 - ERROR - stderr - 
+2025-10-06 18:15:07 - INFO - stdout - {'loss': 0.9867, 'learning_rate': 0.0001866980943177699, 'epoch': 4.34}
+2025-10-06 18:15:07 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▊                            | 1512/2088 [3:06:35<1:06:08,  6.89s/it]
+2025-10-06 18:15:14 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▉                            | 1513/2088 [3:06:42<1:06:06,  6.90s/it]
+2025-10-06 18:15:14 - ERROR - stderr - 
+2025-10-06 18:15:14 - ERROR - stderr - 
+2025-10-06 18:15:14 - INFO - stdout - {'loss': 0.9496, 'learning_rate': 0.00018609393766395082, 'epoch': 4.35}
+2025-10-06 18:15:14 - ERROR - stderr -  72%|█████████████████████████████████████████████████████████████████████████▉                            | 1513/2088 [3:06:42<1:06:06,  6.90s/it]
+2025-10-06 18:15:21 - ERROR - stderr -  73%|█████████████████████████████████████████████████████████████████████████▉                            | 1514/2088 [3:06:50<1:07:44,  7.08s/it]
+2025-10-06 18:15:21 - ERROR - stderr - 
+2025-10-06 18:15:21 - ERROR - stderr - 
+2025-10-06 18:15:21 - INFO - stdout - {'loss': 1.058, 'learning_rate': 0.00018549053653594373, 'epoch': 4.35}
+2025-10-06 18:15:21 - ERROR - stderr -  73%|█████████████████████████████████████████████████████████████████████████▉                            | 1514/2088 [3:06:50<1:07:44,  7.08s/it]
+2025-10-06 18:15:29 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████                            | 1515/2088 [3:06:57<1:08:37,  7.19s/it]
+2025-10-06 18:15:29 - ERROR - stderr - 
+2025-10-06 18:15:29 - ERROR - stderr - 
+2025-10-06 18:15:29 - INFO - stdout - {'loss': 1.0208, 'learning_rate': 0.00018488789238604677, 'epoch': 4.35}
+2025-10-06 18:15:29 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████                            | 1515/2088 [3:06:57<1:08:37,  7.19s/it]
+2025-10-06 18:15:36 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████                            | 1516/2088 [3:07:04<1:07:37,  7.09s/it]
+2025-10-06 18:15:36 - ERROR - stderr - 
+2025-10-06 18:15:36 - ERROR - stderr - 
+2025-10-06 18:15:36 - INFO - stdout - {'loss': 1.053, 'learning_rate': 0.0001842860066647356, 'epoch': 4.36}
+2025-10-06 18:15:36 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████                            | 1516/2088 [3:07:04<1:07:37,  7.09s/it]
+2025-10-06 18:15:43 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████                            | 1517/2088 [3:07:11<1:07:55,  7.14s/it]
+2025-10-06 18:15:43 - ERROR - stderr - 
+2025-10-06 18:15:43 - ERROR - stderr - 
+2025-10-06 18:15:43 - INFO - stdout - {'loss': 1.0398, 'learning_rate': 0.0001836848808206612, 'epoch': 4.36}
+2025-10-06 18:15:43 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████                            | 1517/2088 [3:07:11<1:07:55,  7.14s/it]
+2025-10-06 18:15:50 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▏                           | 1518/2088 [3:07:18<1:07:43,  7.13s/it]
+2025-10-06 18:15:50 - ERROR - stderr - 
+2025-10-06 18:15:50 - ERROR - stderr - 
+2025-10-06 18:15:50 - INFO - stdout - {'loss': 0.9846, 'learning_rate': 0.0001830845163006448, 'epoch': 4.36}
+2025-10-06 18:15:50 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▏                           | 1518/2088 [3:07:18<1:07:43,  7.13s/it]
+2025-10-06 18:15:56 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▏                           | 1519/2088 [3:07:25<1:06:05,  6.97s/it]
+2025-10-06 18:15:56 - ERROR - stderr - 
+2025-10-06 18:15:56 - ERROR - stderr - 
+2025-10-06 18:15:56 - INFO - stdout - {'loss': 1.0947, 'learning_rate': 0.00018248491454967607, 'epoch': 4.36}
+2025-10-06 18:15:56 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▏                           | 1519/2088 [3:07:25<1:06:05,  6.97s/it]
+2025-10-06 18:16:03 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▎                           | 1520/2088 [3:07:32<1:05:57,  6.97s/it]
+2025-10-06 18:16:03 - ERROR - stderr - 
+2025-10-06 18:16:03 - ERROR - stderr - 
+2025-10-06 18:16:03 - INFO - stdout - {'loss': 0.9599, 'learning_rate': 0.00018188607701090826, 'epoch': 4.37}
+2025-10-06 18:16:03 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▎                           | 1520/2088 [3:07:32<1:05:57,  6.97s/it]
+2025-10-06 18:16:11 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▎                           | 1521/2088 [3:07:39<1:07:26,  7.14s/it]
+2025-10-06 18:16:11 - ERROR - stderr - 
+2025-10-06 18:16:11 - ERROR - stderr - 
+2025-10-06 18:16:11 - INFO - stdout - {'loss': 1.0515, 'learning_rate': 0.00018128800512565513, 'epoch': 4.37}
+2025-10-06 18:16:11 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▎                           | 1521/2088 [3:07:39<1:07:26,  7.14s/it]
+2025-10-06 18:16:18 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▎                           | 1522/2088 [3:07:47<1:07:21,  7.14s/it]
+2025-10-06 18:16:18 - ERROR - stderr - 
+2025-10-06 18:16:18 - ERROR - stderr - 
+2025-10-06 18:16:18 - INFO - stdout - {'loss': 0.9748, 'learning_rate': 0.0001806907003333884, 'epoch': 4.37}
+2025-10-06 18:16:18 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▎                           | 1522/2088 [3:07:47<1:07:21,  7.14s/it]
+2025-10-06 18:16:25 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▍                           | 1523/2088 [3:07:53<1:06:14,  7.03s/it]
+2025-10-06 18:16:25 - ERROR - stderr - 
+2025-10-06 18:16:25 - ERROR - stderr - 
+2025-10-06 18:16:25 - INFO - stdout - {'loss': 1.0615, 'learning_rate': 0.00018009416407173257, 'epoch': 4.38}
+2025-10-06 18:16:25 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▍                           | 1523/2088 [3:07:53<1:06:14,  7.03s/it]
+2025-10-06 18:16:32 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▍                           | 1524/2088 [3:08:01<1:06:22,  7.06s/it]
+2025-10-06 18:16:32 - ERROR - stderr - 
+2025-10-06 18:16:32 - ERROR - stderr - 
+2025-10-06 18:16:32 - INFO - stdout - {'loss': 0.9797, 'learning_rate': 0.00017949839777646327, 'epoch': 4.38}
+2025-10-06 18:16:32 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▍                           | 1524/2088 [3:08:01<1:06:22,  7.06s/it]
+2025-10-06 18:16:39 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▍                           | 1525/2088 [3:08:08<1:06:28,  7.08s/it]
+2025-10-06 18:16:39 - ERROR - stderr - 
+2025-10-06 18:16:39 - ERROR - stderr - 
+2025-10-06 18:16:39 - INFO - stdout - {'loss': 1.0182, 'learning_rate': 0.00017890340288150214, 'epoch': 4.38}
+2025-10-06 18:16:39 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▍                           | 1525/2088 [3:08:08<1:06:28,  7.08s/it]
+2025-10-06 18:16:46 - ERROR - stderr -  73%|█████████████████████████████████████████████████████████���████████████████▌                           | 1526/2088 [3:08:15<1:06:25,  7.09s/it]
+2025-10-06 18:16:46 - ERROR - stderr - 
+2025-10-06 18:16:46 - ERROR - stderr - 
+2025-10-06 18:16:46 - INFO - stdout - {'loss': 0.9973, 'learning_rate': 0.00017830918081891488, 'epoch': 4.39}
+2025-10-06 18:16:46 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▌                           | 1526/2088 [3:08:15<1:06:25,  7.09s/it]
+2025-10-06 18:16:53 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▌                           | 1527/2088 [3:08:22<1:06:22,  7.10s/it]
+2025-10-06 18:16:53 - ERROR - stderr - 
+2025-10-06 18:16:53 - ERROR - stderr - 
+2025-10-06 18:16:53 - INFO - stdout - {'loss': 0.9715, 'learning_rate': 0.00017771573301890664, 'epoch': 4.39}
+2025-10-06 18:16:53 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▌                           | 1527/2088 [3:08:22<1:06:22,  7.10s/it]
+2025-10-06 18:17:00 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▋                           | 1528/2088 [3:08:29<1:05:33,  7.02s/it]
+2025-10-06 18:17:00 - ERROR - stderr - 
+2025-10-06 18:17:00 - ERROR - stderr - 
+2025-10-06 18:17:00 - INFO - stdout - {'loss': 0.9903, 'learning_rate': 0.00017712306090981894, 'epoch': 4.39}
+2025-10-06 18:17:00 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▋                           | 1528/2088 [3:08:29<1:05:33,  7.02s/it]
+2025-10-06 18:17:07 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▋                           | 1529/2088 [3:08:36<1:05:40,  7.05s/it]
+2025-10-06 18:17:07 - ERROR - stderr - 
+2025-10-06 18:17:07 - ERROR - stderr - 
+2025-10-06 18:17:07 - INFO - stdout - {'loss': 1.0584, 'learning_rate': 0.0001765311659181269, 'epoch': 4.39}
+2025-10-06 18:17:07 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▋                           | 1529/2088 [3:08:36<1:05:40,  7.05s/it]
+2025-10-06 18:17:14 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▋                           | 1530/2088 [3:08:43<1:05:09,  7.01s/it]
+2025-10-06 18:17:14 - ERROR - stderr - 
+2025-10-06 18:17:14 - ERROR - stderr - 
+2025-10-06 18:17:14 - INFO - stdout - {'loss': 1.0168, 'learning_rate': 0.00017594004946843456, 'epoch': 4.4}
+2025-10-06 18:17:14 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▋                           | 1530/2088 [3:08:43<1:05:09,  7.01s/it]
+2025-10-06 18:17:21 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▊                           | 1531/2088 [3:08:50<1:04:29,  6.95s/it]
+2025-10-06 18:17:21 - ERROR - stderr - 
+2025-10-06 18:17:21 - ERROR - stderr - 
+2025-10-06 18:17:21 - INFO - stdout - {'loss': 0.9991, 'learning_rate': 0.00017534971298347274, 'epoch': 4.4}
+2025-10-06 18:17:21 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▊                           | 1531/2088 [3:08:50<1:04:29,  6.95s/it]
+2025-10-06 18:17:28 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▊                           | 1532/2088 [3:08:57<1:04:24,  6.95s/it]
+2025-10-06 18:17:28 - ERROR - stderr - 
+2025-10-06 18:17:28 - ERROR - stderr - 
+2025-10-06 18:17:28 - INFO - stdout - {'loss': 1.0644, 'learning_rate': 0.00017476015788409438, 'epoch': 4.4}
+2025-10-06 18:17:28 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▊                           | 1532/2088 [3:08:57<1:04:24,  6.95s/it]
+2025-10-06 18:17:35 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▉                           | 1533/2088 [3:09:03<1:03:48,  6.90s/it]
+2025-10-06 18:17:35 - ERROR - stderr - 
+2025-10-06 18:17:35 - ERROR - stderr - 
+2025-10-06 18:17:35 - INFO - stdout - {'loss': 1.0257, 'learning_rate': 0.00017417138558927244, 'epoch': 4.41}
+2025-10-06 18:17:35 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▉                           | 1533/2088 [3:09:03<1:03:48,  6.90s/it]
+2025-10-06 18:17:42 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▉                           | 1534/2088 [3:09:10<1:04:24,  6.98s/it]
+2025-10-06 18:17:42 - ERROR - stderr - 
+2025-10-06 18:17:42 - ERROR - stderr - 
+2025-10-06 18:17:42 - INFO - stdout - {'loss': 0.9382, 'learning_rate': 0.0001735833975160952, 'epoch': 4.41}
+2025-10-06 18:17:42 - ERROR - stderr -  73%|██████████████████████████████████████████████████████████████████████████▉                           | 1534/2088 [3:09:10<1:04:24,  6.98s/it]
+2025-10-06 18:17:49 - ERROR - stderr -  74%|██████████████████████████████████████████████████████████████████████████▉                           | 1535/2088 [3:09:18<1:05:14,  7.08s/it]
+2025-10-06 18:17:49 - ERROR - stderr - 
+2025-10-06 18:17:49 - ERROR - stderr - 
+2025-10-06 18:17:49 - INFO - stdout - {'loss': 1.0251, 'learning_rate': 0.00017299619507976343, 'epoch': 4.41}
+2025-10-06 18:17:49 - ERROR - stderr -  74%|██████████████████████████████████████████████████████████████████████████▉                           | 1535/2088 [3:09:18<1:05:14,  7.08s/it]
+2025-10-06 18:17:56 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████                           | 1536/2088 [3:09:25<1:05:30,  7.12s/it]
+2025-10-06 18:17:56 - ERROR - stderr - 
+2025-10-06 18:17:56 - ERROR - stderr - 
+2025-10-06 18:17:56 - INFO - stdout - {'loss': 1.0315, 'learning_rate': 0.00017240977969358758, 'epoch': 4.41}
+2025-10-06 18:17:56 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████                           | 1536/2088 [3:09:25<1:05:30,  7.12s/it]
+2025-10-06 18:18:03 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████                           | 1537/2088 [3:09:32<1:04:43,  7.05s/it]
+2025-10-06 18:18:03 - ERROR - stderr - 
+2025-10-06 18:18:03 - ERROR - stderr - 
+2025-10-06 18:18:03 - INFO - stdout - {'loss': 1.0939, 'learning_rate': 0.00017182415276898307, 'epoch': 4.42}
+2025-10-06 18:18:03 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████                           | 1537/2088 [3:09:32<1:04:43,  7.05s/it]
+2025-10-06 18:18:11 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▏                          | 1538/2088 [3:09:39<1:05:39,  7.16s/it]
+2025-10-06 18:18:11 - ERROR - stderr - 
+2025-10-06 18:18:11 - ERROR - stderr - 
+2025-10-06 18:18:11 - INFO - stdout - {'loss': 1.0648, 'learning_rate': 0.00017123931571546826, 'epoch': 4.42}
+2025-10-06 18:18:11 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▏                          | 1538/2088 [3:09:39<1:05:39,  7.16s/it]
+2025-10-06 18:18:18 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▏                          | 1539/2088 [3:09:47<1:05:53,  7.20s/it]
+2025-10-06 18:18:18 - ERROR - stderr - 
+2025-10-06 18:18:18 - ERROR - stderr - 
+2025-10-06 18:18:18 - INFO - stdout - {'loss': 1.0663, 'learning_rate': 0.00017065526994065972, 'epoch': 4.42}
+2025-10-06 18:18:18 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▏                          | 1539/2088 [3:09:47<1:05:53,  7.20s/it]
+2025-10-06 18:18:25 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▏                          | 1540/2088 [3:09:54<1:05:00,  7.12s/it]
+2025-10-06 18:18:25 - ERROR - stderr - 
+2025-10-06 18:18:25 - ERROR - stderr - 
+2025-10-06 18:18:25 - INFO - stdout - {'loss': 1.0047, 'learning_rate': 0.0001700720168502703, 'epoch': 4.43}
+2025-10-06 18:18:25 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▏                          | 1540/2088 [3:09:54<1:05:00,  7.12s/it]
+2025-10-06 18:18:32 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▎                          | 1541/2088 [3:10:01<1:05:28,  7.18s/it]
+2025-10-06 18:18:32 - ERROR - stderr - 
+2025-10-06 18:18:32 - ERROR - stderr - 
+2025-10-06 18:18:32 - INFO - stdout - {'loss': 0.9987, 'learning_rate': 0.00016948955784810437, 'epoch': 4.43}
+2025-10-06 18:18:32 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▎                          | 1541/2088 [3:10:01<1:05:28,  7.18s/it]
+2025-10-06 18:18:39 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▎                          | 1542/2088 [3:10:08<1:04:36,  7.10s/it]
+2025-10-06 18:18:39 - ERROR - stderr - 
+2025-10-06 18:18:39 - ERROR - stderr - 
+2025-10-06 18:18:39 - INFO - stdout - {'loss': 1.005, 'learning_rate': 0.00016890789433605507, 'epoch': 4.43}
+2025-10-06 18:18:39 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▎                          | 1542/2088 [3:10:08<1:04:36,  7.10s/it]
+2025-10-06 18:18:47 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▍                          | 1543/2088 [3:10:15<1:05:11,  7.18s/it]
+2025-10-06 18:18:47 - ERROR - stderr - 
+2025-10-06 18:18:47 - ERROR - stderr - 
+2025-10-06 18:18:47 - INFO - stdout - {'loss': 0.984, 'learning_rate': 0.0001683270277141014, 'epoch': 4.43}
+2025-10-06 18:18:47 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▍                          | 1543/2088 [3:10:15<1:05:11,  7.18s/it]
+2025-10-06 18:18:54 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▍                          | 1544/2088 [3:10:23<1:05:43,  7.25s/it]
+2025-10-06 18:18:54 - ERROR - stderr - 
+2025-10-06 18:18:54 - ERROR - stderr - 
+2025-10-06 18:18:54 - INFO - stdout - {'loss': 1.0267, 'learning_rate': 0.00016774695938030377, 'epoch': 4.44}
+2025-10-06 18:18:54 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▍                          | 1544/2088 [3:10:23<1:05:43,  7.25s/it]
+2025-10-06 18:19:01 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▍                          | 1545/2088 [3:10:30<1:05:36,  7.25s/it]
+2025-10-06 18:19:01 - ERROR - stderr - 
+2025-10-06 18:19:01 - ERROR - stderr - 
+2025-10-06 18:19:01 - INFO - stdout - {'loss': 1.0053, 'learning_rate': 0.0001671676907308018, 'epoch': 4.44}
+2025-10-06 18:19:01 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▍                          | 1545/2088 [3:10:30<1:05:36,  7.25s/it]
+2025-10-06 18:19:08 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▌                          | 1546/2088 [3:10:37<1:04:58,  7.19s/it]
+2025-10-06 18:19:08 - ERROR - stderr - 
+2025-10-06 18:19:08 - ERROR - stderr - 
+2025-10-06 18:19:08 - INFO - stdout - {'loss': 0.9758, 'learning_rate': 0.00016658922315980972, 'epoch': 4.44}
+2025-10-06 18:19:08 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▌                          | 1546/2088 [3:10:37<1:04:58,  7.19s/it]
+2025-10-06 18:19:15 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▌                          | 1547/2088 [3:10:44<1:04:02,  7.10s/it]
+2025-10-06 18:19:15 - ERROR - stderr - 
+2025-10-06 18:19:15 - ERROR - stderr - 
+2025-10-06 18:19:15 - INFO - stdout - {'loss': 0.9388, 'learning_rate': 0.00016601155805961437, 'epoch': 4.45}
+2025-10-06 18:19:15 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▌                          | 1547/2088 [3:10:44<1:04:02,  7.10s/it]
+2025-10-06 18:19:22 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▌                          | 1548/2088 [3:10:51<1:03:45,  7.08s/it]
+2025-10-06 18:19:22 - ERROR - stderr - 
+2025-10-06 18:19:22 - ERROR - stderr - 
+2025-10-06 18:19:22 - INFO - stdout - {'loss': 1.0032, 'learning_rate': 0.00016543469682057105, 'epoch': 4.45}
+2025-10-06 18:19:22 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▌                          | 1548/2088 [3:10:51<1:03:45,  7.08s/it]
+2025-10-06 18:19:30 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▋                          | 1549/2088 [3:10:58<1:04:36,  7.19s/it]
+2025-10-06 18:19:30 - ERROR - stderr - 
+2025-10-06 18:19:30 - ERROR - stderr - 
+2025-10-06 18:19:30 - INFO - stdout - {'loss': 1.0916, 'learning_rate': 0.00016485864083109946, 'epoch': 4.45}
+2025-10-06 18:19:30 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▋                          | 1549/2088 [3:10:58<1:04:36,  7.19s/it]
+2025-10-06 18:19:38 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▋                          | 1550/2088 [3:11:06<1:06:07,  7.37s/it]
+2025-10-06 18:19:38 - ERROR - stderr - 
+2025-10-06 18:19:38 - ERROR - stderr - 
+2025-10-06 18:19:38 - INFO - stdout - {'loss': 1.0647, 'learning_rate': 0.0001642833914776823, 'epoch': 4.45}
+2025-10-06 18:19:38 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▋                          | 1550/2088 [3:11:06<1:06:07,  7.37s/it]
+2025-10-06 18:19:45 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▊                          | 1551/2088 [3:11:13<1:05:27,  7.31s/it]
+2025-10-06 18:19:45 - ERROR - stderr - 
+2025-10-06 18:19:45 - ERROR - stderr - 
+2025-10-06 18:19:45 - INFO - stdout - {'loss': 1.0361, 'learning_rate': 0.00016370895014486, 'epoch': 4.46}
+2025-10-06 18:19:45 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▊                          | 1551/2088 [3:11:13<1:05:27,  7.31s/it]
+2025-10-06 18:19:52 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▊                          | 1552/2088 [3:11:20<1:04:02,  7.17s/it]
+2025-10-06 18:19:52 - ERROR - stderr - 
+2025-10-06 18:19:52 - ERROR - stderr - 
+2025-10-06 18:19:52 - INFO - stdout - {'loss': 0.9948, 'learning_rate': 0.00016313531821522876, 'epoch': 4.46}
+2025-10-06 18:19:52 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▊                          | 1552/2088 [3:11:20<1:04:02,  7.17s/it]
+2025-10-06 18:19:59 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▊                          | 1553/2088 [3:11:27<1:03:54,  7.17s/it]
+2025-10-06 18:19:59 - ERROR - stderr - 
+2025-10-06 18:19:59 - ERROR - stderr - 
+2025-10-06 18:19:59 - INFO - stdout - {'loss': 1.0164, 'learning_rate': 0.00016256249706943628, 'epoch': 4.46}
+2025-10-06 18:19:59 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▊                          | 1553/2088 [3:11:27<1:03:54,  7.17s/it]
+2025-10-06 18:20:06 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▉                          | 1554/2088 [3:11:34<1:03:11,  7.10s/it]
+2025-10-06 18:20:06 - ERROR - stderr - 
+2025-10-06 18:20:06 - ERROR - stderr - 
+2025-10-06 18:20:06 - INFO - stdout - {'loss': 1.0174, 'learning_rate': 0.00016199048808617894, 'epoch': 4.47}
+2025-10-06 18:20:06 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▉                          | 1554/2088 [3:11:34<1:03:11,  7.10s/it]
+2025-10-06 18:20:13 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▉                          | 1555/2088 [3:11:41<1:03:20,  7.13s/it]
+2025-10-06 18:20:13 - ERROR - stderr - 
+2025-10-06 18:20:13 - ERROR - stderr - 
+2025-10-06 18:20:13 - INFO - stdout - {'loss': 0.9894, 'learning_rate': 0.0001614192926421989, 'epoch': 4.47}
+2025-10-06 18:20:13 - ERROR - stderr -  74%|███████████████████████████████████████████████████████████████████████████▉                          | 1555/2088 [3:11:41<1:03:20,  7.13s/it]
+2025-10-06 18:20:20 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████                          | 1556/2088 [3:11:49<1:03:40,  7.18s/it]
+2025-10-06 18:20:20 - ERROR - stderr - 
+2025-10-06 18:20:20 - ERROR - stderr - 
+2025-10-06 18:20:20 - INFO - stdout - {'loss': 1.0224, 'learning_rate': 0.00016084891211227896, 'epoch': 4.47}
+2025-10-06 18:20:20 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████                          | 1556/2088 [3:11:49<1:03:40,  7.18s/it]
+2025-10-06 18:20:27 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████                          | 1557/2088 [3:11:56<1:03:24,  7.16s/it]
+2025-10-06 18:20:27 - ERROR - stderr - 
+2025-10-06 18:20:27 - ERROR - stderr - 
+2025-10-06 18:20:27 - INFO - stdout - {'loss': 1.0632, 'learning_rate': 0.00016027934786924186, 'epoch': 4.47}
+2025-10-06 18:20:27 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████                          | 1557/2088 [3:11:56<1:03:24,  7.16s/it]
+2025-10-06 18:20:34 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████                          | 1558/2088 [3:12:03<1:03:00,  7.13s/it]
+2025-10-06 18:20:34 - ERROR - stderr - 
+2025-10-06 18:20:34 - ERROR - stderr - 
+2025-10-06 18:20:34 - INFO - stdout - {'loss': 0.9536, 'learning_rate': 0.00015971060128394484, 'epoch': 4.48}
+2025-10-06 18:20:34 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████                          | 1558/2088 [3:12:03<1:03:00,  7.13s/it]
+2025-10-06 18:20:41 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▏                         | 1559/2088 [3:12:10<1:02:52,  7.13s/it]
+2025-10-06 18:20:41 - ERROR - stderr - 
+2025-10-06 18:20:41 - ERROR - stderr - 
+2025-10-06 18:20:41 - INFO - stdout - {'loss': 0.9469, 'learning_rate': 0.00015914267372527753, 'epoch': 4.48}
+2025-10-06 18:20:41 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▏                         | 1559/2088 [3:12:10<1:02:52,  7.13s/it]
+2025-10-06 18:20:48 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▏                         | 1560/2088 [3:12:17<1:01:57,  7.04s/it]
+2025-10-06 18:20:48 - ERROR - stderr - 
+2025-10-06 18:20:48 - ERROR - stderr - 
+2025-10-06 18:20:48 - INFO - stdout - {'loss': 0.9727, 'learning_rate': 0.00015857556656015837, 'epoch': 4.48}
+2025-10-06 18:20:48 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▏                         | 1560/2088 [3:12:17<1:01:57,  7.04s/it]
+2025-10-06 18:20:55 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▎                         | 1561/2088 [3:12:24<1:01:36,  7.01s/it]
+2025-10-06 18:20:55 - ERROR - stderr - 
+2025-10-06 18:20:55 - ERROR - stderr - 
+2025-10-06 18:20:55 - INFO - stdout - {'loss': 0.9892, 'learning_rate': 0.0001580092811535308, 'epoch': 4.49}
+2025-10-06 18:20:55 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▎                         | 1561/2088 [3:12:24<1:01:36,  7.01s/it]
+2025-10-06 18:21:02 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▎                         | 1562/2088 [3:12:31<1:01:31,  7.02s/it]
+2025-10-06 18:21:02 - ERROR - stderr - 
+2025-10-06 18:21:02 - ERROR - stderr - 
+2025-10-06 18:21:02 - INFO - stdout - {'loss': 1.0007, 'learning_rate': 0.0001574438188683609, 'epoch': 4.49}
+2025-10-06 18:21:02 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▎                         | 1562/2088 [3:12:31<1:01:31,  7.02s/it]
+2025-10-06 18:21:09 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▎                         | 1563/2088 [3:12:38<1:01:28,  7.03s/it]
+2025-10-06 18:21:09 - ERROR - stderr - 
+2025-10-06 18:21:09 - ERROR - stderr - 
+2025-10-06 18:21:09 - INFO - stdout - {'loss': 1.0486, 'learning_rate': 0.00015687918106563326, 'epoch': 4.49}
+2025-10-06 18:21:09 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▎                         | 1563/2088 [3:12:38<1:01:28,  7.03s/it]
+2025-10-06 18:21:16 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▍                         | 1564/2088 [3:12:45<1:01:06,  7.00s/it]
+2025-10-06 18:21:16 - ERROR - stderr - 
+2025-10-06 18:21:16 - ERROR - stderr - 
+2025-10-06 18:21:16 - INFO - stdout - {'loss': 0.985, 'learning_rate': 0.00015631536910434808, 'epoch': 4.49}
+2025-10-06 18:21:16 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▍                         | 1564/2088 [3:12:45<1:01:06,  7.00s/it]
+2025-10-06 18:21:24 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▍                         | 1565/2088 [3:12:52<1:01:51,  7.10s/it]
+2025-10-06 18:21:24 - ERROR - stderr - 
+2025-10-06 18:21:24 - ERROR - stderr - 
+2025-10-06 18:21:24 - INFO - stdout - {'loss': 0.9887, 'learning_rate': 0.00015575238434151822, 'epoch': 4.5}
+2025-10-06 18:21:24 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▍                         | 1565/2088 [3:12:52<1:01:51,  7.10s/it]
+2025-10-06 18:21:31 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▌                         | 1566/2088 [3:12:59<1:01:39,  7.09s/it]
+2025-10-06 18:21:31 - ERROR - stderr - 
+2025-10-06 18:21:31 - ERROR - stderr - 
+2025-10-06 18:21:31 - INFO - stdout - {'loss': 1.0012, 'learning_rate': 0.0001551902281321651, 'epoch': 4.5}
+2025-10-06 18:21:31 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▌                         | 1566/2088 [3:12:59<1:01:39,  7.09s/it]
+2025-10-06 18:21:38 - ERROR - stderr -  75%|████████████████████████████████████████████���███████████████████████████████▌                         | 1567/2088 [3:13:06<1:01:21,  7.07s/it]
+2025-10-06 18:21:38 - ERROR - stderr - 
+2025-10-06 18:21:38 - ERROR - stderr - 
+2025-10-06 18:21:38 - INFO - stdout - {'loss': 0.9717, 'learning_rate': 0.00015462890182931644, 'epoch': 4.5}
+2025-10-06 18:21:38 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▌                         | 1567/2088 [3:13:06<1:01:21,  7.07s/it]
+2025-10-06 18:21:45 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▌                         | 1568/2088 [3:13:13<1:01:35,  7.11s/it]
+2025-10-06 18:21:45 - ERROR - stderr - 
+2025-10-06 18:21:45 - ERROR - stderr - 
+2025-10-06 18:21:45 - INFO - stdout - {'loss': 0.9807, 'learning_rate': 0.00015406840678400203, 'epoch': 4.51}
+2025-10-06 18:21:45 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▌                         | 1568/2088 [3:13:13<1:01:35,  7.11s/it]
+2025-10-06 18:21:52 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▋                         | 1569/2088 [3:13:20<1:01:27,  7.11s/it]
+2025-10-06 18:21:52 - ERROR - stderr - 
+2025-10-06 18:21:52 - ERROR - stderr - 
+2025-10-06 18:21:52 - INFO - stdout - {'loss': 1.0023, 'learning_rate': 0.0001535087443452514, 'epoch': 4.51}
+2025-10-06 18:21:52 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▋                         | 1569/2088 [3:13:20<1:01:27,  7.11s/it]
+2025-10-06 18:21:59 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▋                         | 1570/2088 [3:13:28<1:01:54,  7.17s/it]
+2025-10-06 18:21:59 - ERROR - stderr - 
+2025-10-06 18:21:59 - ERROR - stderr - 
+2025-10-06 18:21:59 - INFO - stdout - {'loss': 1.0454, 'learning_rate': 0.00015294991586008977, 'epoch': 4.51}
+2025-10-06 18:21:59 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▋                         | 1570/2088 [3:13:28<1:01:54,  7.17s/it]
+2025-10-06 18:22:06 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▋                         | 1571/2088 [3:13:35<1:01:09,  7.10s/it]
+2025-10-06 18:22:06 - ERROR - stderr - 
+2025-10-06 18:22:06 - ERROR - stderr - 
+2025-10-06 18:22:06 - INFO - stdout - {'loss': 1.0108, 'learning_rate': 0.00015239192267353508, 'epoch': 4.51}
+2025-10-06 18:22:06 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▋                         | 1571/2088 [3:13:35<1:01:09,  7.10s/it]
+2025-10-06 18:22:14 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▊                         | 1572/2088 [3:13:42<1:01:41,  7.17s/it]
+2025-10-06 18:22:14 - ERROR - stderr - 
+2025-10-06 18:22:14 - ERROR - stderr - 
+2025-10-06 18:22:14 - INFO - stdout - {'loss': 1.0085, 'learning_rate': 0.00015183476612859538, 'epoch': 4.52}
+2025-10-06 18:22:14 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▊                         | 1572/2088 [3:13:42<1:01:41,  7.17s/it]
+2025-10-06 18:22:21 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▊                         | 1573/2088 [3:13:49<1:01:06,  7.12s/it]
+2025-10-06 18:22:21 - ERROR - stderr - 
+2025-10-06 18:22:21 - ERROR - stderr - 
+2025-10-06 18:22:21 - INFO - stdout - {'loss': 1.1009, 'learning_rate': 0.00015127844756626435, 'epoch': 4.52}
+2025-10-06 18:22:21 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▊                         | 1573/2088 [3:13:49<1:01:06,  7.12s/it]
+2025-10-06 18:22:28 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▉                         | 1574/2088 [3:13:56<1:01:15,  7.15s/it]
+2025-10-06 18:22:28 - ERROR - stderr - 
+2025-10-06 18:22:28 - ERROR - stderr - 
+2025-10-06 18:22:28 - INFO - stdout - {'loss': 1.0869, 'learning_rate': 0.0001507229683255194, 'epoch': 4.52}
+2025-10-06 18:22:28 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▉                         | 1574/2088 [3:13:56<1:01:15,  7.15s/it]
+2025-10-06 18:22:35 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▉                         | 1575/2088 [3:14:03<1:01:02,  7.14s/it]
+2025-10-06 18:22:35 - ERROR - stderr - 
+2025-10-06 18:22:35 - ERROR - stderr - 
+2025-10-06 18:22:35 - INFO - stdout - {'loss': 1.0008, 'learning_rate': 0.00015016832974331724, 'epoch': 4.53}
+2025-10-06 18:22:35 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▉                         | 1575/2088 [3:14:03<1:01:02,  7.14s/it]
+2025-10-06 18:22:42 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▉                         | 1576/2088 [3:14:10<1:00:00,  7.03s/it]
+2025-10-06 18:22:42 - ERROR - stderr - 
+2025-10-06 18:22:42 - ERROR - stderr - 
+2025-10-06 18:22:42 - INFO - stdout - {'loss': 0.9719, 'learning_rate': 0.00014961453315459183, 'epoch': 4.53}
+2025-10-06 18:22:42 - ERROR - stderr -  75%|████████████████████████████████████████████████████████████████████████████▉                         | 1576/2088 [3:14:10<1:00:00,  7.03s/it]
+2025-10-06 18:22:49 - ERROR - stderr -  76%|█████████████████████████████████████████████████████████████████████████████                         | 1577/2088 [3:14:17<1:00:14,  7.07s/it]
+2025-10-06 18:22:49 - ERROR - stderr - 
+2025-10-06 18:22:49 - ERROR - stderr - 
+2025-10-06 18:22:49 - INFO - stdout - {'loss': 0.9815, 'learning_rate': 0.00014906157989225005, 'epoch': 4.53}
+2025-10-06 18:22:49 - ERROR - stderr -  76%|█████████████████████████████████████████████████████████████████████████████                         | 1577/2088 [3:14:17<1:00:14,  7.07s/it]
+2025-10-06 18:22:56 - ERROR - stderr -  76%|█████████████████████████████████████████████████████████████████████████████                         | 1578/2088 [3:14:24<1:00:02,  7.06s/it]
+2025-10-06 18:22:56 - ERROR - stderr - 
+2025-10-06 18:22:56 - ERROR - stderr - 
+2025-10-06 18:22:56 - INFO - stdout - {'loss': 1.046, 'learning_rate': 0.00014850947128716913, 'epoch': 4.53}
+2025-10-06 18:22:56 - ERROR - stderr -  76%|█████████████████████████████████████████████████████���███████████████████████                         | 1578/2088 [3:14:24<1:00:02,  7.06s/it]
+2025-10-06 18:23:03 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▋                         | 1579/2088 [3:14:31<59:36,  7.03s/it]
+2025-10-06 18:23:03 - ERROR - stderr - 
+2025-10-06 18:23:03 - ERROR - stderr - 
+2025-10-06 18:23:03 - INFO - stdout - {'loss': 0.9528, 'learning_rate': 0.00014795820866819376, 'epoch': 4.54}
+2025-10-06 18:23:03 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▋                         | 1579/2088 [3:14:31<59:36,  7.03s/it]
+2025-10-06 18:23:10 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▋                         | 1580/2088 [3:14:38<59:22,  7.01s/it]
+2025-10-06 18:23:10 - ERROR - stderr - 
+2025-10-06 18:23:10 - ERROR - stderr - 
+2025-10-06 18:23:10 - INFO - stdout - {'loss': 1.0277, 'learning_rate': 0.00014740779336213177, 'epoch': 4.54}
+2025-10-06 18:23:10 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▋                         | 1580/2088 [3:14:38<59:22,  7.01s/it]
+2025-10-06 18:23:17 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▋                         | 1581/2088 [3:14:45<59:33,  7.05s/it]
+2025-10-06 18:23:17 - ERROR - stderr - 
+2025-10-06 18:23:17 - ERROR - stderr - 
+2025-10-06 18:23:17 - INFO - stdout - {'loss': 0.9691, 'learning_rate': 0.00014685822669375237, 'epoch': 4.54}
+2025-10-06 18:23:17 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▋                         | 1581/2088 [3:14:45<59:33,  7.05s/it]
+2025-10-06 18:23:24 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▊                         | 1582/2088 [3:14:53<59:46,  7.09s/it]
+2025-10-06 18:23:24 - ERROR - stderr - 
+2025-10-06 18:23:24 - ERROR - stderr - 
+2025-10-06 18:23:24 - INFO - stdout - {'loss': 0.9996, 'learning_rate': 0.00014630950998578156, 'epoch': 4.55}
+2025-10-06 18:23:24 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▊                         | 1582/2088 [3:14:53<59:46,  7.09s/it]
+2025-10-06 18:23:31 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▊                         | 1583/2088 [3:15:00<59:33,  7.08s/it]
+2025-10-06 18:23:31 - ERROR - stderr - 
+2025-10-06 18:23:31 - ERROR - stderr - 
+2025-10-06 18:23:31 - INFO - stdout - {'loss': 0.9824, 'learning_rate': 0.00014576164455890013, 'epoch': 4.55}
+2025-10-06 18:23:31 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▊                         | 1583/2088 [3:15:00<59:33,  7.08s/it]
+2025-10-06 18:23:38 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▉                         | 1584/2088 [3:15:07<59:00,  7.02s/it]
+2025-10-06 18:23:38 - ERROR - stderr - 
+2025-10-06 18:23:38 - ERROR - stderr - 
+2025-10-06 18:23:38 - INFO - stdout - {'loss': 1.089, 'learning_rate': 0.00014521463173173966, 'epoch': 4.55}
+2025-10-06 18:23:38 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▉                         | 1584/2088 [3:15:07<59:00,  7.02s/it]
+2025-10-06 18:23:45 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▉                         | 1585/2088 [3:15:13<58:28,  6.98s/it]
+2025-10-06 18:23:45 - ERROR - stderr - 
+2025-10-06 18:23:45 - ERROR - stderr - 
+2025-10-06 18:23:45 - INFO - stdout - {'loss': 1.0654, 'learning_rate': 0.0001446684728208795, 'epoch': 4.55}
+2025-10-06 18:23:45 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▉                         | 1585/2088 [3:15:13<58:28,  6.98s/it]
+2025-10-06 18:23:52 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▉                         | 1586/2088 [3:15:21<58:47,  7.03s/it]
+2025-10-06 18:23:52 - ERROR - stderr - 
+2025-10-06 18:23:52 - ERROR - stderr - 
+2025-10-06 18:23:52 - INFO - stdout - {'loss': 0.9783, 'learning_rate': 0.00014412316914084439, 'epoch': 4.56}
+2025-10-06 18:23:52 - ERROR - stderr -  76%|██████████████████████████████████████████████████████████████████████████████▉                         | 1586/2088 [3:15:21<58:47,  7.03s/it]
+2025-10-06 18:23:59 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████                         | 1587/2088 [3:15:27<58:14,  6.98s/it]
+2025-10-06 18:23:59 - ERROR - stderr - 
+2025-10-06 18:23:59 - ERROR - stderr - 
+2025-10-06 18:23:59 - INFO - stdout - {'loss': 1.0007, 'learning_rate': 0.00014357872200409987, 'epoch': 4.56}
+2025-10-06 18:23:59 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████                         | 1587/2088 [3:15:27<58:14,  6.98s/it]
+2025-10-06 18:24:06 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████                         | 1588/2088 [3:15:34<57:59,  6.96s/it]
+2025-10-06 18:24:06 - ERROR - stderr - 
+2025-10-06 18:24:06 - ERROR - stderr - 
+2025-10-06 18:24:06 - INFO - stdout - {'loss': 1.0584, 'learning_rate': 0.00014303513272105056, 'epoch': 4.56}
+2025-10-06 18:24:06 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████                         | 1588/2088 [3:15:34<57:59,  6.96s/it]
+2025-10-06 18:24:13 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▏                        | 1589/2088 [3:15:41<58:02,  6.98s/it]
+2025-10-06 18:24:13 - ERROR - stderr - 
+2025-10-06 18:24:13 - ERROR - stderr - 
+2025-10-06 18:24:13 - INFO - stdout - {'loss': 0.988, 'learning_rate': 0.00014249240260003575, 'epoch': 4.57}
+2025-10-06 18:24:13 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▏                        | 1589/2088 [3:15:41<58:02,  6.98s/it]
+2025-10-06 18:24:20 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▏                        | 1590/2088 [3:15:48<57:48,  6.97s/it]
+2025-10-06 18:24:20 - ERROR - stderr - 
+2025-10-06 18:24:20 - ERROR - stderr - 
+2025-10-06 18:24:20 - INFO - stdout - {'loss': 0.9916, 'learning_rate': 0.00014195053294732758, 'epoch': 4.57}
+2025-10-06 18:24:20 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▏                        | 1590/2088 [3:15:48<57:48,  6.97s/it]
+2025-10-06 18:24:27 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▏                        | 1591/2088 [3:15:56<58:29,  7.06s/it]
+2025-10-06 18:24:27 - ERROR - stderr - 
+2025-10-06 18:24:27 - ERROR - stderr - 
+2025-10-06 18:24:27 - INFO - stdout - {'loss': 1.0115, 'learning_rate': 0.0001414095250671265, 'epoch': 4.57}
+2025-10-06 18:24:27 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▏                        | 1591/2088 [3:15:56<58:29,  7.06s/it]
+2025-10-06 18:24:34 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▎                        | 1592/2088 [3:16:03<58:09,  7.03s/it]
+2025-10-06 18:24:34 - ERROR - stderr - 
+2025-10-06 18:24:34 - ERROR - stderr - 
+2025-10-06 18:24:34 - INFO - stdout - {'loss': 0.9815, 'learning_rate': 0.00014086938026155899, 'epoch': 4.57}
+2025-10-06 18:24:34 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▎                        | 1592/2088 [3:16:03<58:09,  7.03s/it]
+2025-10-06 18:24:41 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▎                        | 1593/2088 [3:16:09<57:33,  6.98s/it]
+2025-10-06 18:24:41 - ERROR - stderr - 
+2025-10-06 18:24:41 - ERROR - stderr - 
+2025-10-06 18:24:41 - INFO - stdout - {'loss': 1.0083, 'learning_rate': 0.00014033009983067452, 'epoch': 4.58}
+2025-10-06 18:24:41 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▎                        | 1593/2088 [3:16:09<57:33,  6.98s/it]
+2025-10-06 18:24:48 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▍                        | 1594/2088 [3:16:17<57:53,  7.03s/it]
+2025-10-06 18:24:48 - ERROR - stderr - 
+2025-10-06 18:24:48 - ERROR - stderr - 
+2025-10-06 18:24:48 - INFO - stdout - {'loss': 0.9907, 'learning_rate': 0.00013979168507244173, 'epoch': 4.58}
+2025-10-06 18:24:48 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▍                        | 1594/2088 [3:16:17<57:53,  7.03s/it]
+2025-10-06 18:24:55 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▍                        | 1595/2088 [3:16:23<57:26,  6.99s/it]
+2025-10-06 18:24:55 - ERROR - stderr - 
+2025-10-06 18:24:55 - ERROR - stderr - 
+2025-10-06 18:24:55 - INFO - stdout - {'loss': 0.941, 'learning_rate': 0.00013925413728274605, 'epoch': 4.58}
+2025-10-06 18:24:55 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▍                        | 1595/2088 [3:16:23<57:26,  6.99s/it]
+2025-10-06 18:25:02 - ERROR - stderr -  76%|███████████████████���███████████████████████████████████████████████████████████▍                        | 1596/2088 [3:16:30<56:57,  6.95s/it]
+2025-10-06 18:25:02 - ERROR - stderr - 
+2025-10-06 18:25:02 - ERROR - stderr - 
+2025-10-06 18:25:02 - INFO - stdout - {'loss': 0.9842, 'learning_rate': 0.00013871745775538596, 'epoch': 4.59}
+2025-10-06 18:25:02 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▍                        | 1596/2088 [3:16:30<56:57,  6.95s/it]
+2025-10-06 18:25:09 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▌                        | 1597/2088 [3:16:37<56:55,  6.96s/it]
+2025-10-06 18:25:09 - ERROR - stderr - 
+2025-10-06 18:25:09 - ERROR - stderr - 
+2025-10-06 18:25:09 - INFO - stdout - {'loss': 1.0284, 'learning_rate': 0.00013818164778207039, 'epoch': 4.59}
+2025-10-06 18:25:09 - ERROR - stderr -  76%|███████████████████████████████████████████████████████████████████████████████▌                        | 1597/2088 [3:16:37<56:55,  6.96s/it]
+2025-10-06 18:25:16 - ERROR - stderr -  77%|███████████████████████████████████████████████████████████████████████████████▌                        | 1598/2088 [3:16:44<56:45,  6.95s/it]
+2025-10-06 18:25:16 - ERROR - stderr - 
+2025-10-06 18:25:16 - ERROR - stderr - 
+2025-10-06 18:25:16 - INFO - stdout - {'loss': 0.9454, 'learning_rate': 0.0001376467086524156, 'epoch': 4.59}
+2025-10-06 18:25:16 - ERROR - stderr -  77%|███████████████████████████████████████████████████████████████████████████████▌                        | 1598/2088 [3:16:44<56:45,  6.95s/it]
+2025-10-06 18:25:23 - ERROR - stderr -  77%|███████████████████████████████████████████████████████████████████████████████▋                        | 1599/2088 [3:16:51<56:29,  6.93s/it]
+2025-10-06 18:25:23 - ERROR - stderr - 
+2025-10-06 18:25:23 - ERROR - stderr - 
+2025-10-06 18:25:23 - INFO - stdout - {'loss': 1.0691, 'learning_rate': 0.0001371126416539409, 'epoch': 4.59}
+2025-10-06 18:25:23 - ERROR - stderr -  77%|███████████████████████████████████████████████████████████████████████████████▋                        | 1599/2088 [3:16:51<56:29,  6.93s/it]
+2025-10-06 18:25:30 - ERROR - stderr -  77%|███████████████████████████████████████████████████████████████████████████████▋                        | 1600/2088 [3:16:58<56:42,  6.97s/it]
+2025-10-06 18:25:30 - ERROR - stderr - 
+2025-10-06 18:25:30 - ERROR - stderr - 
+2025-10-06 18:25:30 - INFO - stdout - {'loss': 0.9755, 'learning_rate': 0.00013657944807206763, 'epoch': 4.6}
+2025-10-06 18:25:30 - ERROR - stderr -  77%|███████████████████████████████████████████████████████████████████████████████▋                        | 1600/2088 [3:16:58<56:42,  6.97s/it]
+2025-10-06 18:25:31 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600
+2025-10-06 18:25:31 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600
+2025-10-06 18:25:31 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/config.json
+2025-10-06 18:25:31 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/config.json
+2025-10-06 18:25:31 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/generation_config.json
+2025-10-06 18:25:31 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/generation_config.json
+2025-10-06 18:26:11 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/pytorch_model.bin.index.json.
+2025-10-06 18:26:11 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/pytorch_model.bin.index.json.
+2025-10-06 18:26:11 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/tokenizer_config.json
+2025-10-06 18:26:11 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/tokenizer_config.json
+2025-10-06 18:26:11 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/special_tokens_map.json
+2025-10-06 18:26:11 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/special_tokens_map.json
+2025-10-06 18:26:11 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/added_tokens.json
+2025-10-06 18:26:11 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600/added_tokens.json
+2025-10-06 18:26:12 - INFO - transformers.trainer - Deleting older checkpoint [epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200] due to args.save_total_limit
+2025-10-06 18:26:12 - INFO - transformers.trainer - Deleting older checkpoint [epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1200] due to args.save_total_limit
+2025-10-06 18:26:18 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 18:26:18 - ERROR - stderr -   warnings.warn(
+2025-10-06 18:26:23 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▏                       | 1601/2088 [3:17:51<2:48:29, 20.76s/it]
+2025-10-06 18:26:23 - ERROR - stderr - 
+2025-10-06 18:26:23 - ERROR - stderr - 
+2025-10-06 18:26:23 - INFO - stdout - {'loss': 1.0724, 'learning_rate': 0.00013604712919011426, 'epoch': 4.6}
+2025-10-06 18:26:23 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▏                       | 1601/2088 [3:17:51<2:48:29, 20.76s/it]
+2025-10-06 18:26:30 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▎                       | 1602/2088 [3:17:58<2:15:45, 16.76s/it]
+2025-10-06 18:26:30 - ERROR - stderr - 
+2025-10-06 18:26:30 - ERROR - stderr - 
+2025-10-06 18:26:30 - INFO - stdout - {'loss': 0.9301, 'learning_rate': 0.00013551568628929433, 'epoch': 4.6}
+2025-10-06 18:26:30 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▎                       | 1602/2088 [3:17:59<2:15:45, 16.76s/it]
+2025-10-06 18:26:37 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▎                       | 1603/2088 [3:18:06<1:52:22, 13.90s/it]
+2025-10-06 18:26:38 - ERROR - stderr - 
+2025-10-06 18:26:38 - ERROR - stderr - 
+2025-10-06 18:26:38 - INFO - stdout - {'loss': 0.9956, 'learning_rate': 0.0001349851206487127, 'epoch': 4.61}
+2025-10-06 18:26:38 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▎                       | 1603/2088 [3:18:06<1:52:22, 13.90s/it]
+2025-10-06 18:26:44 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▎                       | 1604/2088 [3:18:13<1:35:42, 11.86s/it]
+2025-10-06 18:26:44 - ERROR - stderr - 
+2025-10-06 18:26:44 - ERROR - stderr - 
+2025-10-06 18:26:44 - INFO - stdout - {'loss': 1.094, 'learning_rate': 0.00013445543354536317, 'epoch': 4.61}
+2025-10-06 18:26:44 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▎                       | 1604/2088 [3:18:13<1:35:42, 11.86s/it]
+2025-10-06 18:26:51 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▍                       | 1605/2088 [3:18:20<1:23:57, 10.43s/it]
+2025-10-06 18:26:51 - ERROR - stderr - 
+2025-10-06 18:26:51 - ERROR - stderr - 
+2025-10-06 18:26:51 - INFO - stdout - {'loss': 0.975, 'learning_rate': 0.00013392662625412487, 'epoch': 4.61}
+2025-10-06 18:26:51 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▍                       | 1605/2088 [3:18:20<1:23:57, 10.43s/it]
+2025-10-06 18:26:59 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▍                       | 1606/2088 [3:18:27<1:16:53,  9.57s/it]
+2025-10-06 18:26:59 - ERROR - stderr - 
+2025-10-06 18:26:59 - ERROR - stderr - 
+2025-10-06 18:26:59 - INFO - stdout - {'loss': 1.0161, 'learning_rate': 0.00013339870004775928, 'epoch': 4.61}
+2025-10-06 18:26:59 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▍                       | 1606/2088 [3:18:28<1:16:53,  9.57s/it]
+2025-10-06 18:27:06 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▌                       | 1607/2088 [3:18:34<1:10:06,  8.74s/it]
+2025-10-06 18:27:06 - ERROR - stderr - 
+2025-10-06 18:27:06 - ERROR - stderr - 
+2025-10-06 18:27:06 - INFO - stdout - {'loss': 0.9074, 'learning_rate': 0.00013287165619690723, 'epoch': 4.62}
+2025-10-06 18:27:06 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▌                       | 1607/2088 [3:18:34<1:10:06,  8.74s/it]
+2025-10-06 18:27:13 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▌                       | 1608/2088 [3:18:41<1:05:40,  8.21s/it]
+2025-10-06 18:27:13 - ERROR - stderr - 
+2025-10-06 18:27:13 - ERROR - stderr - 
+2025-10-06 18:27:13 - INFO - stdout - {'loss': 1.0114, 'learning_rate': 0.00013234549597008571, 'epoch': 4.62}
+2025-10-06 18:27:13 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▌                       | 1608/2088 [3:18:41<1:05:40,  8.21s/it]
+2025-10-06 18:27:20 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▌                       | 1609/2088 [3:18:48<1:03:03,  7.90s/it]
+2025-10-06 18:27:20 - ERROR - stderr - 
+2025-10-06 18:27:20 - ERROR - stderr - 
+2025-10-06 18:27:20 - INFO - stdout - {'loss': 1.0525, 'learning_rate': 0.00013182022063368536, 'epoch': 4.62}
+2025-10-06 18:27:20 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▌                       | 1609/2088 [3:18:48<1:03:03,  7.90s/it]
+2025-10-06 18:27:27 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▋                       | 1610/2088 [3:18:56<1:01:43,  7.75s/it]
+2025-10-06 18:27:27 - ERROR - stderr - 
+2025-10-06 18:27:27 - ERROR - stderr - 
+2025-10-06 18:27:27 - INFO - stdout - {'loss': 0.9935, 'learning_rate': 0.000131295831451967, 'epoch': 4.63}
+2025-10-06 18:27:27 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▋                       | 1610/2088 [3:18:56<1:01:43,  7.75s/it]
+2025-10-06 18:27:35 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▋                       | 1611/2088 [3:19:03<1:00:23,  7.60s/it]
+2025-10-06 18:27:35 - ERROR - stderr - 
+2025-10-06 18:27:35 - ERROR - stderr - 
+2025-10-06 18:27:35 - INFO - stdout - {'loss': 0.9387, 'learning_rate': 0.00013077232968705804, 'epoch': 4.63}
+2025-10-06 18:27:35 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████▋                       | 1611/2088 [3:19:03<1:00:23,  7.60s/it]
+2025-10-06 18:27:42 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▎                       | 1612/2088 [3:19:10<59:30,  7.50s/it]
+2025-10-06 18:27:42 - ERROR - stderr - 
+2025-10-06 18:27:42 - ERROR - stderr - 
+2025-10-06 18:27:42 - INFO - stdout - {'loss': 1.0169, 'learning_rate': 0.00013024971659895068, 'epoch': 4.63}
+2025-10-06 18:27:42 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▎                       | 1612/2088 [3:19:10<59:30,  7.50s/it]
+2025-10-06 18:27:49 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▎                       | 1613/2088 [3:19:17<58:20,  7.37s/it]
+2025-10-06 18:27:49 - ERROR - stderr - 
+2025-10-06 18:27:49 - ERROR - stderr - 
+2025-10-06 18:27:49 - INFO - stdout - {'loss': 1.0383, 'learning_rate': 0.0001297279934454978, 'epoch': 4.64}
+2025-10-06 18:27:49 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▎                       | 1613/2088 [3:19:17<58:20,  7.37s/it]
+2025-10-06 18:27:56 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▍                       | 1614/2088 [3:19:25<57:50,  7.32s/it]
+2025-10-06 18:27:56 - ERROR - stderr - 
+2025-10-06 18:27:56 - ERROR - stderr - 
+2025-10-06 18:27:56 - INFO - stdout - {'loss': 1.0292, 'learning_rate': 0.00012920716148241034, 'epoch': 4.64}
+2025-10-06 18:27:56 - ERROR - stderr -  77%|██████████████████████████████████████████████████████████████████████████████��█▍                       | 1614/2088 [3:19:25<57:50,  7.32s/it]
+2025-10-06 18:28:03 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▍                       | 1615/2088 [3:19:32<57:43,  7.32s/it]
+2025-10-06 18:28:03 - ERROR - stderr - 
+2025-10-06 18:28:03 - ERROR - stderr - 
+2025-10-06 18:28:03 - INFO - stdout - {'loss': 0.9401, 'learning_rate': 0.00012868722196325439, 'epoch': 4.64}
+2025-10-06 18:28:03 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▍                       | 1615/2088 [3:19:32<57:43,  7.32s/it]
+2025-10-06 18:28:11 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▍                       | 1616/2088 [3:19:40<58:43,  7.46s/it]
+2025-10-06 18:28:11 - ERROR - stderr - 
+2025-10-06 18:28:11 - ERROR - stderr - 
+2025-10-06 18:28:11 - INFO - stdout - {'loss': 1.0545, 'learning_rate': 0.0001281681761394481, 'epoch': 4.64}
+2025-10-06 18:28:11 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▍                       | 1616/2088 [3:19:40<58:43,  7.46s/it]
+2025-10-06 18:28:19 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▌                       | 1617/2088 [3:19:47<58:12,  7.41s/it]
+2025-10-06 18:28:19 - ERROR - stderr - 
+2025-10-06 18:28:19 - ERROR - stderr - 
+2025-10-06 18:28:19 - INFO - stdout - {'loss': 1.0926, 'learning_rate': 0.00012765002526025871, 'epoch': 4.65}
+2025-10-06 18:28:19 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▌                       | 1617/2088 [3:19:47<58:12,  7.41s/it]
+2025-10-06 18:28:26 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▌                       | 1618/2088 [3:19:54<57:21,  7.32s/it]
+2025-10-06 18:28:26 - ERROR - stderr - 
+2025-10-06 18:28:26 - ERROR - stderr - 
+2025-10-06 18:28:26 - INFO - stdout - {'loss': 1.0878, 'learning_rate': 0.0001271327705727991, 'epoch': 4.65}
+2025-10-06 18:28:26 - ERROR - stderr -  77%|████████████████████████████████████████████████████████████████████████████████▌                       | 1618/2088 [3:19:54<57:21,  7.32s/it]
+2025-10-06 18:28:33 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▋                       | 1619/2088 [3:20:01<57:07,  7.31s/it]
+2025-10-06 18:28:33 - ERROR - stderr - 
+2025-10-06 18:28:33 - ERROR - stderr - 
+2025-10-06 18:28:33 - INFO - stdout - {'loss': 0.9973, 'learning_rate': 0.00012661641332202555, 'epoch': 4.65}
+2025-10-06 18:28:33 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▋                       | 1619/2088 [3:20:01<57:07,  7.31s/it]
+2025-10-06 18:28:40 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▋                       | 1620/2088 [3:20:08<56:23,  7.23s/it]
+2025-10-06 18:28:40 - ERROR - stderr - 
+2025-10-06 18:28:40 - ERROR - stderr - 
+2025-10-06 18:28:40 - INFO - stdout - {'loss': 1.029, 'learning_rate': 0.00012610095475073412, 'epoch': 4.66}
+2025-10-06 18:28:40 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▋                       | 1620/2088 [3:20:08<56:23,  7.23s/it]
+2025-10-06 18:28:47 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▋                       | 1621/2088 [3:20:15<55:30,  7.13s/it]
+2025-10-06 18:28:47 - ERROR - stderr - 
+2025-10-06 18:28:47 - ERROR - stderr - 
+2025-10-06 18:28:47 - INFO - stdout - {'loss': 1.0018, 'learning_rate': 0.0001255863960995578, 'epoch': 4.66}
+2025-10-06 18:28:47 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▋                       | 1621/2088 [3:20:15<55:30,  7.13s/it]
+2025-10-06 18:28:54 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▊                       | 1622/2088 [3:20:23<55:48,  7.18s/it]
+2025-10-06 18:28:54 - ERROR - stderr - 
+2025-10-06 18:28:54 - ERROR - stderr - 
+2025-10-06 18:28:54 - INFO - stdout - {'loss': 0.9682, 'learning_rate': 0.0001250727386069639, 'epoch': 4.66}
+2025-10-06 18:28:54 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▊                       | 1622/2088 [3:20:23<55:48,  7.18s/it]
+2025-10-06 18:29:01 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▊                       | 1623/2088 [3:20:30<55:46,  7.20s/it]
+2025-10-06 18:29:01 - ERROR - stderr - 
+2025-10-06 18:29:01 - ERROR - stderr - 
+2025-10-06 18:29:01 - INFO - stdout - {'loss': 0.9893, 'learning_rate': 0.0001245599835092504, 'epoch': 4.66}
+2025-10-06 18:29:01 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▊                       | 1623/2088 [3:20:30<55:46,  7.20s/it]
+2025-10-06 18:29:09 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▉                       | 1624/2088 [3:20:37<56:01,  7.25s/it]
+2025-10-06 18:29:09 - ERROR - stderr - 
+2025-10-06 18:29:09 - ERROR - stderr - 
+2025-10-06 18:29:09 - INFO - stdout - {'loss': 0.9796, 'learning_rate': 0.00012404813204054384, 'epoch': 4.67}
+2025-10-06 18:29:09 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▉                       | 1624/2088 [3:20:37<56:01,  7.25s/it]
+2025-10-06 18:29:16 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▉                       | 1625/2088 [3:20:44<55:04,  7.14s/it]
+2025-10-06 18:29:16 - ERROR - stderr - 
+2025-10-06 18:29:16 - ERROR - stderr - 
+2025-10-06 18:29:16 - INFO - stdout - {'loss': 1.0412, 'learning_rate': 0.00012353718543279518, 'epoch': 4.67}
+2025-10-06 18:29:16 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▉                       | 1625/2088 [3:20:44<55:04,  7.14s/it]
+2025-10-06 18:29:23 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▉                       | 1626/2088 [3:20:51<55:18,  7.18s/it]
+2025-10-06 18:29:23 - ERROR - stderr - 
+2025-10-06 18:29:23 - ERROR - stderr - 
+2025-10-06 18:29:23 - INFO - stdout - {'loss': 0.9894, 'learning_rate': 0.00012302714491577832, 'epoch': 4.67}
+2025-10-06 18:29:23 - ERROR - stderr -  78%|████████████████████████████████████████████████████████████████████████████████▉                       | 1626/2088 [3:20:51<55:18,  7.18s/it]
+2025-10-06 18:29:30 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████                       | 1627/2088 [3:20:58<54:50,  7.14s/it]
+2025-10-06 18:29:30 - ERROR - stderr - 
+2025-10-06 18:29:30 - ERROR - stderr - 
+2025-10-06 18:29:30 - INFO - stdout - {'loss': 1.0269, 'learning_rate': 0.0001225180117170857, 'epoch': 4.68}
+2025-10-06 18:29:30 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████                       | 1627/2088 [3:20:58<54:50,  7.14s/it]
+2025-10-06 18:29:37 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████                       | 1628/2088 [3:21:06<55:06,  7.19s/it]
+2025-10-06 18:29:37 - ERROR - stderr - 
+2025-10-06 18:29:37 - ERROR - stderr - 
+2025-10-06 18:29:37 - INFO - stdout - {'loss': 1.0356, 'learning_rate': 0.00012200978706212606, 'epoch': 4.68}
+2025-10-06 18:29:37 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████                       | 1628/2088 [3:21:06<55:06,  7.19s/it]
+2025-10-06 18:29:44 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 1629/2088 [3:21:13<54:27,  7.12s/it]
+2025-10-06 18:29:44 - ERROR - stderr - 
+2025-10-06 18:29:44 - ERROR - stderr - 
+2025-10-06 18:29:44 - INFO - stdout - {'loss': 0.9937, 'learning_rate': 0.00012150247217412185, 'epoch': 4.68}
+2025-10-06 18:29:44 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 1629/2088 [3:21:13<54:27,  7.12s/it]
+2025-10-06 18:29:52 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 1630/2088 [3:21:20<55:03,  7.21s/it]
+2025-10-06 18:29:52 - ERROR - stderr - 
+2025-10-06 18:29:52 - ERROR - stderr - 
+2025-10-06 18:29:52 - INFO - stdout - {'loss': 0.9775, 'learning_rate': 0.00012099606827410519, 'epoch': 4.68}
+2025-10-06 18:29:52 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 1630/2088 [3:21:20<55:03,  7.21s/it]
+2025-10-06 18:29:59 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 1631/2088 [3:21:27<54:18,  7.13s/it]
+2025-10-06 18:29:59 - ERROR - stderr - 
+2025-10-06 18:29:59 - ERROR - stderr - 
+2025-10-06 18:29:59 - INFO - stdout - {'loss': 0.9847, 'learning_rate': 0.00012049057658091628, 'epoch': 4.69}
+2025-10-06 18:29:59 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 1631/2088 [3:21:27<54:18,  7.13s/it]
+2025-10-06 18:30:06 - ERROR - stderr -  78%|██��██████████████████████████████████████████████████████████████████████████████▎                      | 1632/2088 [3:21:34<54:26,  7.16s/it]
+2025-10-06 18:30:06 - ERROR - stderr - 
+2025-10-06 18:30:06 - ERROR - stderr - 
+2025-10-06 18:30:06 - INFO - stdout - {'loss': 0.9692, 'learning_rate': 0.00011998599831119911, 'epoch': 4.69}
+2025-10-06 18:30:06 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 1632/2088 [3:21:34<54:26,  7.16s/it]
+2025-10-06 18:30:13 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 1633/2088 [3:21:42<54:29,  7.18s/it]
+2025-10-06 18:30:13 - ERROR - stderr - 
+2025-10-06 18:30:13 - ERROR - stderr - 
+2025-10-06 18:30:13 - INFO - stdout - {'loss': 0.9249, 'learning_rate': 0.00011948233467939979, 'epoch': 4.69}
+2025-10-06 18:30:13 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 1633/2088 [3:21:42<54:29,  7.18s/it]
+2025-10-06 18:30:20 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 1634/2088 [3:21:49<53:59,  7.14s/it]
+2025-10-06 18:30:20 - ERROR - stderr - 
+2025-10-06 18:30:20 - ERROR - stderr - 
+2025-10-06 18:30:20 - INFO - stdout - {'loss': 1.0091, 'learning_rate': 0.00011897958689776255, 'epoch': 4.7}
+2025-10-06 18:30:20 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 1634/2088 [3:21:49<53:59,  7.14s/it]
+2025-10-06 18:30:27 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 1635/2088 [3:21:56<53:51,  7.13s/it]
+2025-10-06 18:30:27 - ERROR - stderr - 
+2025-10-06 18:30:27 - ERROR - stderr - 
+2025-10-06 18:30:27 - INFO - stdout - {'loss': 1.0236, 'learning_rate': 0.00011847775617632744, 'epoch': 4.7}
+2025-10-06 18:30:27 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 1635/2088 [3:21:56<53:51,  7.13s/it]
+2025-10-06 18:30:34 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 1636/2088 [3:22:03<53:19,  7.08s/it]
+2025-10-06 18:30:34 - ERROR - stderr - 
+2025-10-06 18:30:34 - ERROR - stderr - 
+2025-10-06 18:30:34 - INFO - stdout - {'loss': 0.9895, 'learning_rate': 0.00011797684372292761, 'epoch': 4.7}
+2025-10-06 18:30:34 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 1636/2088 [3:22:03<53:19,  7.08s/it]
+2025-10-06 18:30:41 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 1637/2088 [3:22:10<53:31,  7.12s/it]
+2025-10-06 18:30:41 - ERROR - stderr - 
+2025-10-06 18:30:41 - ERROR - stderr - 
+2025-10-06 18:30:41 - INFO - stdout - {'loss': 1.0237, 'learning_rate': 0.00011747685074318548, 'epoch': 4.7}
+2025-10-06 18:30:41 - ERROR - stderr -  78%|████████████████████████████���████████████████████████████████████████████████████▌                      | 1637/2088 [3:22:10<53:31,  7.12s/it]
+2025-10-06 18:30:48 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 1638/2088 [3:22:17<52:35,  7.01s/it]
+2025-10-06 18:30:48 - ERROR - stderr - 
+2025-10-06 18:30:48 - ERROR - stderr - 
+2025-10-06 18:30:48 - INFO - stdout - {'loss': 1.0812, 'learning_rate': 0.00011697777844051105, 'epoch': 4.71}
+2025-10-06 18:30:48 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 1638/2088 [3:22:17<52:35,  7.01s/it]
+2025-10-06 18:30:49 - INFO - stdout - [Warning] Zero or NaN encountered in pc_norm! pc_id: 87e8e5a7-0aae-571e-882e-0f8e926169d6
+2025-10-06 18:30:49 - INFO - stdout - m: [[0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]
+2025-10-06 18:30:49 - INFO - stdout -  [0.]]
+2025-10-06 18:30:56 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▋                      | 1639/2088 [3:22:24<53:37,  7.17s/it]
+2025-10-06 18:30:56 - ERROR - stderr - 
+2025-10-06 18:30:56 - ERROR - stderr - 
+2025-10-06 18:30:56 - INFO - stdout - {'loss': 0.9853, 'learning_rate': 0.00011647962801609785, 'epoch': 4.71}
+2025-10-06 18:30:56 - ERROR - stderr -  78%|█████████████████████████████████████████████████████████████████████████████████▋                      | 1639/2088 [3:22:24<53:37,  7.17s/it]
+2025-10-06 18:31:03 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 1640/2088 [3:22:32<53:57,  7.23s/it]
+2025-10-06 18:31:03 - ERROR - stderr - 
+2025-10-06 18:31:03 - ERROR - stderr - 
+2025-10-06 18:31:03 - INFO - stdout - {'loss': 1.0434, 'learning_rate': 0.00011598240066892102, 'epoch': 4.71}
+2025-10-06 18:31:03 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 1640/2088 [3:22:32<53:57,  7.23s/it]
+2025-10-06 18:31:10 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 1641/2088 [3:22:38<52:55,  7.10s/it]
+2025-10-06 18:31:10 - ERROR - stderr - 
+2025-10-06 18:31:10 - ERROR - stderr - 
+2025-10-06 18:31:10 - INFO - stdout - {'loss': 1.0248, 'learning_rate': 0.00011548609759573375, 'epoch': 4.72}
+2025-10-06 18:31:10 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 1641/2088 [3:22:38<52:55,  7.10s/it]
+2025-10-06 18:31:17 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 1642/2088 [3:22:46<53:43,  7.23s/it]
+2025-10-06 18:31:17 - ERROR - stderr - 
+2025-10-06 18:31:17 - ERROR - stderr - 
+2025-10-06 18:31:17 - INFO - stdout - {'loss': 1.0446, 'learning_rate': 0.00011499071999106447, 'epoch': 4.72}
+2025-10-06 18:31:17 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 1642/2088 [3:22:46<53:43,  7.23s/it]
+2025-10-06 18:31:24 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 1643/2088 [3:22:53<52:27,  7.07s/it]
+2025-10-06 18:31:24 - ERROR - stderr - 
+2025-10-06 18:31:24 - ERROR - stderr - 
+2025-10-06 18:31:24 - INFO - stdout - {'loss': 1.0608, 'learning_rate': 0.00011449626904721472, 'epoch': 4.72}
+2025-10-06 18:31:24 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 1643/2088 [3:22:53<52:27,  7.07s/it]
+2025-10-06 18:31:31 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▉                      | 1644/2088 [3:23:00<52:37,  7.11s/it]
+2025-10-06 18:31:31 - ERROR - stderr - 
+2025-10-06 18:31:31 - ERROR - stderr - 
+2025-10-06 18:31:31 - INFO - stdout - {'loss': 1.0188, 'learning_rate': 0.00011400274595425497, 'epoch': 4.72}
+2025-10-06 18:31:31 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▉                      | 1644/2088 [3:23:00<52:37,  7.11s/it]
+2025-10-06 18:31:39 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▉                      | 1645/2088 [3:23:07<53:13,  7.21s/it]
+2025-10-06 18:31:39 - ERROR - stderr - 
+2025-10-06 18:31:39 - ERROR - stderr - 
+2025-10-06 18:31:39 - INFO - stdout - {'loss': 1.0176, 'learning_rate': 0.00011351015190002317, 'epoch': 4.73}
+2025-10-06 18:31:39 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▉                      | 1645/2088 [3:23:07<53:13,  7.21s/it]
+2025-10-06 18:31:46 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▉                      | 1646/2088 [3:23:14<52:21,  7.11s/it]
+2025-10-06 18:31:46 - ERROR - stderr - 
+2025-10-06 18:31:46 - ERROR - stderr - 
+2025-10-06 18:31:46 - INFO - stdout - {'loss': 0.9966, 'learning_rate': 0.00011301848807012061, 'epoch': 4.73}
+2025-10-06 18:31:46 - ERROR - stderr -  79%|█████████████████████████████████████████████████████████████████████████████████▉                      | 1646/2088 [3:23:14<52:21,  7.11s/it]
+2025-10-06 18:31:53 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████                      | 1647/2088 [3:23:21<52:24,  7.13s/it]
+2025-10-06 18:31:53 - ERROR - stderr - 
+2025-10-06 18:31:53 - ERROR - stderr - 
+2025-10-06 18:31:53 - INFO - stdout - {'loss': 1.0143, 'learning_rate': 0.00011252775564791024, 'epoch': 4.73}
+2025-10-06 18:31:53 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████                      | 1647/2088 [3:23:21<52:24,  7.13s/it]
+2025-10-06 18:32:00 - ERROR - stderr -  79%|███████████████████████████████████████��██████████████████████████████████████████                      | 1648/2088 [3:23:28<52:06,  7.11s/it]
+2025-10-06 18:32:00 - ERROR - stderr - 
+2025-10-06 18:32:00 - ERROR - stderr - 
+2025-10-06 18:32:00 - INFO - stdout - {'loss': 0.9225, 'learning_rate': 0.00011203795581451288, 'epoch': 4.74}
+2025-10-06 18:32:00 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████                      | 1648/2088 [3:23:28<52:06,  7.11s/it]
+2025-10-06 18:32:07 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▏                     | 1649/2088 [3:23:35<51:58,  7.10s/it]
+2025-10-06 18:32:07 - ERROR - stderr - 
+2025-10-06 18:32:07 - ERROR - stderr - 
+2025-10-06 18:32:07 - INFO - stdout - {'loss': 1.1062, 'learning_rate': 0.00011154908974880456, 'epoch': 4.74}
+2025-10-06 18:32:07 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▏                     | 1649/2088 [3:23:35<51:58,  7.10s/it]
+2025-10-06 18:32:14 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▏                     | 1650/2088 [3:23:42<51:41,  7.08s/it]
+2025-10-06 18:32:14 - ERROR - stderr - 
+2025-10-06 18:32:14 - ERROR - stderr - 
+2025-10-06 18:32:14 - INFO - stdout - {'loss': 1.058, 'learning_rate': 0.00011106115862741456, 'epoch': 4.74}
+2025-10-06 18:32:14 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▏                     | 1650/2088 [3:23:42<51:41,  7.08s/it]
+2025-10-06 18:32:21 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▏                     | 1651/2088 [3:23:50<51:31,  7.08s/it]
+2025-10-06 18:32:21 - ERROR - stderr - 
+2025-10-06 18:32:21 - ERROR - stderr - 
+2025-10-06 18:32:21 - INFO - stdout - {'loss': 1.011, 'learning_rate': 0.00011057416362472111, 'epoch': 4.74}
+2025-10-06 18:32:21 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▏                     | 1651/2088 [3:23:50<51:31,  7.08s/it]
+2025-10-06 18:32:28 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▎                     | 1652/2088 [3:23:56<50:50,  7.00s/it]
+2025-10-06 18:32:28 - ERROR - stderr - 
+2025-10-06 18:32:28 - ERROR - stderr - 
+2025-10-06 18:32:28 - INFO - stdout - {'loss': 0.9559, 'learning_rate': 0.00011008810591284996, 'epoch': 4.75}
+2025-10-06 18:32:28 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▎                     | 1652/2088 [3:23:56<50:50,  7.00s/it]
+2025-10-06 18:32:35 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▎                     | 1653/2088 [3:24:03<51:03,  7.04s/it]
+2025-10-06 18:32:35 - ERROR - stderr - 
+2025-10-06 18:32:35 - ERROR - stderr - 
+2025-10-06 18:32:35 - INFO - stdout - {'loss': 1.0504, 'learning_rate': 0.0001096029866616704, 'epoch': 4.75}
+2025-10-06 18:32:35 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▎                     | 1653/2088 [3:24:04<51:03,  7.04s/it]
+2025-10-06 18:32:42 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▍                     | 1654/2088 [3:24:10<50:35,  6.99s/it]
+2025-10-06 18:32:42 - ERROR - stderr - 
+2025-10-06 18:32:42 - ERROR - stderr - 
+2025-10-06 18:32:42 - INFO - stdout - {'loss': 1.0179, 'learning_rate': 0.0001091188070387934, 'epoch': 4.75}
+2025-10-06 18:32:42 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▍                     | 1654/2088 [3:24:10<50:35,  6.99s/it]
+2025-10-06 18:32:49 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▍                     | 1655/2088 [3:24:17<50:39,  7.02s/it]
+2025-10-06 18:32:49 - ERROR - stderr - 
+2025-10-06 18:32:49 - ERROR - stderr - 
+2025-10-06 18:32:49 - INFO - stdout - {'loss': 0.989, 'learning_rate': 0.00010863556820956838, 'epoch': 4.76}
+2025-10-06 18:32:49 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▍                     | 1655/2088 [3:24:17<50:39,  7.02s/it]
+2025-10-06 18:32:56 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▍                     | 1656/2088 [3:24:25<50:49,  7.06s/it]
+2025-10-06 18:32:56 - ERROR - stderr - 
+2025-10-06 18:32:56 - ERROR - stderr - 
+2025-10-06 18:32:56 - INFO - stdout - {'loss': 1.0057, 'learning_rate': 0.00010815327133708014, 'epoch': 4.76}
+2025-10-06 18:32:56 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▍                     | 1656/2088 [3:24:25<50:49,  7.06s/it]
+2025-10-06 18:33:03 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▌                     | 1657/2088 [3:24:32<50:23,  7.02s/it]
+2025-10-06 18:33:03 - ERROR - stderr - 
+2025-10-06 18:33:03 - ERROR - stderr - 
+2025-10-06 18:33:03 - INFO - stdout - {'loss': 1.0254, 'learning_rate': 0.00010767191758214645, 'epoch': 4.76}
+2025-10-06 18:33:03 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▌                     | 1657/2088 [3:24:32<50:23,  7.02s/it]
+2025-10-06 18:33:10 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▌                     | 1658/2088 [3:24:39<50:18,  7.02s/it]
+2025-10-06 18:33:10 - ERROR - stderr - 
+2025-10-06 18:33:10 - ERROR - stderr - 
+2025-10-06 18:33:10 - INFO - stdout - {'loss': 1.0375, 'learning_rate': 0.00010719150810331497, 'epoch': 4.76}
+2025-10-06 18:33:10 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▌                     | 1658/2088 [3:24:39<50:18,  7.02s/it]
+2025-10-06 18:33:17 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▋                     | 1659/2088 [3:24:46<51:03,  7.14s/it]
+2025-10-06 18:33:17 - ERROR - stderr - 
+2025-10-06 18:33:17 - ERROR - stderr - 
+2025-10-06 18:33:17 - INFO - stdout - {'loss': 0.9745, 'learning_rate': 0.00010671204405686108, 'epoch': 4.77}
+2025-10-06 18:33:17 - ERROR - stderr -  79%|██████████████████████████████████████████████████████████████████████████████████▋                     | 1659/2088 [3:24:46<51:03,  7.14s/it]
+2025-10-06 18:33:25 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▋                     | 1660/2088 [3:24:53<51:34,  7.23s/it]
+2025-10-06 18:33:25 - ERROR - stderr - 
+2025-10-06 18:33:25 - ERROR - stderr - 
+2025-10-06 18:33:25 - INFO - stdout - {'loss': 1.0265, 'learning_rate': 0.00010623352659678415, 'epoch': 4.77}
+2025-10-06 18:33:25 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▋                     | 1660/2088 [3:24:53<51:34,  7.23s/it]
+2025-10-06 18:33:32 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▋                     | 1661/2088 [3:25:00<50:58,  7.16s/it]
+2025-10-06 18:33:32 - ERROR - stderr - 
+2025-10-06 18:33:32 - ERROR - stderr - 
+2025-10-06 18:33:32 - INFO - stdout - {'loss': 1.0628, 'learning_rate': 0.0001057559568748055, 'epoch': 4.77}
+2025-10-06 18:33:32 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▋                     | 1661/2088 [3:25:00<50:58,  7.16s/it]
+2025-10-06 18:33:39 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▊                     | 1662/2088 [3:25:07<50:12,  7.07s/it]
+2025-10-06 18:33:39 - ERROR - stderr - 
+2025-10-06 18:33:39 - ERROR - stderr - 
+2025-10-06 18:33:39 - INFO - stdout - {'loss': 1.0573, 'learning_rate': 0.00010527933604036549, 'epoch': 4.78}
+2025-10-06 18:33:39 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▊                     | 1662/2088 [3:25:07<50:12,  7.07s/it]
+2025-10-06 18:33:46 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▊                     | 1663/2088 [3:25:14<50:04,  7.07s/it]
+2025-10-06 18:33:46 - ERROR - stderr - 
+2025-10-06 18:33:46 - ERROR - stderr - 
+2025-10-06 18:33:46 - INFO - stdout - {'loss': 0.9569, 'learning_rate': 0.00010480366524062041, 'epoch': 4.78}
+2025-10-06 18:33:46 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▊                     | 1663/2088 [3:25:14<50:04,  7.07s/it]
+2025-10-06 18:33:53 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▉                     | 1664/2088 [3:25:21<49:27,  7.00s/it]
+2025-10-06 18:33:53 - ERROR - stderr - 
+2025-10-06 18:33:53 - ERROR - stderr - 
+2025-10-06 18:33:53 - INFO - stdout - {'loss': 1.0141, 'learning_rate': 0.00010432894562044005, 'epoch': 4.78}
+2025-10-06 18:33:53 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▉                     | 1664/2088 [3:25:21<49:27,  7.00s/it]
+2025-10-06 18:34:00 - ERROR - stderr -  80%|████████████████████████████████████████���█████████████████████████████████████████▉                     | 1665/2088 [3:25:28<49:40,  7.05s/it]
+2025-10-06 18:34:00 - ERROR - stderr - 
+2025-10-06 18:34:00 - ERROR - stderr - 
+2025-10-06 18:34:00 - INFO - stdout - {'loss': 0.9644, 'learning_rate': 0.00010385517832240471, 'epoch': 4.78}
+2025-10-06 18:34:00 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▉                     | 1665/2088 [3:25:28<49:40,  7.05s/it]
+2025-10-06 18:34:07 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▉                     | 1666/2088 [3:25:35<49:12,  7.00s/it]
+2025-10-06 18:34:07 - ERROR - stderr - 
+2025-10-06 18:34:07 - ERROR - stderr - 
+2025-10-06 18:34:07 - INFO - stdout - {'loss': 1.0343, 'learning_rate': 0.00010338236448680282, 'epoch': 4.79}
+2025-10-06 18:34:07 - ERROR - stderr -  80%|██████████████████████████████████████████████████████████████████████████████████▉                     | 1666/2088 [3:25:35<49:12,  7.00s/it]
+2025-10-06 18:34:14 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████                     | 1667/2088 [3:25:42<49:22,  7.04s/it]
+2025-10-06 18:34:14 - ERROR - stderr - 
+2025-10-06 18:34:14 - ERROR - stderr - 
+2025-10-06 18:34:14 - INFO - stdout - {'loss': 0.9983, 'learning_rate': 0.0001029105052516281, 'epoch': 4.79}
+2025-10-06 18:34:14 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████                     | 1667/2088 [3:25:42<49:22,  7.04s/it]
+2025-10-06 18:34:21 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████                     | 1668/2088 [3:25:49<48:50,  6.98s/it]
+2025-10-06 18:34:21 - ERROR - stderr - 
+2025-10-06 18:34:21 - ERROR - stderr - 
+2025-10-06 18:34:21 - INFO - stdout - {'loss': 0.9353, 'learning_rate': 0.00010243960175257604, 'epoch': 4.79}
+2025-10-06 18:34:21 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████                     | 1668/2088 [3:25:49<48:50,  6.98s/it]
+2025-10-06 18:34:28 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▏                    | 1669/2088 [3:25:56<48:35,  6.96s/it]
+2025-10-06 18:34:28 - ERROR - stderr - 
+2025-10-06 18:34:28 - ERROR - stderr - 
+2025-10-06 18:34:28 - INFO - stdout - {'loss': 1.0014, 'learning_rate': 0.00010196965512304269, 'epoch': 4.8}
+2025-10-06 18:34:28 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▏                    | 1669/2088 [3:25:56<48:35,  6.96s/it]
+2025-10-06 18:34:35 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▏                    | 1670/2088 [3:26:03<49:13,  7.07s/it]
+2025-10-06 18:34:35 - ERROR - stderr - 
+2025-10-06 18:34:35 - ERROR - stderr - 
+2025-10-06 18:34:35 - INFO - stdout - {'loss': 1.0189, 'learning_rate': 0.00010150066649412038, 'epoch': 4.8}
+2025-10-06 18:34:35 - ERROR - stderr -  80%|████████████████████████████████████████████████████████���██████████████████████████▏                    | 1670/2088 [3:26:03<49:13,  7.07s/it]
+2025-10-06 18:34:42 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▏                    | 1671/2088 [3:26:10<48:27,  6.97s/it]
+2025-10-06 18:34:42 - ERROR - stderr - 
+2025-10-06 18:34:42 - ERROR - stderr - 
+2025-10-06 18:34:42 - INFO - stdout - {'loss': 0.9749, 'learning_rate': 0.00010103263699459569, 'epoch': 4.8}
+2025-10-06 18:34:42 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▏                    | 1671/2088 [3:26:10<48:27,  6.97s/it]
+2025-10-06 18:34:49 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▎                    | 1672/2088 [3:26:17<48:37,  7.01s/it]
+2025-10-06 18:34:49 - ERROR - stderr - 
+2025-10-06 18:34:49 - ERROR - stderr - 
+2025-10-06 18:34:49 - INFO - stdout - {'loss': 1.02, 'learning_rate': 0.00010056556775094733, 'epoch': 4.8}
+2025-10-06 18:34:49 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▎                    | 1672/2088 [3:26:17<48:37,  7.01s/it]
+2025-10-06 18:34:56 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▎                    | 1673/2088 [3:26:24<48:22,  6.99s/it]
+2025-10-06 18:34:56 - ERROR - stderr - 
+2025-10-06 18:34:56 - ERROR - stderr - 
+2025-10-06 18:34:56 - INFO - stdout - {'loss': 0.9624, 'learning_rate': 0.00010009945988734204, 'epoch': 4.81}
+2025-10-06 18:34:56 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▎                    | 1673/2088 [3:26:24<48:22,  6.99s/it]
+2025-10-06 18:35:03 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▍                    | 1674/2088 [3:26:31<48:23,  7.01s/it]
+2025-10-06 18:35:03 - ERROR - stderr - 
+2025-10-06 18:35:03 - ERROR - stderr - 
+2025-10-06 18:35:03 - INFO - stdout - {'loss': 0.9888, 'learning_rate': 9.963431452563332e-05, 'epoch': 4.81}
+2025-10-06 18:35:03 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▍                    | 1674/2088 [3:26:31<48:23,  7.01s/it]
+2025-10-06 18:35:10 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▍                    | 1675/2088 [3:26:39<48:41,  7.07s/it]
+2025-10-06 18:35:10 - ERROR - stderr - 
+2025-10-06 18:35:10 - ERROR - stderr - 
+2025-10-06 18:35:10 - INFO - stdout - {'loss': 1.0222, 'learning_rate': 9.917013278535747e-05, 'epoch': 4.81}
+2025-10-06 18:35:10 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▍                    | 1675/2088 [3:26:39<48:41,  7.07s/it]
+2025-10-06 18:35:18 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▍                    | 1676/2088 [3:26:46<49:40,  7.23s/it]
+2025-10-06 18:35:18 - ERROR - stderr - 
+2025-10-06 18:35:18 - ERROR - stderr - 
+2025-10-06 18:35:18 - INFO - stdout - {'loss': 1.0423, 'learning_rate': 9.870691578373215e-05, 'epoch': 4.82}
+2025-10-06 18:35:18 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▍                    | 1676/2088 [3:26:46<49:40,  7.23s/it]
+2025-10-06 18:35:25 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▌                    | 1677/2088 [3:26:53<49:49,  7.27s/it]
+2025-10-06 18:35:25 - ERROR - stderr - 
+2025-10-06 18:35:25 - ERROR - stderr - 
+2025-10-06 18:35:25 - INFO - stdout - {'loss': 0.9822, 'learning_rate': 9.824466463565245e-05, 'epoch': 4.82}
+2025-10-06 18:35:25 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▌                    | 1677/2088 [3:26:53<49:49,  7.27s/it]
+2025-10-06 18:35:33 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▌                    | 1678/2088 [3:27:01<51:03,  7.47s/it]
+2025-10-06 18:35:33 - ERROR - stderr - 
+2025-10-06 18:35:33 - ERROR - stderr - 
+2025-10-06 18:35:33 - INFO - stdout - {'loss': 1.0418, 'learning_rate': 9.7783380453689e-05, 'epoch': 4.82}
+2025-10-06 18:35:33 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▌                    | 1678/2088 [3:27:01<51:03,  7.47s/it]
+2025-10-06 18:35:40 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▋                    | 1679/2088 [3:27:09<51:06,  7.50s/it]
+2025-10-06 18:35:40 - ERROR - stderr - 
+2025-10-06 18:35:40 - ERROR - stderr - 
+2025-10-06 18:35:40 - INFO - stdout - {'loss': 0.9372, 'learning_rate': 9.73230643480853e-05, 'epoch': 4.82}
+2025-10-06 18:35:40 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▋                    | 1679/2088 [3:27:09<51:06,  7.50s/it]
+2025-10-06 18:35:48 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▋                    | 1680/2088 [3:27:16<50:03,  7.36s/it]
+2025-10-06 18:35:48 - ERROR - stderr - 
+2025-10-06 18:35:48 - ERROR - stderr - 
+2025-10-06 18:35:48 - INFO - stdout - {'loss': 0.96, 'learning_rate': 9.686371742675442e-05, 'epoch': 4.83}
+2025-10-06 18:35:48 - ERROR - stderr -  80%|███████████████████████████████████████████████████████████████████████████████████▋                    | 1680/2088 [3:27:16<50:03,  7.36s/it]
+2025-10-06 18:35:54 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▋                    | 1681/2088 [3:27:23<49:05,  7.24s/it]
+2025-10-06 18:35:54 - ERROR - stderr - 
+2025-10-06 18:35:54 - ERROR - stderr - 
+2025-10-06 18:35:54 - INFO - stdout - {'loss': 1.0311, 'learning_rate': 9.640534079527718e-05, 'epoch': 4.83}
+2025-10-06 18:35:54 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▋                    | 1681/2088 [3:27:23<49:05,  7.24s/it]
+2025-10-06 18:36:02 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▊                    | 1682/2088 [3:27:30<49:00,  7.24s/it]
+2025-10-06 18:36:02 - ERROR - stderr - 
+2025-10-06 18:36:02 - ERROR - stderr - 
+2025-10-06 18:36:02 - INFO - stdout - {'loss': 0.9328, 'learning_rate': 9.594793555689868e-05, 'epoch': 4.83}
+2025-10-06 18:36:02 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▊                    | 1682/2088 [3:27:30<49:00,  7.24s/it]
+2025-10-06 18:36:09 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▊                    | 1683/2088 [3:27:37<48:12,  7.14s/it]
+2025-10-06 18:36:09 - ERROR - stderr - 
+2025-10-06 18:36:09 - ERROR - stderr - 
+2025-10-06 18:36:09 - INFO - stdout - {'loss': 0.998, 'learning_rate': 9.549150281252633e-05, 'epoch': 4.84}
+2025-10-06 18:36:09 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▊                    | 1683/2088 [3:27:37<48:12,  7.14s/it]
+2025-10-06 18:36:16 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▉                    | 1684/2088 [3:27:44<48:30,  7.20s/it]
+2025-10-06 18:36:16 - ERROR - stderr - 
+2025-10-06 18:36:16 - ERROR - stderr - 
+2025-10-06 18:36:16 - INFO - stdout - {'loss': 1.0283, 'learning_rate': 9.503604366072666e-05, 'epoch': 4.84}
+2025-10-06 18:36:16 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▉                    | 1684/2088 [3:27:44<48:30,  7.20s/it]
+2025-10-06 18:36:23 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▉                    | 1685/2088 [3:27:52<48:38,  7.24s/it]
+2025-10-06 18:36:23 - ERROR - stderr - 
+2025-10-06 18:36:23 - ERROR - stderr - 
+2025-10-06 18:36:23 - INFO - stdout - {'loss': 1.1128, 'learning_rate': 9.458155919772287e-05, 'epoch': 4.84}
+2025-10-06 18:36:23 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▉                    | 1685/2088 [3:27:52<48:38,  7.24s/it]
+2025-10-06 18:36:31 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▉                    | 1686/2088 [3:27:59<48:40,  7.26s/it]
+2025-10-06 18:36:31 - ERROR - stderr - 
+2025-10-06 18:36:31 - ERROR - stderr - 
+2025-10-06 18:36:31 - INFO - stdout - {'loss': 0.9606, 'learning_rate': 9.412805051739265e-05, 'epoch': 4.84}
+2025-10-06 18:36:31 - ERROR - stderr -  81%|███████████████████████████████████████████████████████████████████████████████████▉                    | 1686/2088 [3:27:59<48:40,  7.26s/it]
+2025-10-06 18:36:38 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████                    | 1687/2088 [3:28:06<47:46,  7.15s/it]
+2025-10-06 18:36:38 - ERROR - stderr - 
+2025-10-06 18:36:38 - ERROR - stderr - 
+2025-10-06 18:36:38 - INFO - stdout - {'loss': 0.9828, 'learning_rate': 9.367551871126445e-05, 'epoch': 4.85}
+2025-10-06 18:36:38 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████                    | 1687/2088 [3:28:06<47:46,  7.15s/it]
+2025-10-06 18:36:45 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████                    | 1688/2088 [3:28:13<47:31,  7.13s/it]
+2025-10-06 18:36:45 - ERROR - stderr - 
+2025-10-06 18:36:45 - ERROR - stderr - 
+2025-10-06 18:36:45 - INFO - stdout - {'loss': 1.083, 'learning_rate': 9.322396486851626e-05, 'epoch': 4.85}
+2025-10-06 18:36:45 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████                    | 1688/2088 [3:28:13<47:31,  7.13s/it]
+2025-10-06 18:36:52 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▏                   | 1689/2088 [3:28:20<47:41,  7.17s/it]
+2025-10-06 18:36:52 - ERROR - stderr - 
+2025-10-06 18:36:52 - ERROR - stderr - 
+2025-10-06 18:36:52 - INFO - stdout - {'loss': 0.9512, 'learning_rate': 9.277339007597158e-05, 'epoch': 4.85}
+2025-10-06 18:36:52 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▏                   | 1689/2088 [3:28:20<47:41,  7.17s/it]
+2025-10-06 18:36:59 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▏                   | 1690/2088 [3:28:27<47:20,  7.14s/it]
+2025-10-06 18:36:59 - ERROR - stderr - 
+2025-10-06 18:36:59 - ERROR - stderr - 
+2025-10-06 18:36:59 - INFO - stdout - {'loss': 0.9335, 'learning_rate': 9.23237954180981e-05, 'epoch': 4.86}
+2025-10-06 18:36:59 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▏                   | 1690/2088 [3:28:27<47:20,  7.14s/it]
+2025-10-06 18:37:06 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▏                   | 1691/2088 [3:28:35<47:25,  7.17s/it]
+2025-10-06 18:37:06 - ERROR - stderr - 
+2025-10-06 18:37:06 - ERROR - stderr - 
+2025-10-06 18:37:06 - INFO - stdout - {'loss': 1.0256, 'learning_rate': 9.187518197700395e-05, 'epoch': 4.86}
+2025-10-06 18:37:06 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▏                   | 1691/2088 [3:28:35<47:25,  7.17s/it]
+2025-10-06 18:37:14 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▎                   | 1692/2088 [3:28:42<47:55,  7.26s/it]
+2025-10-06 18:37:14 - ERROR - stderr - 
+2025-10-06 18:37:14 - ERROR - stderr - 
+2025-10-06 18:37:14 - INFO - stdout - {'loss': 1.0245, 'learning_rate': 9.142755083243575e-05, 'epoch': 4.86}
+2025-10-06 18:37:14 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▎                   | 1692/2088 [3:28:42<47:55,  7.26s/it]
+2025-10-06 18:37:21 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▎                   | 1693/2088 [3:28:49<47:20,  7.19s/it]
+2025-10-06 18:37:21 - ERROR - stderr - 
+2025-10-06 18:37:21 - ERROR - stderr - 
+2025-10-06 18:37:21 - INFO - stdout - {'loss': 0.9319, 'learning_rate': 9.098090306177625e-05, 'epoch': 4.86}
+2025-10-06 18:37:21 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▎                   | 1693/2088 [3:28:49<47:20,  7.19s/it]
+2025-10-06 18:37:28 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▍                   | 1694/2088 [3:28:56<47:24,  7.22s/it]
+2025-10-06 18:37:28 - ERROR - stderr - 
+2025-10-06 18:37:28 - ERROR - stderr - 
+2025-10-06 18:37:28 - INFO - stdout - {'loss': 0.9335, 'learning_rate': 9.053523974004074e-05, 'epoch': 4.87}
+2025-10-06 18:37:28 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▍                   | 1694/2088 [3:28:56<47:24,  7.22s/it]
+2025-10-06 18:37:35 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▍                   | 1695/2088 [3:29:03<46:22,  7.08s/it]
+2025-10-06 18:37:35 - ERROR - stderr - 
+2025-10-06 18:37:35 - ERROR - stderr - 
+2025-10-06 18:37:35 - INFO - stdout - {'loss': 0.9753, 'learning_rate': 9.00905619398757e-05, 'epoch': 4.87}
+2025-10-06 18:37:35 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▍                   | 1695/2088 [3:29:03<46:22,  7.08s/it]
+2025-10-06 18:37:42 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▍                   | 1696/2088 [3:29:11<47:05,  7.21s/it]
+2025-10-06 18:37:42 - ERROR - stderr - 
+2025-10-06 18:37:42 - ERROR - stderr - 
+2025-10-06 18:37:42 - INFO - stdout - {'loss': 0.9848, 'learning_rate': 8.964687073155508e-05, 'epoch': 4.87}
+2025-10-06 18:37:42 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▍                   | 1696/2088 [3:29:11<47:05,  7.21s/it]
+2025-10-06 18:37:50 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▌                   | 1697/2088 [3:29:18<47:48,  7.34s/it]
+2025-10-06 18:37:50 - ERROR - stderr - 
+2025-10-06 18:37:50 - ERROR - stderr - 
+2025-10-06 18:37:50 - INFO - stdout - {'loss': 1.0287, 'learning_rate': 8.920416718297875e-05, 'epoch': 4.88}
+2025-10-06 18:37:50 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▌                   | 1697/2088 [3:29:18<47:48,  7.34s/it]
+2025-10-06 18:37:57 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▌                   | 1698/2088 [3:29:25<47:12,  7.26s/it]
+2025-10-06 18:37:57 - ERROR - stderr - 
+2025-10-06 18:37:57 - ERROR - stderr - 
+2025-10-06 18:37:57 - INFO - stdout - {'loss': 1.0156, 'learning_rate': 8.876245235966885e-05, 'epoch': 4.88}
+2025-10-06 18:37:57 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▌                   | 1698/2088 [3:29:25<47:12,  7.26s/it]
+2025-10-06 18:38:04 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▌                   | 1699/2088 [3:29:32<46:25,  7.16s/it]
+2025-10-06 18:38:04 - ERROR - stderr - 
+2025-10-06 18:38:04 - ERROR - stderr - 
+2025-10-06 18:38:04 - INFO - stdout - {'loss': 0.9339, 'learning_rate': 8.83217273247684e-05, 'epoch': 4.88}
+2025-10-06 18:38:04 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▌                   | 1699/2088 [3:29:32<46:25,  7.16s/it]
+2025-10-06 18:38:11 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▋                   | 1700/2088 [3:29:39<45:34,  7.05s/it]
+2025-10-06 18:38:11 - ERROR - stderr - 
+2025-10-06 18:38:11 - ERROR - stderr - 
+2025-10-06 18:38:11 - INFO - stdout - {'loss': 1.0041, 'learning_rate': 8.788199313903777e-05, 'epoch': 4.89}
+2025-10-06 18:38:11 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▋                   | 1700/2088 [3:29:39<45:34,  7.05s/it]
+2025-10-06 18:38:18 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▋                   | 1701/2088 [3:29:46<45:16,  7.02s/it]
+2025-10-06 18:38:18 - ERROR - stderr - 
+2025-10-06 18:38:18 - ERROR - stderr - 
+2025-10-06 18:38:18 - INFO - stdout - {'loss': 0.9781, 'learning_rate': 8.744325086085247e-05, 'epoch': 4.89}
+2025-10-06 18:38:18 - ERROR - stderr -  81%|████████████████████████████████████████████████████████████████████████████████████▋                   | 1701/2088 [3:29:46<45:16,  7.02s/it]
+2025-10-06 18:38:25 - ERROR - stderr -  82%|████████████████████████████████████████████████████████████████████████████████████▊                   | 1702/2088 [3:29:53<45:07,  7.01s/it]
+2025-10-06 18:38:25 - ERROR - stderr - 
+2025-10-06 18:38:25 - ERROR - stderr - 
+2025-10-06 18:38:25 - INFO - stdout - {'loss': 1.0373, 'learning_rate': 8.70055015462009e-05, 'epoch': 4.89}
+2025-10-06 18:38:25 - ERROR - stderr -  82%|████████████████████████████████████████████████████████████████████████████████████▊                   | 1702/2088 [3:29:53<45:07,  7.01s/it]
+2025-10-06 18:38:32 - ERROR - stderr -  82%|████████████████████████████████████████████████████████████████████████████████████▊                   | 1703/2088 [3:30:00<45:19,  7.06s/it]
+2025-10-06 18:38:32 - ERROR - stderr - 
+2025-10-06 18:38:32 - ERROR - stderr - 
+2025-10-06 18:38:32 - INFO - stdout - {'loss': 1.0573, 'learning_rate': 8.656874624868133e-05, 'epoch': 4.89}
+2025-10-06 18:38:32 - ERROR - stderr -  82%|████████████████████████████████████████████████████████████████████████████████████▊                   | 1703/2088 [3:30:00<45:19,  7.06s/it]
+2025-10-06 18:38:39 - ERROR - stderr -  82%|████████████████████████████████████████████████████████████████████████████████████▊                   | 1704/2088 [3:30:08<45:46,  7.15s/it]
+2025-10-06 18:38:39 - ERROR - stderr - 
+2025-10-06 18:38:39 - ERROR - stderr - 
+2025-10-06 18:38:39 - INFO - stdout - {'loss': 1.0222, 'learning_rate': 8.61329860194997e-05, 'epoch': 4.9}
+2025-10-06 18:38:39 - ERROR - stderr -  82%|████████████████████████████████████████████████████████████████████████████████████▊                   | 1704/2088 [3:30:08<45:46,  7.15s/it]
+2025-10-06 18:38:46 - ERROR - stderr -  82%|████████████████████████████████████████████████████████████████████████████████████▉                   | 1705/2088 [3:30:15<45:23,  7.11s/it]
+2025-10-06 18:38:46 - ERROR - stderr - 
+2025-10-06 18:38:46 - ERROR - stderr - 
+2025-10-06 18:38:46 - INFO - stdout - {'loss': 0.8897, 'learning_rate': 8.569822190746684e-05, 'epoch': 4.9}
+2025-10-06 18:38:46 - ERROR - stderr -  82%|████████████████████████████████████████████████████████████████████████████████████▉                   | 1705/2088 [3:30:15<45:23,  7.11s/it]
+2025-10-06 18:38:53 - ERROR - stderr -  82%|████████████████████████████████████████████████████████████████████████████████████▉                   | 1706/2088 [3:30:22<44:55,  7.06s/it]
+2025-10-06 18:38:53 - ERROR - stderr - 
+2025-10-06 18:38:53 - ERROR - stderr - 
+2025-10-06 18:38:53 - INFO - stdout - {'loss': 1.0194, 'learning_rate': 8.526445495899626e-05, 'epoch': 4.9}
+2025-10-06 18:38:53 - ERROR - stderr -  82%|████████████████████████████████████████████████████████████████████████████████████▉                   | 1706/2088 [3:30:22<44:55,  7.06s/it]
+2025-10-06 18:39:01 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████                   | 1707/2088 [3:30:29<45:39,  7.19s/it]
+2025-10-06 18:39:01 - ERROR - stderr - 
+2025-10-06 18:39:01 - ERROR - stderr - 
+2025-10-06 18:39:01 - INFO - stdout - {'loss': 1.0474, 'learning_rate': 8.483168621810133e-05, 'epoch': 4.91}
+2025-10-06 18:39:01 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████                   | 1707/2088 [3:30:29<45:39,  7.19s/it]
+2025-10-06 18:39:08 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████                   | 1708/2088 [3:30:36<45:55,  7.25s/it]
+2025-10-06 18:39:08 - ERROR - stderr - 
+2025-10-06 18:39:08 - ERROR - stderr - 
+2025-10-06 18:39:08 - INFO - stdout - {'loss': 0.9225, 'learning_rate': 8.439991672639264e-05, 'epoch': 4.91}
+2025-10-06 18:39:08 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████                   | 1708/2088 [3:30:36<45:55,  7.25s/it]
+2025-10-06 18:39:16 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████                   | 1709/2088 [3:30:44<46:20,  7.34s/it]
+2025-10-06 18:39:16 - ERROR - stderr - 
+2025-10-06 18:39:16 - ERROR - stderr - 
+2025-10-06 18:39:16 - INFO - stdout - {'loss': 0.9818, 'learning_rate': 8.396914752307632e-05, 'epoch': 4.91}
+2025-10-06 18:39:16 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████                   | 1709/2088 [3:30:44<46:20,  7.34s/it]
+2025-10-06 18:39:23 - ERROR - stderr -  82%|██████████████████████████████████████████████████████████████████████���██████████████▏                  | 1710/2088 [3:30:51<46:06,  7.32s/it]
+2025-10-06 18:39:23 - ERROR - stderr - 
+2025-10-06 18:39:23 - ERROR - stderr - 
+2025-10-06 18:39:23 - INFO - stdout - {'loss': 1.0363, 'learning_rate': 8.353937964495028e-05, 'epoch': 4.91}
+2025-10-06 18:39:23 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▏                  | 1710/2088 [3:30:51<46:06,  7.32s/it]
+2025-10-06 18:39:30 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▏                  | 1711/2088 [3:30:58<45:37,  7.26s/it]
+2025-10-06 18:39:30 - ERROR - stderr - 
+2025-10-06 18:39:30 - ERROR - stderr - 
+2025-10-06 18:39:30 - INFO - stdout - {'loss': 0.9527, 'learning_rate': 8.311061412640286e-05, 'epoch': 4.92}
+2025-10-06 18:39:30 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▏                  | 1711/2088 [3:30:58<45:37,  7.26s/it]
+2025-10-06 18:39:37 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▎                  | 1712/2088 [3:31:06<45:47,  7.31s/it]
+2025-10-06 18:39:37 - ERROR - stderr - 
+2025-10-06 18:39:37 - ERROR - stderr - 
+2025-10-06 18:39:37 - INFO - stdout - {'loss': 0.9912, 'learning_rate': 8.268285199940989e-05, 'epoch': 4.92}
+2025-10-06 18:39:37 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▎                  | 1712/2088 [3:31:06<45:47,  7.31s/it]
+2025-10-06 18:39:44 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▎                  | 1713/2088 [3:31:13<45:24,  7.27s/it]
+2025-10-06 18:39:45 - ERROR - stderr - 
+2025-10-06 18:39:45 - ERROR - stderr - 
+2025-10-06 18:39:45 - INFO - stdout - {'loss': 0.9387, 'learning_rate': 8.225609429353187e-05, 'epoch': 4.92}
+2025-10-06 18:39:45 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▎                  | 1713/2088 [3:31:13<45:24,  7.27s/it]
+2025-10-06 18:39:51 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▎                  | 1714/2088 [3:31:20<44:25,  7.13s/it]
+2025-10-06 18:39:51 - ERROR - stderr - 
+2025-10-06 18:39:51 - ERROR - stderr - 
+2025-10-06 18:39:51 - INFO - stdout - {'loss': 1.0988, 'learning_rate': 8.183034203591189e-05, 'epoch': 4.93}
+2025-10-06 18:39:51 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▎                  | 1714/2088 [3:31:20<44:25,  7.13s/it]
+2025-10-06 18:39:58 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▍                  | 1715/2088 [3:31:27<43:45,  7.04s/it]
+2025-10-06 18:39:58 - ERROR - stderr - 
+2025-10-06 18:39:58 - ERROR - stderr - 
+2025-10-06 18:39:58 - INFO - stdout - {'loss': 0.9435, 'learning_rate': 8.140559625127308e-05, 'epoch': 4.93}
+2025-10-06 18:39:58 - ERROR - stderr -  82%|███████████████████████████████████████████████████████████████████���█████████████████▍                  | 1715/2088 [3:31:27<43:45,  7.04s/it]
+2025-10-06 18:40:05 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▍                  | 1716/2088 [3:31:34<43:27,  7.01s/it]
+2025-10-06 18:40:05 - ERROR - stderr - 
+2025-10-06 18:40:05 - ERROR - stderr - 
+2025-10-06 18:40:05 - INFO - stdout - {'loss': 1.0873, 'learning_rate': 8.098185796191632e-05, 'epoch': 4.93}
+2025-10-06 18:40:05 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▍                  | 1716/2088 [3:31:34<43:27,  7.01s/it]
+2025-10-06 18:40:12 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▌                  | 1717/2088 [3:31:41<43:50,  7.09s/it]
+2025-10-06 18:40:12 - ERROR - stderr - 
+2025-10-06 18:40:12 - ERROR - stderr - 
+2025-10-06 18:40:12 - INFO - stdout - {'loss': 0.9952, 'learning_rate': 8.05591281877176e-05, 'epoch': 4.93}
+2025-10-06 18:40:12 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▌                  | 1717/2088 [3:31:41<43:50,  7.09s/it]
+2025-10-06 18:40:19 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▌                  | 1718/2088 [3:31:48<43:11,  7.00s/it]
+2025-10-06 18:40:19 - ERROR - stderr - 
+2025-10-06 18:40:19 - ERROR - stderr - 
+2025-10-06 18:40:19 - INFO - stdout - {'loss': 1.0077, 'learning_rate': 8.013740794612512e-05, 'epoch': 4.94}
+2025-10-06 18:40:19 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▌                  | 1718/2088 [3:31:48<43:11,  7.00s/it]
+2025-10-06 18:40:26 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▌                  | 1719/2088 [3:31:55<43:21,  7.05s/it]
+2025-10-06 18:40:26 - ERROR - stderr - 
+2025-10-06 18:40:26 - ERROR - stderr - 
+2025-10-06 18:40:26 - INFO - stdout - {'loss': 1.0262, 'learning_rate': 7.971669825215788e-05, 'epoch': 4.94}
+2025-10-06 18:40:26 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▌                  | 1719/2088 [3:31:55<43:21,  7.05s/it]
+2025-10-06 18:40:33 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▋                  | 1720/2088 [3:32:02<43:22,  7.07s/it]
+2025-10-06 18:40:33 - ERROR - stderr - 
+2025-10-06 18:40:33 - ERROR - stderr - 
+2025-10-06 18:40:33 - INFO - stdout - {'loss': 0.9791, 'learning_rate': 7.929700011840225e-05, 'epoch': 4.94}
+2025-10-06 18:40:33 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▋                  | 1720/2088 [3:32:02<43:22,  7.07s/it]
+2025-10-06 18:40:41 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▋                  | 1721/2088 [3:32:09<43:27,  7.11s/it]
+2025-10-06 18:40:41 - ERROR - stderr - 
+2025-10-06 18:40:41 - ERROR - stderr - 
+2025-10-06 18:40:41 - INFO - stdout - {'loss': 0.9691, 'learning_rate': 7.887831455501e-05, 'epoch': 4.95}
+2025-10-06 18:40:41 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▋                  | 1721/2088 [3:32:09<43:27,  7.11s/it]
+2025-10-06 18:40:47 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▊                  | 1722/2088 [3:32:16<42:44,  7.01s/it]
+2025-10-06 18:40:47 - ERROR - stderr - 
+2025-10-06 18:40:47 - ERROR - stderr - 
+2025-10-06 18:40:47 - INFO - stdout - {'loss': 1.0514, 'learning_rate': 7.846064256969571e-05, 'epoch': 4.95}
+2025-10-06 18:40:47 - ERROR - stderr -  82%|█████████████████████████████████████████████████████████████████████████████████████▊                  | 1722/2088 [3:32:16<42:44,  7.01s/it]
+2025-10-06 18:40:55 - ERROR - stderr -  83%|█████████████████████████████████████████████████████████████████████████████████████▊                  | 1723/2088 [3:32:23<42:54,  7.05s/it]
+2025-10-06 18:40:55 - ERROR - stderr - 
+2025-10-06 18:40:55 - ERROR - stderr - 
+2025-10-06 18:40:55 - INFO - stdout - {'loss': 0.9704, 'learning_rate': 7.804398516773465e-05, 'epoch': 4.95}
+2025-10-06 18:40:55 - ERROR - stderr -  83%|█████████████████████████████████████████████████████████████████████████████████████▊                  | 1723/2088 [3:32:23<42:54,  7.05s/it]
+2025-10-06 18:41:02 - ERROR - stderr -  83%|█████████████████████████████████████████████████████████████████████████████████████▊                  | 1724/2088 [3:32:30<42:45,  7.05s/it]
+2025-10-06 18:41:02 - ERROR - stderr - 
+2025-10-06 18:41:02 - ERROR - stderr - 
+2025-10-06 18:41:02 - INFO - stdout - {'loss': 1.0219, 'learning_rate': 7.762834335196011e-05, 'epoch': 4.95}
+2025-10-06 18:41:02 - ERROR - stderr -  83%|█████████████████████████████████████████████████████████████████████████████████████▊                  | 1724/2088 [3:32:30<42:45,  7.05s/it]
+2025-10-06 18:41:08 - ERROR - stderr -  83%|█████████████████████████████████████████████████████████████████████████████████████▉                  | 1725/2088 [3:32:37<42:18,  6.99s/it]
+2025-10-06 18:41:08 - ERROR - stderr - 
+2025-10-06 18:41:08 - ERROR - stderr - 
+2025-10-06 18:41:08 - INFO - stdout - {'loss': 0.8953, 'learning_rate': 7.72137181227608e-05, 'epoch': 4.96}
+2025-10-06 18:41:08 - ERROR - stderr -  83%|█████████████████████████████████████████████████████████████████████████████████████▉                  | 1725/2088 [3:32:37<42:18,  6.99s/it]
+2025-10-06 18:41:15 - ERROR - stderr -  83%|█████████████████████████████████████████████████████████████████████████████████████▉                  | 1726/2088 [3:32:44<42:14,  7.00s/it]
+2025-10-06 18:41:15 - ERROR - stderr - 
+2025-10-06 18:41:15 - ERROR - stderr - 
+2025-10-06 18:41:15 - INFO - stdout - {'loss': 0.9811, 'learning_rate': 7.680011047807894e-05, 'epoch': 4.96}
+2025-10-06 18:41:15 - ERROR - stderr -  83%|█████████████████████████████████████████████████████████████████████████████████████▉                  | 1726/2088 [3:32:44<42:14,  7.00s/it]
+2025-10-06 18:41:23 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████                  | 1727/2088 [3:32:51<42:51,  7.12s/it]
+2025-10-06 18:41:23 - ERROR - stderr - 
+2025-10-06 18:41:23 - ERROR - stderr - 
+2025-10-06 18:41:23 - INFO - stdout - {'loss': 1.0684, 'learning_rate': 7.638752141340727e-05, 'epoch': 4.96}
+2025-10-06 18:41:23 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████                  | 1727/2088 [3:32:51<42:51,  7.12s/it]
+2025-10-06 18:41:30 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████                  | 1728/2088 [3:32:58<42:11,  7.03s/it]
+2025-10-06 18:41:30 - ERROR - stderr - 
+2025-10-06 18:41:30 - ERROR - stderr - 
+2025-10-06 18:41:30 - INFO - stdout - {'loss': 0.9359, 'learning_rate': 7.597595192178702e-05, 'epoch': 4.97}
+2025-10-06 18:41:30 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████                  | 1728/2088 [3:32:58<42:11,  7.03s/it]
+2025-10-06 18:41:37 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████                  | 1729/2088 [3:33:05<41:39,  6.96s/it]
+2025-10-06 18:41:37 - ERROR - stderr - 
+2025-10-06 18:41:37 - ERROR - stderr - 
+2025-10-06 18:41:37 - INFO - stdout - {'loss': 1.0265, 'learning_rate': 7.556540299380576e-05, 'epoch': 4.97}
+2025-10-06 18:41:37 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████                  | 1729/2088 [3:33:05<41:39,  6.96s/it]
+2025-10-06 18:41:43 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 1730/2088 [3:33:12<41:19,  6.93s/it]
+2025-10-06 18:41:43 - ERROR - stderr - 
+2025-10-06 18:41:43 - ERROR - stderr - 
+2025-10-06 18:41:43 - INFO - stdout - {'loss': 0.9795, 'learning_rate': 7.51558756175943e-05, 'epoch': 4.97}
+2025-10-06 18:41:43 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 1730/2088 [3:33:12<41:19,  6.93s/it]
+2025-10-06 18:41:50 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 1731/2088 [3:33:19<41:08,  6.91s/it]
+2025-10-06 18:41:50 - ERROR - stderr - 
+2025-10-06 18:41:50 - ERROR - stderr - 
+2025-10-06 18:41:50 - INFO - stdout - {'loss': 1.0276, 'learning_rate': 7.474737077882509e-05, 'epoch': 4.97}
+2025-10-06 18:41:50 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 1731/2088 [3:33:19<41:08,  6.91s/it]
+2025-10-06 18:41:57 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 1732/2088 [3:33:26<41:06,  6.93s/it]
+2025-10-06 18:41:57 - ERROR - stderr - 
+2025-10-06 18:41:57 - ERROR - stderr - 
+2025-10-06 18:41:57 - INFO - stdout - {'loss': 0.9125, 'learning_rate': 7.433988946070913e-05, 'epoch': 4.98}
+2025-10-06 18:41:57 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 1732/2088 [3:33:26<41:06,  6.93s/it]
+2025-10-06 18:42:05 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 1733/2088 [3:33:33<41:48,  7.07s/it]
+2025-10-06 18:42:05 - ERROR - stderr - 
+2025-10-06 18:42:05 - ERROR - stderr - 
+2025-10-06 18:42:05 - INFO - stdout - {'loss': 1.002, 'learning_rate': 7.393343264399439e-05, 'epoch': 4.98}
+2025-10-06 18:42:05 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 1733/2088 [3:33:33<41:48,  7.07s/it]
+2025-10-06 18:42:12 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 1734/2088 [3:33:41<42:34,  7.22s/it]
+2025-10-06 18:42:12 - ERROR - stderr - 
+2025-10-06 18:42:12 - ERROR - stderr - 
+2025-10-06 18:42:12 - INFO - stdout - {'loss': 0.9894, 'learning_rate': 7.352800130696252e-05, 'epoch': 4.98}
+2025-10-06 18:42:12 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 1734/2088 [3:33:41<42:34,  7.22s/it]
+2025-10-06 18:42:20 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 1735/2088 [3:33:48<43:15,  7.35s/it]
+2025-10-06 18:42:20 - ERROR - stderr - 
+2025-10-06 18:42:20 - ERROR - stderr - 
+2025-10-06 18:42:20 - INFO - stdout - {'loss': 1.0343, 'learning_rate': 7.312359642542726e-05, 'epoch': 4.99}
+2025-10-06 18:42:20 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 1735/2088 [3:33:48<43:15,  7.35s/it]
+2025-10-06 18:42:27 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 1736/2088 [3:33:56<43:00,  7.33s/it]
+2025-10-06 18:42:27 - ERROR - stderr - 
+2025-10-06 18:42:27 - ERROR - stderr - 
+2025-10-06 18:42:27 - INFO - stdout - {'loss': 0.9613, 'learning_rate': 7.272021897273195e-05, 'epoch': 4.99}
+2025-10-06 18:42:27 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 1736/2088 [3:33:56<43:00,  7.33s/it]
+2025-10-06 18:42:34 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 1737/2088 [3:34:03<42:22,  7.24s/it]
+2025-10-06 18:42:34 - ERROR - stderr - 
+2025-10-06 18:42:34 - ERROR - stderr - 
+2025-10-06 18:42:34 - INFO - stdout - {'loss': 0.9587, 'learning_rate': 7.23178699197467e-05, 'epoch': 4.99}
+2025-10-06 18:42:34 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 1737/2088 [3:34:03<42:22,  7.24s/it]
+2025-10-06 18:42:41 - ERROR - stderr -  83%|███████████████████████████████████████████████████████��██████████████████████████████▌                 | 1738/2088 [3:34:10<41:48,  7.17s/it]
+2025-10-06 18:42:41 - ERROR - stderr - 
+2025-10-06 18:42:41 - ERROR - stderr - 
+2025-10-06 18:42:41 - INFO - stdout - {'loss': 1.0677, 'learning_rate': 7.191655023486682e-05, 'epoch': 4.99}
+2025-10-06 18:42:41 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 1738/2088 [3:34:10<41:48,  7.17s/it]
+2025-10-06 18:42:48 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 1739/2088 [3:34:17<41:56,  7.21s/it]
+2025-10-06 18:42:48 - ERROR - stderr - 
+2025-10-06 18:42:48 - ERROR - stderr - 
+2025-10-06 18:42:48 - INFO - stdout - {'loss': 0.9901, 'learning_rate': 7.151626088400964e-05, 'epoch': 5.0}
+2025-10-06 18:42:48 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 1739/2088 [3:34:17<41:56,  7.21s/it]
+2025-10-06 18:42:52 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 1740/2088 [3:34:21<35:46,  6.17s/it]
+2025-10-06 18:42:52 - ERROR - stderr - 
+2025-10-06 18:42:52 - ERROR - stderr - 
+2025-10-06 18:42:52 - INFO - stdout - {'loss': 1.0125, 'learning_rate': 7.111700283061318e-05, 'epoch': 5.0}
+2025-10-06 18:42:52 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 1740/2088 [3:34:21<35:46,  6.17s/it]
+2025-10-06 18:42:59 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 1741/2088 [3:34:28<37:01,  6.40s/it]
+2025-10-06 18:42:59 - ERROR - stderr - 
+2025-10-06 18:42:59 - ERROR - stderr - 
+2025-10-06 18:42:59 - INFO - stdout - {'loss': 0.9592, 'learning_rate': 7.071877703563279e-05, 'epoch': 5.0}
+2025-10-06 18:42:59 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 1741/2088 [3:34:28<37:01,  6.40s/it]
+2025-10-06 18:43:06 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 1742/2088 [3:34:35<37:51,  6.56s/it]
+2025-10-06 18:43:06 - ERROR - stderr - 
+2025-10-06 18:43:06 - ERROR - stderr - 
+2025-10-06 18:43:06 - INFO - stdout - {'loss': 0.9172, 'learning_rate': 7.032158445753934e-05, 'epoch': 5.01}
+2025-10-06 18:43:06 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 1742/2088 [3:34:35<37:51,  6.56s/it]
+2025-10-06 18:43:13 - ERROR - stderr -  83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 1743/2088 [3:34:42<38:35,  6.71s/it]
+2025-10-06 18:43:13 - ERROR - stderr - 
+2025-10-06 18:43:13 - ERROR - stderr - 
+2025-10-06 18:43:13 - INFO - stdout - {'loss': 0.9306, 'learning_rate': 6.992542605231739e-05, 'epoch': 5.01}
+2025-10-06 18:43:13 - ERROR - stderr -  83%|██████████████████████████████████████████████���███████████████████████████████████████▊                 | 1743/2088 [3:34:42<38:35,  6.71s/it]
+2025-10-06 18:43:20 - ERROR - stderr -  84%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 1744/2088 [3:34:49<39:06,  6.82s/it]
+2025-10-06 18:43:20 - ERROR - stderr - 
+2025-10-06 18:43:20 - ERROR - stderr - 
+2025-10-06 18:43:20 - INFO - stdout - {'loss': 0.8882, 'learning_rate': 6.953030277346179e-05, 'epoch': 5.01}
+2025-10-06 18:43:20 - ERROR - stderr -  84%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 1744/2088 [3:34:49<39:06,  6.82s/it]
+2025-10-06 18:43:27 - ERROR - stderr -  84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 1745/2088 [3:34:56<39:27,  6.90s/it]
+2025-10-06 18:43:27 - ERROR - stderr - 
+2025-10-06 18:43:27 - ERROR - stderr - 
+2025-10-06 18:43:27 - INFO - stdout - {'loss': 0.9011, 'learning_rate': 6.913621557197647e-05, 'epoch': 5.01}
+2025-10-06 18:43:27 - ERROR - stderr -  84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 1745/2088 [3:34:56<39:27,  6.90s/it]
+2025-10-06 18:43:34 - ERROR - stderr -  84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 1746/2088 [3:35:03<39:10,  6.87s/it]
+2025-10-06 18:43:34 - ERROR - stderr - 
+2025-10-06 18:43:34 - ERROR - stderr - 
+2025-10-06 18:43:34 - INFO - stdout - {'loss': 1.036, 'learning_rate': 6.874316539637127e-05, 'epoch': 5.02}
+2025-10-06 18:43:34 - ERROR - stderr -  84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 1746/2088 [3:35:03<39:10,  6.87s/it]
+2025-10-06 18:43:41 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████                 | 1747/2088 [3:35:10<39:39,  6.98s/it]
+2025-10-06 18:43:41 - ERROR - stderr - 
+2025-10-06 18:43:41 - ERROR - stderr - 
+2025-10-06 18:43:41 - INFO - stdout - {'loss': 0.9104, 'learning_rate': 6.83511531926605e-05, 'epoch': 5.02}
+2025-10-06 18:43:41 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████                 | 1747/2088 [3:35:10<39:39,  6.98s/it]
+2025-10-06 18:43:49 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████                 | 1748/2088 [3:35:17<40:00,  7.06s/it]
+2025-10-06 18:43:49 - ERROR - stderr - 
+2025-10-06 18:43:49 - ERROR - stderr - 
+2025-10-06 18:43:49 - INFO - stdout - {'loss': 0.9247, 'learning_rate': 6.796017990435977e-05, 'epoch': 5.02}
+2025-10-06 18:43:49 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████                 | 1748/2088 [3:35:17<40:00,  7.06s/it]
+2025-10-06 18:43:55 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████                 | 1749/2088 [3:35:24<39:19,  6.96s/it]
+2025-10-06 18:43:55 - ERROR - stderr - 
+2025-10-06 18:43:55 - ERROR - stderr - 
+2025-10-06 18:43:55 - INFO - stdout - {'loss': 0.9631, 'learning_rate': 6.757024647248456e-05, 'epoch': 5.03}
+2025-10-06 18:43:55 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████                 | 1749/2088 [3:35:24<39:19,  6.96s/it]
+2025-10-06 18:44:03 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 1750/2088 [3:35:31<40:05,  7.12s/it]
+2025-10-06 18:44:03 - ERROR - stderr - 
+2025-10-06 18:44:03 - ERROR - stderr - 
+2025-10-06 18:44:03 - INFO - stdout - {'loss': 0.9637, 'learning_rate': 6.718135383554735e-05, 'epoch': 5.03}
+2025-10-06 18:44:03 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 1750/2088 [3:35:31<40:05,  7.12s/it]
+2025-10-06 18:44:10 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 1751/2088 [3:35:39<40:29,  7.21s/it]
+2025-10-06 18:44:10 - ERROR - stderr - 
+2025-10-06 18:44:10 - ERROR - stderr - 
+2025-10-06 18:44:10 - INFO - stdout - {'loss': 0.943, 'learning_rate': 6.679350292955555e-05, 'epoch': 5.03}
+2025-10-06 18:44:10 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 1751/2088 [3:35:39<40:29,  7.21s/it]
+2025-10-06 18:44:18 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 1752/2088 [3:35:46<40:53,  7.30s/it]
+2025-10-06 18:44:18 - ERROR - stderr - 
+2025-10-06 18:44:18 - ERROR - stderr - 
+2025-10-06 18:44:18 - INFO - stdout - {'loss': 0.8809, 'learning_rate': 6.640669468800947e-05, 'epoch': 5.03}
+2025-10-06 18:44:18 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 1752/2088 [3:35:46<40:53,  7.30s/it]
+2025-10-06 18:44:25 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 1753/2088 [3:35:53<40:19,  7.22s/it]
+2025-10-06 18:44:25 - ERROR - stderr - 
+2025-10-06 18:44:25 - ERROR - stderr - 
+2025-10-06 18:44:25 - INFO - stdout - {'loss': 0.8902, 'learning_rate': 6.602093004189964e-05, 'epoch': 5.04}
+2025-10-06 18:44:25 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 1753/2088 [3:35:53<40:19,  7.22s/it]
+2025-10-06 18:44:32 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 1754/2088 [3:36:00<39:42,  7.13s/it]
+2025-10-06 18:44:32 - ERROR - stderr - 
+2025-10-06 18:44:32 - ERROR - stderr - 
+2025-10-06 18:44:32 - INFO - stdout - {'loss': 0.9265, 'learning_rate': 6.563620991970509e-05, 'epoch': 5.04}
+2025-10-06 18:44:32 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 1754/2088 [3:36:00<39:42,  7.13s/it]
+2025-10-06 18:44:39 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▍                | 1755/2088 [3:36:07<39:29,  7.12s/it]
+2025-10-06 18:44:39 - ERROR - stderr - 
+2025-10-06 18:44:39 - ERROR - stderr - 
+2025-10-06 18:44:39 - INFO - stdout - {'loss': 0.943, 'learning_rate': 6.52525352473905e-05, 'epoch': 5.04}
+2025-10-06 18:44:39 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▍                | 1755/2088 [3:36:07<39:29,  7.12s/it]
+2025-10-06 18:44:46 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▍                | 1756/2088 [3:36:14<39:32,  7.15s/it]
+2025-10-06 18:44:46 - ERROR - stderr - 
+2025-10-06 18:44:46 - ERROR - stderr - 
+2025-10-06 18:44:46 - INFO - stdout - {'loss': 0.8971, 'learning_rate': 6.486990694840466e-05, 'epoch': 5.05}
+2025-10-06 18:44:46 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▍                | 1756/2088 [3:36:14<39:32,  7.15s/it]
+2025-10-06 18:44:54 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▌                | 1757/2088 [3:36:22<40:09,  7.28s/it]
+2025-10-06 18:44:54 - ERROR - stderr - 
+2025-10-06 18:44:54 - ERROR - stderr - 
+2025-10-06 18:44:54 - INFO - stdout - {'loss': 0.9573, 'learning_rate': 6.448832594367764e-05, 'epoch': 5.05}
+2025-10-06 18:44:54 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▌                | 1757/2088 [3:36:22<40:09,  7.28s/it]
+2025-10-06 18:45:01 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▌                | 1758/2088 [3:36:29<39:47,  7.24s/it]
+2025-10-06 18:45:01 - ERROR - stderr - 
+2025-10-06 18:45:01 - ERROR - stderr - 
+2025-10-06 18:45:01 - INFO - stdout - {'loss': 0.9188, 'learning_rate': 6.410779315161885e-05, 'epoch': 5.05}
+2025-10-06 18:45:01 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▌                | 1758/2088 [3:36:29<39:47,  7.24s/it]
+2025-10-06 18:45:07 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▌                | 1759/2088 [3:36:36<38:49,  7.08s/it]
+2025-10-06 18:45:07 - ERROR - stderr - 
+2025-10-06 18:45:07 - ERROR - stderr - 
+2025-10-06 18:45:07 - INFO - stdout - {'loss': 0.8975, 'learning_rate': 6.372830948811498e-05, 'epoch': 5.05}
+2025-10-06 18:45:07 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▌                | 1759/2088 [3:36:36<38:49,  7.08s/it]
+2025-10-06 18:45:15 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▋                | 1760/2088 [3:36:43<38:47,  7.10s/it]
+2025-10-06 18:45:15 - ERROR - stderr - 
+2025-10-06 18:45:15 - ERROR - stderr - 
+2025-10-06 18:45:15 - INFO - stdout - {'loss': 0.8538, 'learning_rate': 6.33498758665273e-05, 'epoch': 5.06}
+2025-10-06 18:45:15 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▋                | 1760/2088 [3:36:43<38:47,  7.10s/it]
+2025-10-06 18:45:22 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▋                | 1761/2088 [3:36:51<39:15,  7.20s/it]
+2025-10-06 18:45:22 - ERROR - stderr - 
+2025-10-06 18:45:22 - ERROR - stderr - 
+2025-10-06 18:45:22 - INFO - stdout - {'loss': 0.9732, 'learning_rate': 6.297249319769016e-05, 'epoch': 5.06}
+2025-10-06 18:45:22 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▋                | 1761/2088 [3:36:51<39:15,  7.20s/it]
+2025-10-06 18:45:29 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▊                | 1762/2088 [3:36:58<39:02,  7.19s/it]
+2025-10-06 18:45:29 - ERROR - stderr - 
+2025-10-06 18:45:29 - ERROR - stderr - 
+2025-10-06 18:45:29 - INFO - stdout - {'loss': 0.9005, 'learning_rate': 6.259616238990828e-05, 'epoch': 5.06}
+2025-10-06 18:45:29 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▊                | 1762/2088 [3:36:58<39:02,  7.19s/it]
+2025-10-06 18:45:36 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▊                | 1763/2088 [3:37:04<38:03,  7.02s/it]
+2025-10-06 18:45:36 - ERROR - stderr - 
+2025-10-06 18:45:36 - ERROR - stderr - 
+2025-10-06 18:45:36 - INFO - stdout - {'loss': 0.9439, 'learning_rate': 6.222088434895462e-05, 'epoch': 5.07}
+2025-10-06 18:45:36 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▊                | 1763/2088 [3:37:04<38:03,  7.02s/it]
+2025-10-06 18:45:43 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▊                | 1764/2088 [3:37:12<38:18,  7.10s/it]
+2025-10-06 18:45:43 - ERROR - stderr - 
+2025-10-06 18:45:43 - ERROR - stderr - 
+2025-10-06 18:45:43 - INFO - stdout - {'loss': 0.816, 'learning_rate': 6.184665997806832e-05, 'epoch': 5.07}
+2025-10-06 18:45:43 - ERROR - stderr -  84%|███████████████████████████████████████████████████████████████████████████████████████▊                | 1764/2088 [3:37:12<38:18,  7.10s/it]
+2025-10-06 18:45:50 - ERROR - stderr -  85%|███████████████████████████████████████████████████████████████████████████████████████▉                | 1765/2088 [3:37:19<38:18,  7.12s/it]
+2025-10-06 18:45:50 - ERROR - stderr - 
+2025-10-06 18:45:50 - ERROR - stderr - 
+2025-10-06 18:45:50 - INFO - stdout - {'loss': 0.8825, 'learning_rate': 6.147349017795235e-05, 'epoch': 5.07}
+2025-10-06 18:45:50 - ERROR - stderr -  85%|███████████████████████████████████████████████████████████████████████████████████████▉                | 1765/2088 [3:37:19<38:18,  7.12s/it]
+2025-10-06 18:45:57 - ERROR - stderr -  85%|███████████████████████████████████████████████████████████████████████████████████████▉                | 1766/2088 [3:37:26<38:22,  7.15s/it]
+2025-10-06 18:45:57 - ERROR - stderr - 
+2025-10-06 18:45:57 - ERROR - stderr - 
+2025-10-06 18:45:57 - INFO - stdout - {'loss': 0.957, 'learning_rate': 6.110137584677189e-05, 'epoch': 5.07}
+2025-10-06 18:45:57 - ERROR - stderr -  85%|███████████████████████████████████████████████████████████████████████████████████████▉                | 1766/2088 [3:37:26<38:22,  7.15s/it]
+2025-10-06 18:46:05 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████                | 1767/2088 [3:37:33<38:21,  7.17s/it]
+2025-10-06 18:46:05 - ERROR - stderr - 
+2025-10-06 18:46:05 - ERROR - stderr - 
+2025-10-06 18:46:05 - INFO - stdout - {'loss': 0.9855, 'learning_rate': 6.073031788015132e-05, 'epoch': 5.08}
+2025-10-06 18:46:05 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████                | 1767/2088 [3:37:33<38:21,  7.17s/it]
+2025-10-06 18:46:12 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████                | 1768/2088 [3:37:41<38:36,  7.24s/it]
+2025-10-06 18:46:12 - ERROR - stderr - 
+2025-10-06 18:46:12 - ERROR - stderr - 
+2025-10-06 18:46:12 - INFO - stdout - {'loss': 0.8586, 'learning_rate': 6.0360317171172794e-05, 'epoch': 5.08}
+2025-10-06 18:46:12 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████                | 1768/2088 [3:37:41<38:36,  7.24s/it]
+2025-10-06 18:46:19 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████                | 1769/2088 [3:37:48<38:08,  7.17s/it]
+2025-10-06 18:46:19 - ERROR - stderr - 
+2025-10-06 18:46:19 - ERROR - stderr - 
+2025-10-06 18:46:19 - INFO - stdout - {'loss': 0.9658, 'learning_rate': 5.99913746103738e-05, 'epoch': 5.08}
+2025-10-06 18:46:19 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████                | 1769/2088 [3:37:48<38:08,  7.17s/it]
+2025-10-06 18:46:26 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▏               | 1770/2088 [3:37:54<37:27,  7.07s/it]
+2025-10-06 18:46:26 - ERROR - stderr - 
+2025-10-06 18:46:26 - ERROR - stderr - 
+2025-10-06 18:46:26 - INFO - stdout - {'loss': 0.9692, 'learning_rate': 5.962349108574478e-05, 'epoch': 5.09}
+2025-10-06 18:46:26 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▏               | 1770/2088 [3:37:54<37:27,  7.07s/it]
+2025-10-06 18:46:33 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▏               | 1771/2088 [3:38:02<37:22,  7.08s/it]
+2025-10-06 18:46:33 - ERROR - stderr - 
+2025-10-06 18:46:33 - ERROR - stderr - 
+2025-10-06 18:46:33 - INFO - stdout - {'loss': 0.9067, 'learning_rate': 5.92566674827274e-05, 'epoch': 5.09}
+2025-10-06 18:46:33 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▏               | 1771/2088 [3:38:02<37:22,  7.08s/it]
+2025-10-06 18:46:40 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▎               | 1772/2088 [3:38:09<37:39,  7.15s/it]
+2025-10-06 18:46:40 - ERROR - stderr - 
+2025-10-06 18:46:40 - ERROR - stderr - 
+2025-10-06 18:46:40 - INFO - stdout - {'loss': 0.9661, 'learning_rate': 5.8890904684212154e-05, 'epoch': 5.09}
+2025-10-06 18:46:40 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▎               | 1772/2088 [3:38:09<37:39,  7.15s/it]
+2025-10-06 18:46:47 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▎               | 1773/2088 [3:38:16<36:48,  7.01s/it]
+2025-10-06 18:46:47 - ERROR - stderr - 
+2025-10-06 18:46:47 - ERROR - stderr - 
+2025-10-06 18:46:47 - INFO - stdout - {'loss': 0.9571, 'learning_rate': 5.852620357053651e-05, 'epoch': 5.09}
+2025-10-06 18:46:47 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▎               | 1773/2088 [3:38:16<36:48,  7.01s/it]
+2025-10-06 18:46:54 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▎               | 1774/2088 [3:38:23<36:42,  7.01s/it]
+2025-10-06 18:46:54 - ERROR - stderr - 
+2025-10-06 18:46:54 - ERROR - stderr - 
+2025-10-06 18:46:54 - INFO - stdout - {'loss': 0.8985, 'learning_rate': 5.816256501948258e-05, 'epoch': 5.1}
+2025-10-06 18:46:54 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▎               | 1774/2088 [3:38:23<36:42,  7.01s/it]
+2025-10-06 18:47:01 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▍               | 1775/2088 [3:38:30<36:38,  7.02s/it]
+2025-10-06 18:47:01 - ERROR - stderr - 
+2025-10-06 18:47:01 - ERROR - stderr - 
+2025-10-06 18:47:01 - INFO - stdout - {'loss': 0.8924, 'learning_rate': 5.7799989906274776e-05, 'epoch': 5.1}
+2025-10-06 18:47:01 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▍               | 1775/2088 [3:38:30<36:38,  7.02s/it]
+2025-10-06 18:47:08 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▍               | 1776/2088 [3:38:37<36:59,  7.11s/it]
+2025-10-06 18:47:08 - ERROR - stderr - 
+2025-10-06 18:47:08 - ERROR - stderr - 
+2025-10-06 18:47:08 - INFO - stdout - {'loss': 0.8983, 'learning_rate': 5.743847910357836e-05, 'epoch': 5.1}
+2025-10-06 18:47:08 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▍               | 1776/2088 [3:38:37<36:59,  7.11s/it]
+2025-10-06 18:47:15 - ERROR - stderr -  85%|██████████████���█████████████████████████████████████████████████████████████████████████▌               | 1777/2088 [3:38:44<36:34,  7.05s/it]
+2025-10-06 18:47:15 - ERROR - stderr - 
+2025-10-06 18:47:15 - ERROR - stderr - 
+2025-10-06 18:47:15 - INFO - stdout - {'loss': 0.8736, 'learning_rate': 5.7078033481496646e-05, 'epoch': 5.11}
+2025-10-06 18:47:15 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▌               | 1777/2088 [3:38:44<36:34,  7.05s/it]
+2025-10-06 18:47:23 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▌               | 1778/2088 [3:38:51<37:12,  7.20s/it]
+2025-10-06 18:47:23 - ERROR - stderr - 
+2025-10-06 18:47:23 - ERROR - stderr - 
+2025-10-06 18:47:23 - INFO - stdout - {'loss': 0.9817, 'learning_rate': 5.671865390756947e-05, 'epoch': 5.11}
+2025-10-06 18:47:23 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▌               | 1778/2088 [3:38:51<37:12,  7.20s/it]
+2025-10-06 18:47:30 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▌               | 1779/2088 [3:38:59<36:58,  7.18s/it]
+2025-10-06 18:47:30 - ERROR - stderr - 
+2025-10-06 18:47:30 - ERROR - stderr - 
+2025-10-06 18:47:30 - INFO - stdout - {'loss': 0.9348, 'learning_rate': 5.636034124677042e-05, 'epoch': 5.11}
+2025-10-06 18:47:30 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▌               | 1779/2088 [3:38:59<36:58,  7.18s/it]
+2025-10-06 18:47:37 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▋               | 1780/2088 [3:39:06<36:42,  7.15s/it]
+2025-10-06 18:47:37 - ERROR - stderr - 
+2025-10-06 18:47:37 - ERROR - stderr - 
+2025-10-06 18:47:37 - INFO - stdout - {'loss': 0.9086, 'learning_rate': 5.600309636150574e-05, 'epoch': 5.11}
+2025-10-06 18:47:37 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▋               | 1780/2088 [3:39:06<36:42,  7.15s/it]
+2025-10-06 18:47:44 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▋               | 1781/2088 [3:39:12<36:06,  7.06s/it]
+2025-10-06 18:47:44 - ERROR - stderr - 
+2025-10-06 18:47:44 - ERROR - stderr - 
+2025-10-06 18:47:44 - INFO - stdout - {'loss': 0.8865, 'learning_rate': 5.5646920111611375e-05, 'epoch': 5.12}
+2025-10-06 18:47:44 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▋               | 1781/2088 [3:39:12<36:06,  7.06s/it]
+2025-10-06 18:47:51 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▊               | 1782/2088 [3:39:19<35:51,  7.03s/it]
+2025-10-06 18:47:51 - ERROR - stderr - 
+2025-10-06 18:47:51 - ERROR - stderr - 
+2025-10-06 18:47:51 - INFO - stdout - {'loss': 0.9429, 'learning_rate': 5.529181335435124e-05, 'epoch': 5.12}
+2025-10-06 18:47:51 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▊               | 1782/2088 [3:39:19<35:51,  7.03s/it]
+2025-10-06 18:47:58 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▊               | 1783/2088 [3:39:26<35:42,  7.03s/it]
+2025-10-06 18:47:58 - ERROR - stderr - 
+2025-10-06 18:47:58 - ERROR - stderr - 
+2025-10-06 18:47:58 - INFO - stdout - {'loss': 0.9246, 'learning_rate': 5.493777694441521e-05, 'epoch': 5.12}
+2025-10-06 18:47:58 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▊               | 1783/2088 [3:39:26<35:42,  7.03s/it]
+2025-10-06 18:48:05 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▊               | 1784/2088 [3:39:33<35:31,  7.01s/it]
+2025-10-06 18:48:05 - ERROR - stderr - 
+2025-10-06 18:48:05 - ERROR - stderr - 
+2025-10-06 18:48:05 - INFO - stdout - {'loss': 0.994, 'learning_rate': 5.458481173391694e-05, 'epoch': 5.13}
+2025-10-06 18:48:05 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▊               | 1784/2088 [3:39:33<35:31,  7.01s/it]
+2025-10-06 18:48:12 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▉               | 1785/2088 [3:39:41<36:03,  7.14s/it]
+2025-10-06 18:48:12 - ERROR - stderr - 
+2025-10-06 18:48:12 - ERROR - stderr - 
+2025-10-06 18:48:12 - INFO - stdout - {'loss': 0.9531, 'learning_rate': 5.423291857239177e-05, 'epoch': 5.13}
+2025-10-06 18:48:12 - ERROR - stderr -  85%|████████████████████████████████████████████████████████████████████████████████████████▉               | 1785/2088 [3:39:41<36:03,  7.14s/it]
+2025-10-06 18:48:19 - ERROR - stderr -  86%|████████████████████████████████████████████████████████████████████████████████████████▉               | 1786/2088 [3:39:48<35:51,  7.13s/it]
+2025-10-06 18:48:19 - ERROR - stderr - 
+2025-10-06 18:48:19 - ERROR - stderr - 
+2025-10-06 18:48:19 - INFO - stdout - {'loss': 0.8203, 'learning_rate': 5.388209830679508e-05, 'epoch': 5.13}
+2025-10-06 18:48:19 - ERROR - stderr -  86%|████████████████████████████████████████████████████████████████████████████████████████▉               | 1786/2088 [3:39:48<35:51,  7.13s/it]
+2025-10-06 18:48:27 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████               | 1787/2088 [3:39:55<35:44,  7.12s/it]
+2025-10-06 18:48:27 - ERROR - stderr - 
+2025-10-06 18:48:27 - ERROR - stderr - 
+2025-10-06 18:48:27 - INFO - stdout - {'loss': 0.9035, 'learning_rate': 5.353235178149957e-05, 'epoch': 5.14}
+2025-10-06 18:48:27 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████               | 1787/2088 [3:39:55<35:44,  7.12s/it]
+2025-10-06 18:48:34 - ERROR - stderr -  86%|████████████████████████████���████████████████████████████████████████████████████████████               | 1788/2088 [3:40:02<35:54,  7.18s/it]
+2025-10-06 18:48:34 - ERROR - stderr - 
+2025-10-06 18:48:34 - ERROR - stderr - 
+2025-10-06 18:48:34 - INFO - stdout - {'loss': 0.9811, 'learning_rate': 5.318367983829392e-05, 'epoch': 5.14}
+2025-10-06 18:48:34 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████               | 1788/2088 [3:40:02<35:54,  7.18s/it]
+2025-10-06 18:48:41 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████               | 1789/2088 [3:40:09<35:26,  7.11s/it]
+2025-10-06 18:48:41 - ERROR - stderr - 
+2025-10-06 18:48:41 - ERROR - stderr - 
+2025-10-06 18:48:41 - INFO - stdout - {'loss': 0.9064, 'learning_rate': 5.2836083316380176e-05, 'epoch': 5.14}
+2025-10-06 18:48:41 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████               | 1789/2088 [3:40:09<35:26,  7.11s/it]
+2025-10-06 18:48:48 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▏              | 1790/2088 [3:40:16<34:53,  7.03s/it]
+2025-10-06 18:48:48 - ERROR - stderr - 
+2025-10-06 18:48:48 - ERROR - stderr - 
+2025-10-06 18:48:48 - INFO - stdout - {'loss': 0.9664, 'learning_rate': 5.248956305237229e-05, 'epoch': 5.14}
+2025-10-06 18:48:48 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▏              | 1790/2088 [3:40:16<34:53,  7.03s/it]
+2025-10-06 18:48:55 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▏              | 1791/2088 [3:40:24<35:30,  7.17s/it]
+2025-10-06 18:48:55 - ERROR - stderr - 
+2025-10-06 18:48:55 - ERROR - stderr - 
+2025-10-06 18:48:55 - INFO - stdout - {'loss': 0.9721, 'learning_rate': 5.214411988029355e-05, 'epoch': 5.15}
+2025-10-06 18:48:55 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▏              | 1791/2088 [3:40:24<35:30,  7.17s/it]
+2025-10-06 18:49:03 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▎              | 1792/2088 [3:40:31<36:01,  7.30s/it]
+2025-10-06 18:49:03 - ERROR - stderr - 
+2025-10-06 18:49:03 - ERROR - stderr - 
+2025-10-06 18:49:03 - INFO - stdout - {'loss': 0.9666, 'learning_rate': 5.17997546315751e-05, 'epoch': 5.15}
+2025-10-06 18:49:03 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▎              | 1792/2088 [3:40:31<36:01,  7.30s/it]
+2025-10-06 18:49:10 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▎              | 1793/2088 [3:40:38<35:42,  7.26s/it]
+2025-10-06 18:49:10 - ERROR - stderr - 
+2025-10-06 18:49:10 - ERROR - stderr - 
+2025-10-06 18:49:10 - INFO - stdout - {'loss': 0.9663, 'learning_rate': 5.145646813505339e-05, 'epoch': 5.15}
+2025-10-06 18:49:10 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▎              | 1793/2088 [3:40:38<35:42,  7.26s/it]
+2025-10-06 18:49:17 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▎              | 1794/2088 [3:40:46<35:43,  7.29s/it]
+2025-10-06 18:49:17 - ERROR - stderr - 
+2025-10-06 18:49:17 - ERROR - stderr - 
+2025-10-06 18:49:17 - INFO - stdout - {'loss': 0.9163, 'learning_rate': 5.111426121696866e-05, 'epoch': 5.16}
+2025-10-06 18:49:17 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▎              | 1794/2088 [3:40:46<35:43,  7.29s/it]
+2025-10-06 18:49:25 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▍              | 1795/2088 [3:40:53<35:45,  7.32s/it]
+2025-10-06 18:49:25 - ERROR - stderr - 
+2025-10-06 18:49:25 - ERROR - stderr - 
+2025-10-06 18:49:25 - INFO - stdout - {'loss': 0.9148, 'learning_rate': 5.0773134700962844e-05, 'epoch': 5.16}
+2025-10-06 18:49:25 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▍              | 1795/2088 [3:40:53<35:45,  7.32s/it]
+2025-10-06 18:49:32 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▍              | 1796/2088 [3:41:01<35:49,  7.36s/it]
+2025-10-06 18:49:32 - ERROR - stderr - 
+2025-10-06 18:49:32 - ERROR - stderr - 
+2025-10-06 18:49:32 - INFO - stdout - {'loss': 0.9644, 'learning_rate': 5.043308940807717e-05, 'epoch': 5.16}
+2025-10-06 18:49:32 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▍              | 1796/2088 [3:41:01<35:49,  7.36s/it]
+2025-10-06 18:49:40 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▌              | 1797/2088 [3:41:08<35:50,  7.39s/it]
+2025-10-06 18:49:40 - ERROR - stderr - 
+2025-10-06 18:49:40 - ERROR - stderr - 
+2025-10-06 18:49:40 - INFO - stdout - {'loss': 0.9519, 'learning_rate': 5.009412615675102e-05, 'epoch': 5.16}
+2025-10-06 18:49:40 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▌              | 1797/2088 [3:41:08<35:50,  7.39s/it]
+2025-10-06 18:49:47 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▌              | 1798/2088 [3:41:15<35:20,  7.31s/it]
+2025-10-06 18:49:47 - ERROR - stderr - 
+2025-10-06 18:49:47 - ERROR - stderr - 
+2025-10-06 18:49:47 - INFO - stdout - {'loss': 0.94, 'learning_rate': 4.97562457628189e-05, 'epoch': 5.17}
+2025-10-06 18:49:47 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▌              | 1798/2088 [3:41:15<35:20,  7.31s/it]
+2025-10-06 18:49:54 - ERROR - stderr -  86%|███████████████████████████████���█████████████████████████████████████████████████████████▌              | 1799/2088 [3:41:22<35:01,  7.27s/it]
+2025-10-06 18:49:54 - ERROR - stderr - 
+2025-10-06 18:49:54 - ERROR - stderr - 
+2025-10-06 18:49:54 - INFO - stdout - {'loss': 0.8746, 'learning_rate': 4.9419449039509564e-05, 'epoch': 5.17}
+2025-10-06 18:49:54 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▌              | 1799/2088 [3:41:22<35:01,  7.27s/it]
+2025-10-06 18:50:01 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▋              | 1800/2088 [3:41:30<34:40,  7.22s/it]
+2025-10-06 18:50:01 - ERROR - stderr - 
+2025-10-06 18:50:01 - ERROR - stderr - 
+2025-10-06 18:50:01 - INFO - stdout - {'loss': 0.9816, 'learning_rate': 4.908373679744316e-05, 'epoch': 5.17}
+2025-10-06 18:50:01 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▋              | 1800/2088 [3:41:30<34:40,  7.22s/it]
+2025-10-06 18:50:08 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▋              | 1801/2088 [3:41:37<34:22,  7.19s/it]
+2025-10-06 18:50:08 - ERROR - stderr - 
+2025-10-06 18:50:08 - ERROR - stderr - 
+2025-10-06 18:50:08 - INFO - stdout - {'loss': 0.8395, 'learning_rate': 4.874910984462971e-05, 'epoch': 5.18}
+2025-10-06 18:50:08 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▋              | 1801/2088 [3:41:37<34:22,  7.19s/it]
+2025-10-06 18:50:15 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▊              | 1802/2088 [3:41:44<34:02,  7.14s/it]
+2025-10-06 18:50:15 - ERROR - stderr - 
+2025-10-06 18:50:15 - ERROR - stderr - 
+2025-10-06 18:50:15 - INFO - stdout - {'loss': 0.9007, 'learning_rate': 4.841556898646732e-05, 'epoch': 5.18}
+2025-10-06 18:50:15 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▊              | 1802/2088 [3:41:44<34:02,  7.14s/it]
+2025-10-06 18:50:22 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▊              | 1803/2088 [3:41:51<33:48,  7.12s/it]
+2025-10-06 18:50:22 - ERROR - stderr - 
+2025-10-06 18:50:22 - ERROR - stderr - 
+2025-10-06 18:50:22 - INFO - stdout - {'loss': 0.8468, 'learning_rate': 4.8083115025739754e-05, 'epoch': 5.18}
+2025-10-06 18:50:22 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▊              | 1803/2088 [3:41:51<33:48,  7.12s/it]
+2025-10-06 18:50:29 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▊              | 1804/2088 [3:41:58<33:27,  7.07s/it]
+2025-10-06 18:50:29 - ERROR - stderr - 
+2025-10-06 18:50:29 - ERROR - stderr - 
+2025-10-06 18:50:29 - INFO - stdout - {'loss': 0.8686, 'learning_rate': 4.775174876261496e-05, 'epoch': 5.18}
+2025-10-06 18:50:29 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▊              | 1804/2088 [3:41:58<33:27,  7.07s/it]
+2025-10-06 18:50:36 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▉              | 1805/2088 [3:42:04<32:59,  7.00s/it]
+2025-10-06 18:50:36 - ERROR - stderr - 
+2025-10-06 18:50:36 - ERROR - stderr - 
+2025-10-06 18:50:36 - INFO - stdout - {'loss': 0.9584, 'learning_rate': 4.7421470994642836e-05, 'epoch': 5.19}
+2025-10-06 18:50:36 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▉              | 1805/2088 [3:42:04<32:59,  7.00s/it]
+2025-10-06 18:50:43 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▉              | 1806/2088 [3:42:12<33:14,  7.07s/it]
+2025-10-06 18:50:43 - ERROR - stderr - 
+2025-10-06 18:50:43 - ERROR - stderr - 
+2025-10-06 18:50:43 - INFO - stdout - {'loss': 0.8287, 'learning_rate': 4.709228251675357e-05, 'epoch': 5.19}
+2025-10-06 18:50:43 - ERROR - stderr -  86%|█████████████████████████████████████████████████████████████████████████████████████████▉              | 1806/2088 [3:42:12<33:14,  7.07s/it]
+2025-10-06 18:50:50 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████              | 1807/2088 [3:42:19<32:51,  7.02s/it]
+2025-10-06 18:50:50 - ERROR - stderr - 
+2025-10-06 18:50:50 - ERROR - stderr - 
+2025-10-06 18:50:50 - INFO - stdout - {'loss': 0.8627, 'learning_rate': 4.6764184121255434e-05, 'epoch': 5.19}
+2025-10-06 18:50:50 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████              | 1807/2088 [3:42:19<32:51,  7.02s/it]
+2025-10-06 18:50:57 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████              | 1808/2088 [3:42:26<32:51,  7.04s/it]
+2025-10-06 18:50:57 - ERROR - stderr - 
+2025-10-06 18:50:57 - ERROR - stderr - 
+2025-10-06 18:50:57 - INFO - stdout - {'loss': 0.9579, 'learning_rate': 4.643717659783309e-05, 'epoch': 5.2}
+2025-10-06 18:50:57 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████              | 1808/2088 [3:42:26<32:51,  7.04s/it]
+2025-10-06 18:51:04 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████              | 1809/2088 [3:42:33<32:45,  7.05s/it]
+2025-10-06 18:51:04 - ERROR - stderr - 
+2025-10-06 18:51:04 - ERROR - stderr - 
+2025-10-06 18:51:04 - INFO - stdout - {'loss': 0.9129, 'learning_rate': 4.6111260733545715e-05, 'epoch': 5.2}
+2025-10-06 18:51:04 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████              | 1809/2088 [3:42:33<32:45,  7.05s/it]
+2025-10-06 18:51:11 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▏             | 1810/2088 [3:42:39<32:11,  6.95s/it]
+2025-10-06 18:51:11 - ERROR - stderr - 
+2025-10-06 18:51:11 - ERROR - stderr - 
+2025-10-06 18:51:11 - INFO - stdout - {'loss': 0.9226, 'learning_rate': 4.578643731282483e-05, 'epoch': 5.2}
+2025-10-06 18:51:11 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▏             | 1810/2088 [3:42:40<32:11,  6.95s/it]
+2025-10-06 18:51:18 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▏             | 1811/2088 [3:42:46<32:03,  6.94s/it]
+2025-10-06 18:51:18 - ERROR - stderr - 
+2025-10-06 18:51:18 - ERROR - stderr - 
+2025-10-06 18:51:18 - INFO - stdout - {'loss': 0.9996, 'learning_rate': 4.546270711747291e-05, 'epoch': 5.2}
+2025-10-06 18:51:18 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▏             | 1811/2088 [3:42:46<32:03,  6.94s/it]
+2025-10-06 18:51:25 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▎             | 1812/2088 [3:42:54<32:28,  7.06s/it]
+2025-10-06 18:51:25 - ERROR - stderr - 
+2025-10-06 18:51:25 - ERROR - stderr - 
+2025-10-06 18:51:25 - INFO - stdout - {'loss': 0.9303, 'learning_rate': 4.514007092666084e-05, 'epoch': 5.21}
+2025-10-06 18:51:25 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▎             | 1812/2088 [3:42:54<32:28,  7.06s/it]
+2025-10-06 18:51:32 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▎             | 1813/2088 [3:43:01<32:17,  7.05s/it]
+2025-10-06 18:51:32 - ERROR - stderr - 
+2025-10-06 18:51:32 - ERROR - stderr - 
+2025-10-06 18:51:32 - INFO - stdout - {'loss': 0.9814, 'learning_rate': 4.481852951692672e-05, 'epoch': 5.21}
+2025-10-06 18:51:32 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▎             | 1813/2088 [3:43:01<32:17,  7.05s/it]
+2025-10-06 18:51:39 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▎             | 1814/2088 [3:43:08<31:45,  6.95s/it]
+2025-10-06 18:51:39 - ERROR - stderr - 
+2025-10-06 18:51:39 - ERROR - stderr - 
+2025-10-06 18:51:39 - INFO - stdout - {'loss': 0.9982, 'learning_rate': 4.4498083662173394e-05, 'epoch': 5.21}
+2025-10-06 18:51:39 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▎             | 1814/2088 [3:43:08<31:45,  6.95s/it]
+2025-10-06 18:51:46 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▍             | 1815/2088 [3:43:15<31:42,  6.97s/it]
+2025-10-06 18:51:46 - ERROR - stderr - 
+2025-10-06 18:51:46 - ERROR - stderr - 
+2025-10-06 18:51:46 - INFO - stdout - {'loss': 0.9137, 'learning_rate': 4.417873413366702e-05, 'epoch': 5.22}
+2025-10-06 18:51:46 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▍             | 1815/2088 [3:43:15<31:42,  6.97s/it]
+2025-10-06 18:51:53 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▍             | 1816/2088 [3:43:21<31:24,  6.93s/it]
+2025-10-06 18:51:53 - ERROR - stderr - 
+2025-10-06 18:51:53 - ERROR - stderr - 
+2025-10-06 18:51:53 - INFO - stdout - {'loss': 0.8619, 'learning_rate': 4.3860481700035095e-05, 'epoch': 5.22}
+2025-10-06 18:51:53 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▍             | 1816/2088 [3:43:21<31:24,  6.93s/it]
+2025-10-06 18:52:00 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▌             | 1817/2088 [3:43:28<31:24,  6.95s/it]
+2025-10-06 18:52:00 - ERROR - stderr - 
+2025-10-06 18:52:00 - ERROR - stderr - 
+2025-10-06 18:52:00 - INFO - stdout - {'loss': 0.9781, 'learning_rate': 4.354332712726439e-05, 'epoch': 5.22}
+2025-10-06 18:52:00 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▌             | 1817/2088 [3:43:28<31:24,  6.95s/it]
+2025-10-06 18:52:07 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▌             | 1818/2088 [3:43:36<31:42,  7.05s/it]
+2025-10-06 18:52:07 - ERROR - stderr - 
+2025-10-06 18:52:07 - ERROR - stderr - 
+2025-10-06 18:52:07 - INFO - stdout - {'loss': 0.9686, 'learning_rate': 4.322727117869951e-05, 'epoch': 5.22}
+2025-10-06 18:52:07 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▌             | 1818/2088 [3:43:36<31:42,  7.05s/it]
+2025-10-06 18:52:14 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▌             | 1819/2088 [3:43:42<31:19,  6.99s/it]
+2025-10-06 18:52:14 - ERROR - stderr - 
+2025-10-06 18:52:14 - ERROR - stderr - 
+2025-10-06 18:52:14 - INFO - stdout - {'loss': 0.8722, 'learning_rate': 4.2912314615040805e-05, 'epoch': 5.23}
+2025-10-06 18:52:14 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▌             | 1819/2088 [3:43:42<31:19,  6.99s/it]
+2025-10-06 18:52:21 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▋             | 1820/2088 [3:43:50<31:27,  7.04s/it]
+2025-10-06 18:52:21 - ERROR - stderr - 
+2025-10-06 18:52:21 - ERROR - stderr - 
+2025-10-06 18:52:21 - INFO - stdout - {'loss': 0.9008, 'learning_rate': 4.2598458194342325e-05, 'epoch': 5.23}
+2025-10-06 18:52:21 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▋             | 1820/2088 [3:43:50<31:27,  7.04s/it]
+2025-10-06 18:52:28 - ERROR - stderr -  87%|██████████████���███████████████████████████████████████████████████████████████████████████▋             | 1821/2088 [3:43:57<31:39,  7.11s/it]
+2025-10-06 18:52:28 - ERROR - stderr - 
+2025-10-06 18:52:28 - ERROR - stderr - 
+2025-10-06 18:52:28 - INFO - stdout - {'loss': 0.9027, 'learning_rate': 4.228570267201048e-05, 'epoch': 5.23}
+2025-10-06 18:52:28 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▋             | 1821/2088 [3:43:57<31:39,  7.11s/it]
+2025-10-06 18:52:35 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▊             | 1822/2088 [3:44:04<31:23,  7.08s/it]
+2025-10-06 18:52:35 - ERROR - stderr - 
+2025-10-06 18:52:35 - ERROR - stderr - 
+2025-10-06 18:52:35 - INFO - stdout - {'loss': 0.8969, 'learning_rate': 4.1974048800801855e-05, 'epoch': 5.24}
+2025-10-06 18:52:35 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▊             | 1822/2088 [3:44:04<31:23,  7.08s/it]
+2025-10-06 18:52:42 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▊             | 1823/2088 [3:44:11<30:59,  7.02s/it]
+2025-10-06 18:52:42 - ERROR - stderr - 
+2025-10-06 18:52:42 - ERROR - stderr - 
+2025-10-06 18:52:42 - INFO - stdout - {'loss': 1.0464, 'learning_rate': 4.166349733082153e-05, 'epoch': 5.24}
+2025-10-06 18:52:42 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▊             | 1823/2088 [3:44:11<30:59,  7.02s/it]
+2025-10-06 18:52:50 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▊             | 1824/2088 [3:44:18<31:40,  7.20s/it]
+2025-10-06 18:52:50 - ERROR - stderr - 
+2025-10-06 18:52:50 - ERROR - stderr - 
+2025-10-06 18:52:50 - INFO - stdout - {'loss': 0.9685, 'learning_rate': 4.13540490095215e-05, 'epoch': 5.24}
+2025-10-06 18:52:50 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▊             | 1824/2088 [3:44:18<31:40,  7.20s/it]
+2025-10-06 18:52:57 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▉             | 1825/2088 [3:44:25<31:20,  7.15s/it]
+2025-10-06 18:52:57 - ERROR - stderr - 
+2025-10-06 18:52:57 - ERROR - stderr - 
+2025-10-06 18:52:57 - INFO - stdout - {'loss': 0.9389, 'learning_rate': 4.104570458169826e-05, 'epoch': 5.24}
+2025-10-06 18:52:57 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▉             | 1825/2088 [3:44:25<31:20,  7.15s/it]
+2025-10-06 18:53:04 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▉             | 1826/2088 [3:44:33<31:34,  7.23s/it]
+2025-10-06 18:53:04 - ERROR - stderr - 
+2025-10-06 18:53:04 - ERROR - stderr - 
+2025-10-06 18:53:04 - INFO - stdout - {'loss': 0.9697, 'learning_rate': 4.073846478949167e-05, 'epoch': 5.25}
+2025-10-06 18:53:04 - ERROR - stderr -  87%|██████████████████████████████████████████████████████████████████████████████████████████▉             | 1826/2088 [3:44:33<31:34,  7.23s/it]
+2025-10-06 18:53:11 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████             | 1827/2088 [3:44:40<31:02,  7.14s/it]
+2025-10-06 18:53:11 - ERROR - stderr - 
+2025-10-06 18:53:11 - ERROR - stderr - 
+2025-10-06 18:53:11 - INFO - stdout - {'loss': 0.9063, 'learning_rate': 4.043233037238281e-05, 'epoch': 5.25}
+2025-10-06 18:53:11 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████             | 1827/2088 [3:44:40<31:02,  7.14s/it]
+2025-10-06 18:53:18 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████             | 1828/2088 [3:44:47<30:34,  7.05s/it]
+2025-10-06 18:53:18 - ERROR - stderr - 
+2025-10-06 18:53:18 - ERROR - stderr - 
+2025-10-06 18:53:18 - INFO - stdout - {'loss': 0.9392, 'learning_rate': 4.012730206719228e-05, 'epoch': 5.25}
+2025-10-06 18:53:18 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████             | 1828/2088 [3:44:47<30:34,  7.05s/it]
+2025-10-06 18:53:25 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████             | 1829/2088 [3:44:54<30:12,  7.00s/it]
+2025-10-06 18:53:25 - ERROR - stderr - 
+2025-10-06 18:53:25 - ERROR - stderr - 
+2025-10-06 18:53:25 - INFO - stdout - {'loss': 0.8842, 'learning_rate': 3.982338060807833e-05, 'epoch': 5.26}
+2025-10-06 18:53:25 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████             | 1829/2088 [3:44:54<30:12,  7.00s/it]
+2025-10-06 18:53:32 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▏            | 1830/2088 [3:45:00<29:55,  6.96s/it]
+2025-10-06 18:53:32 - ERROR - stderr - 
+2025-10-06 18:53:32 - ERROR - stderr - 
+2025-10-06 18:53:32 - INFO - stdout - {'loss': 0.9002, 'learning_rate': 3.9520566726535364e-05, 'epoch': 5.26}
+2025-10-06 18:53:32 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▏            | 1830/2088 [3:45:00<29:55,  6.96s/it]
+2025-10-06 18:53:39 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▏            | 1831/2088 [3:45:07<29:53,  6.98s/it]
+2025-10-06 18:53:39 - ERROR - stderr - 
+2025-10-06 18:53:39 - ERROR - stderr - 
+2025-10-06 18:53:39 - INFO - stdout - {'loss': 0.8977, 'learning_rate': 3.921886115139206e-05, 'epoch': 5.26}
+2025-10-06 18:53:39 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▏            | 1831/2088 [3:45:07<29:53,  6.98s/it]
+2025-10-06 18:53:46 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▏            | 1832/2088 [3:45:14<29:36,  6.94s/it]
+2025-10-06 18:53:46 - ERROR - stderr - 
+2025-10-06 18:53:46 - ERROR - stderr - 
+2025-10-06 18:53:46 - INFO - stdout - {'loss': 0.96, 'learning_rate': 3.8918264608809205e-05, 'epoch': 5.26}
+2025-10-06 18:53:46 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▏            | 1832/2088 [3:45:14<29:36,  6.94s/it]
+2025-10-06 18:53:53 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▎            | 1833/2088 [3:45:21<29:21,  6.91s/it]
+2025-10-06 18:53:53 - ERROR - stderr - 
+2025-10-06 18:53:53 - ERROR - stderr - 
+2025-10-06 18:53:53 - INFO - stdout - {'loss': 0.9282, 'learning_rate': 3.861877782227885e-05, 'epoch': 5.27}
+2025-10-06 18:53:53 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▎            | 1833/2088 [3:45:21<29:21,  6.91s/it]
+2025-10-06 18:54:00 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▎            | 1834/2088 [3:45:28<29:26,  6.96s/it]
+2025-10-06 18:54:00 - ERROR - stderr - 
+2025-10-06 18:54:00 - ERROR - stderr - 
+2025-10-06 18:54:00 - INFO - stdout - {'loss': 1.0379, 'learning_rate': 3.83204015126215e-05, 'epoch': 5.27}
+2025-10-06 18:54:00 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▎            | 1834/2088 [3:45:28<29:26,  6.96s/it]
+2025-10-06 18:54:06 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▍            | 1835/2088 [3:45:35<29:06,  6.90s/it]
+2025-10-06 18:54:06 - ERROR - stderr - 
+2025-10-06 18:54:06 - ERROR - stderr - 
+2025-10-06 18:54:06 - INFO - stdout - {'loss': 0.9188, 'learning_rate': 3.8023136397985156e-05, 'epoch': 5.27}
+2025-10-06 18:54:06 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▍            | 1835/2088 [3:45:35<29:06,  6.90s/it]
+2025-10-06 18:54:14 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▍            | 1836/2088 [3:45:42<29:35,  7.05s/it]
+2025-10-06 18:54:14 - ERROR - stderr - 
+2025-10-06 18:54:14 - ERROR - stderr - 
+2025-10-06 18:54:14 - INFO - stdout - {'loss': 0.9222, 'learning_rate': 3.772698319384349e-05, 'epoch': 5.28}
+2025-10-06 18:54:14 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▍            | 1836/2088 [3:45:42<29:35,  7.05s/it]
+2025-10-06 18:54:21 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▍            | 1837/2088 [3:45:49<29:04,  6.95s/it]
+2025-10-06 18:54:21 - ERROR - stderr - 
+2025-10-06 18:54:21 - ERROR - stderr - 
+2025-10-06 18:54:21 - INFO - stdout - {'loss': 0.9122, 'learning_rate': 3.7431942612993486e-05, 'epoch': 5.28}
+2025-10-06 18:54:21 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▍            | 1837/2088 [3:45:49<29:04,  6.95s/it]
+2025-10-06 18:54:21 - INFO - stdout - [Warning] Zero or NaN encountered in pc_norm! pc_id: 87e8e5a7-0aae-571e-882e-0f8e926169d6
+2025-10-06 18:54:21 - INFO - stdout - m: [[0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]
+2025-10-06 18:54:21 - INFO - stdout -  [0.]]
+2025-10-06 18:54:28 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▌            | 1838/2088 [3:45:56<29:03,  6.98s/it]
+2025-10-06 18:54:28 - ERROR - stderr - 
+2025-10-06 18:54:28 - ERROR - stderr - 
+2025-10-06 18:54:28 - INFO - stdout - {'loss': 0.9586, 'learning_rate': 3.713801536555483e-05, 'epoch': 5.28}
+2025-10-06 18:54:28 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▌            | 1838/2088 [3:45:56<29:03,  6.98s/it]
+2025-10-06 18:54:35 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▌            | 1839/2088 [3:46:03<29:06,  7.02s/it]
+2025-10-06 18:54:35 - ERROR - stderr - 
+2025-10-06 18:54:35 - ERROR - stderr - 
+2025-10-06 18:54:35 - INFO - stdout - {'loss': 0.9466, 'learning_rate': 3.684520215896703e-05, 'epoch': 5.28}
+2025-10-06 18:54:35 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▌            | 1839/2088 [3:46:03<29:06,  7.02s/it]
+2025-10-06 18:54:42 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 1840/2088 [3:46:10<29:03,  7.03s/it]
+2025-10-06 18:54:42 - ERROR - stderr - 
+2025-10-06 18:54:42 - ERROR - stderr - 
+2025-10-06 18:54:42 - INFO - stdout - {'loss': 0.9316, 'learning_rate': 3.65535036979886e-05, 'epoch': 5.29}
+2025-10-06 18:54:42 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 1840/2088 [3:46:10<29:03,  7.03s/it]
+2025-10-06 18:54:49 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 1841/2088 [3:46:18<29:13,  7.10s/it]
+2025-10-06 18:54:49 - ERROR - stderr - 
+2025-10-06 18:54:49 - ERROR - stderr - 
+2025-10-06 18:54:49 - INFO - stdout - {'loss': 0.9265, 'learning_rate': 3.626292068469489e-05, 'epoch': 5.29}
+2025-10-06 18:54:49 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 1841/2088 [3:46:18<29:13,  7.10s/it]
+2025-10-06 18:54:56 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 1842/2088 [3:46:25<29:09,  7.11s/it]
+2025-10-06 18:54:56 - ERROR - stderr - 
+2025-10-06 18:54:56 - ERROR - stderr - 
+2025-10-06 18:54:56 - INFO - stdout - {'loss': 0.8604, 'learning_rate': 3.5973453818476555e-05, 'epoch': 5.29}
+2025-10-06 18:54:56 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 1842/2088 [3:46:25<29:09,  7.11s/it]
+2025-10-06 18:55:03 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 1843/2088 [3:46:32<28:47,  7.05s/it]
+2025-10-06 18:55:03 - ERROR - stderr - 
+2025-10-06 18:55:03 - ERROR - stderr - 
+2025-10-06 18:55:03 - INFO - stdout - {'loss': 0.9099, 'learning_rate': 3.56851037960379e-05, 'epoch': 5.3}
+2025-10-06 18:55:03 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 1843/2088 [3:46:32<28:47,  7.05s/it]
+2025-10-06 18:55:10 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 1844/2088 [3:46:39<28:44,  7.07s/it]
+2025-10-06 18:55:10 - ERROR - stderr - 
+2025-10-06 18:55:10 - ERROR - stderr - 
+2025-10-06 18:55:10 - INFO - stdout - {'loss': 0.9657, 'learning_rate': 3.5397871311394935e-05, 'epoch': 5.3}
+2025-10-06 18:55:10 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 1844/2088 [3:46:39<28:44,  7.07s/it]
+2025-10-06 18:55:17 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 1845/2088 [3:46:46<28:40,  7.08s/it]
+2025-10-06 18:55:17 - ERROR - stderr - 
+2025-10-06 18:55:17 - ERROR - stderr - 
+2025-10-06 18:55:17 - INFO - stdout - {'loss': 0.8291, 'learning_rate': 3.5111757055874326e-05, 'epoch': 5.3}
+2025-10-06 18:55:17 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 1845/2088 [3:46:46<28:40,  7.08s/it]
+2025-10-06 18:55:24 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 1846/2088 [3:46:52<28:04,  6.96s/it]
+2025-10-06 18:55:24 - ERROR - stderr - 
+2025-10-06 18:55:24 - ERROR - stderr - 
+2025-10-06 18:55:24 - INFO - stdout - {'loss': 0.9505, 'learning_rate': 3.482676171811089e-05, 'epoch': 5.3}
+2025-10-06 18:55:24 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 1846/2088 [3:46:52<28:04,  6.96s/it]
+2025-10-06 18:55:31 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 1847/2088 [3:47:00<28:36,  7.12s/it]
+2025-10-06 18:55:31 - ERROR - stderr - 
+2025-10-06 18:55:31 - ERROR - stderr - 
+2025-10-06 18:55:31 - INFO - stdout - {'loss': 0.953, 'learning_rate': 3.45428859840467e-05, 'epoch': 5.31}
+2025-10-06 18:55:31 - ERROR - stderr -  88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 1847/2088 [3:47:00<28:36,  7.12s/it]
+2025-10-06 18:55:39 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████            | 1848/2088 [3:47:07<28:35,  7.15s/it]
+2025-10-06 18:55:39 - ERROR - stderr - 
+2025-10-06 18:55:39 - ERROR - stderr - 
+2025-10-06 18:55:39 - INFO - stdout - {'loss': 0.8936, 'learning_rate': 3.426013053692878e-05, 'epoch': 5.31}
+2025-10-06 18:55:39 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████            | 1848/2088 [3:47:07<28:35,  7.15s/it]
+2025-10-06 18:55:46 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████            | 1849/2088 [3:47:14<28:18,  7.11s/it]
+2025-10-06 18:55:46 - ERROR - stderr - 
+2025-10-06 18:55:46 - ERROR - stderr - 
+2025-10-06 18:55:46 - INFO - stdout - {'loss': 0.9272, 'learning_rate': 3.397849605730829e-05, 'epoch': 5.31}
+2025-10-06 18:55:46 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████            | 1849/2088 [3:47:14<28:18,  7.11s/it]
+2025-10-06 18:55:53 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 1850/2088 [3:47:21<28:10,  7.10s/it]
+2025-10-06 18:55:53 - ERROR - stderr - 
+2025-10-06 18:55:53 - ERROR - stderr - 
+2025-10-06 18:55:53 - INFO - stdout - {'loss': 0.9836, 'learning_rate': 3.369798322303785e-05, 'epoch': 5.32}
+2025-10-06 18:55:53 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 1850/2088 [3:47:21<28:10,  7.10s/it]
+2025-10-06 18:56:00 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 1851/2088 [3:47:28<28:10,  7.13s/it]
+2025-10-06 18:56:00 - ERROR - stderr - 
+2025-10-06 18:56:00 - ERROR - stderr - 
+2025-10-06 18:56:00 - INFO - stdout - {'loss': 0.942, 'learning_rate': 3.3418592709270665e-05, 'epoch': 5.32}
+2025-10-06 18:56:00 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 1851/2088 [3:47:28<28:10,  7.13s/it]
+2025-10-06 18:56:07 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 1852/2088 [3:47:36<28:01,  7.13s/it]
+2025-10-06 18:56:07 - ERROR - stderr - 
+2025-10-06 18:56:07 - ERROR - stderr - 
+2025-10-06 18:56:07 - INFO - stdout - {'loss': 0.9049, 'learning_rate': 3.314032518845889e-05, 'epoch': 5.32}
+2025-10-06 18:56:07 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████���███▏           | 1852/2088 [3:47:36<28:01,  7.13s/it]
+2025-10-06 18:56:14 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 1853/2088 [3:47:42<27:33,  7.04s/it]
+2025-10-06 18:56:14 - ERROR - stderr - 
+2025-10-06 18:56:14 - ERROR - stderr - 
+2025-10-06 18:56:14 - INFO - stdout - {'loss': 0.9732, 'learning_rate': 3.286318133035132e-05, 'epoch': 5.32}
+2025-10-06 18:56:14 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 1853/2088 [3:47:42<27:33,  7.04s/it]
+2025-10-06 18:56:21 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 1854/2088 [3:47:50<27:33,  7.06s/it]
+2025-10-06 18:56:21 - ERROR - stderr - 
+2025-10-06 18:56:21 - ERROR - stderr - 
+2025-10-06 18:56:21 - INFO - stdout - {'loss': 0.8853, 'learning_rate': 3.258716180199278e-05, 'epoch': 5.33}
+2025-10-06 18:56:21 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 1854/2088 [3:47:50<27:33,  7.06s/it]
+2025-10-06 18:56:28 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 1855/2088 [3:47:56<27:11,  7.00s/it]
+2025-10-06 18:56:28 - ERROR - stderr - 
+2025-10-06 18:56:28 - ERROR - stderr - 
+2025-10-06 18:56:28 - INFO - stdout - {'loss': 0.9191, 'learning_rate': 3.231226726772163e-05, 'epoch': 5.33}
+2025-10-06 18:56:28 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 1855/2088 [3:47:56<27:11,  7.00s/it]
+2025-10-06 18:56:35 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 1856/2088 [3:48:04<27:13,  7.04s/it]
+2025-10-06 18:56:35 - ERROR - stderr - 
+2025-10-06 18:56:35 - ERROR - stderr - 
+2025-10-06 18:56:35 - INFO - stdout - {'loss': 0.8905, 'learning_rate': 3.203849838916872e-05, 'epoch': 5.33}
+2025-10-06 18:56:35 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 1856/2088 [3:48:04<27:13,  7.04s/it]
+2025-10-06 18:56:42 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 1857/2088 [3:48:11<27:03,  7.03s/it]
+2025-10-06 18:56:42 - ERROR - stderr - 
+2025-10-06 18:56:42 - ERROR - stderr - 
+2025-10-06 18:56:42 - INFO - stdout - {'loss': 0.9807, 'learning_rate': 3.176585582525554e-05, 'epoch': 5.34}
+2025-10-06 18:56:42 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 1857/2088 [3:48:11<27:03,  7.03s/it]
+2025-10-06 18:56:49 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 1858/2088 [3:48:18<26:58,  7.04s/it]
+2025-10-06 18:56:49 - ERROR - stderr - 
+2025-10-06 18:56:49 - ERROR - stderr - 
+2025-10-06 18:56:49 - INFO - stdout - {'loss': 0.8947, 'learning_rate': 3.1494340232192667e-05, 'epoch': 5.34}
+2025-10-06 18:56:49 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 1858/2088 [3:48:18<26:58,  7.04s/it]
+2025-10-06 18:56:56 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 1859/2088 [3:48:25<27:05,  7.10s/it]
+2025-10-06 18:56:56 - ERROR - stderr - 
+2025-10-06 18:56:56 - ERROR - stderr - 
+2025-10-06 18:56:56 - INFO - stdout - {'loss': 0.928, 'learning_rate': 3.122395226347835e-05, 'epoch': 5.34}
+2025-10-06 18:56:56 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 1859/2088 [3:48:25<27:05,  7.10s/it]
+2025-10-06 18:57:03 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 1860/2088 [3:48:32<26:44,  7.04s/it]
+2025-10-06 18:57:03 - ERROR - stderr - 
+2025-10-06 18:57:03 - ERROR - stderr - 
+2025-10-06 18:57:03 - INFO - stdout - {'loss': 0.9051, 'learning_rate': 3.095469256989658e-05, 'epoch': 5.34}
+2025-10-06 18:57:03 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 1860/2088 [3:48:32<26:44,  7.04s/it]
+2025-10-06 18:57:10 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 1861/2088 [3:48:39<26:32,  7.02s/it]
+2025-10-06 18:57:10 - ERROR - stderr - 
+2025-10-06 18:57:10 - ERROR - stderr - 
+2025-10-06 18:57:10 - INFO - stdout - {'loss': 0.9327, 'learning_rate': 3.068656179951618e-05, 'epoch': 5.35}
+2025-10-06 18:57:10 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 1861/2088 [3:48:39<26:32,  7.02s/it]
+2025-10-06 18:57:17 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 1862/2088 [3:48:45<26:01,  6.91s/it]
+2025-10-06 18:57:17 - ERROR - stderr - 
+2025-10-06 18:57:17 - ERROR - stderr - 
+2025-10-06 18:57:17 - INFO - stdout - {'loss': 0.9647, 'learning_rate': 3.04195605976883e-05, 'epoch': 5.35}
+2025-10-06 18:57:17 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 1862/2088 [3:48:45<26:01,  6.91s/it]
+2025-10-06 18:57:24 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 1863/2088 [3:48:53<26:14,  7.00s/it]
+2025-10-06 18:57:24 - ERROR - stderr - 
+2025-10-06 18:57:24 - ERROR - stderr - 
+2025-10-06 18:57:24 - INFO - stdout - {'loss': 0.9122, 'learning_rate': 3.0153689607045842e-05, 'epoch': 5.35}
+2025-10-06 18:57:24 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 1863/2088 [3:48:53<26:14,  7.00s/it]
+2025-10-06 18:57:31 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 1864/2088 [3:49:00<26:14,  7.03s/it]
+2025-10-06 18:57:31 - ERROR - stderr - 
+2025-10-06 18:57:31 - ERROR - stderr - 
+2025-10-06 18:57:31 - INFO - stdout - {'loss': 0.951, 'learning_rate': 2.9888949467501148e-05, 'epoch': 5.36}
+2025-10-06 18:57:31 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 1864/2088 [3:49:00<26:14,  7.03s/it]
+2025-10-06 18:57:38 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▉           | 1865/2088 [3:49:07<25:56,  6.98s/it]
+2025-10-06 18:57:38 - ERROR - stderr - 
+2025-10-06 18:57:38 - ERROR - stderr - 
+2025-10-06 18:57:38 - INFO - stdout - {'loss': 0.9223, 'learning_rate': 2.9625340816244796e-05, 'epoch': 5.36}
+2025-10-06 18:57:38 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▉           | 1865/2088 [3:49:07<25:56,  6.98s/it]
+2025-10-06 18:57:45 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▉           | 1866/2088 [3:49:14<25:52,  6.99s/it]
+2025-10-06 18:57:45 - ERROR - stderr - 
+2025-10-06 18:57:45 - ERROR - stderr - 
+2025-10-06 18:57:45 - INFO - stdout - {'loss': 0.9684, 'learning_rate': 2.9362864287744263e-05, 'epoch': 5.36}
+2025-10-06 18:57:45 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▉           | 1866/2088 [3:49:14<25:52,  6.99s/it]
+2025-10-06 18:57:52 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▉           | 1867/2088 [3:49:21<25:51,  7.02s/it]
+2025-10-06 18:57:52 - ERROR - stderr - 
+2025-10-06 18:57:52 - ERROR - stderr - 
+2025-10-06 18:57:52 - INFO - stdout - {'loss': 0.8947, 'learning_rate': 2.910152051374193e-05, 'epoch': 5.36}
+2025-10-06 18:57:52 - ERROR - stderr -  89%|████████████████████████████████████████████████████████████████████████████████████████████▉           | 1867/2088 [3:49:21<25:51,  7.02s/it]
+2025-10-06 18:57:59 - ERROR - stderr -  89%|█████████████████████████████████████████████████████████████████████████████████████████████           | 1868/2088 [3:49:28<25:55,  7.07s/it]
+2025-10-06 18:57:59 - ERROR - stderr - 
+2025-10-06 18:57:59 - ERROR - stderr - 
+2025-10-06 18:57:59 - INFO - stdout - {'loss': 0.9641, 'learning_rate': 2.884131012325386e-05, 'epoch': 5.37}
+2025-10-06 18:57:59 - ERROR - stderr -  89%|█████████████████████████████████████████████████████████████████████████████████████████████           | 1868/2088 [3:49:28<25:55,  7.07s/it]
+2025-10-06 18:58:06 - ERROR - stderr -  90%|█████████████████████████████████████████████████████���███████████████████████████████████████           | 1869/2088 [3:49:35<25:37,  7.02s/it]
+2025-10-06 18:58:06 - ERROR - stderr - 
+2025-10-06 18:58:06 - ERROR - stderr - 
+2025-10-06 18:58:06 - INFO - stdout - {'loss': 0.9394, 'learning_rate': 2.858223374256841e-05, 'epoch': 5.37}
+2025-10-06 18:58:06 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████           | 1869/2088 [3:49:35<25:37,  7.02s/it]
+2025-10-06 18:58:13 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▏          | 1870/2088 [3:49:42<25:16,  6.96s/it]
+2025-10-06 18:58:13 - ERROR - stderr - 
+2025-10-06 18:58:13 - ERROR - stderr - 
+2025-10-06 18:58:13 - INFO - stdout - {'loss': 0.897, 'learning_rate': 2.8324291995244334e-05, 'epoch': 5.37}
+2025-10-06 18:58:13 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▏          | 1870/2088 [3:49:42<25:16,  6.96s/it]
+2025-10-06 18:58:20 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▏          | 1871/2088 [3:49:48<25:09,  6.96s/it]
+2025-10-06 18:58:20 - ERROR - stderr - 
+2025-10-06 18:58:20 - ERROR - stderr - 
+2025-10-06 18:58:20 - INFO - stdout - {'loss': 0.9795, 'learning_rate': 2.806748550210958e-05, 'epoch': 5.38}
+2025-10-06 18:58:20 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▏          | 1871/2088 [3:49:48<25:09,  6.96s/it]
+2025-10-06 18:58:27 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▏          | 1872/2088 [3:49:55<24:59,  6.94s/it]
+2025-10-06 18:58:27 - ERROR - stderr - 
+2025-10-06 18:58:27 - ERROR - stderr - 
+2025-10-06 18:58:27 - INFO - stdout - {'loss': 0.8935, 'learning_rate': 2.78118148812595e-05, 'epoch': 5.38}
+2025-10-06 18:58:27 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▏          | 1872/2088 [3:49:55<24:59,  6.94s/it]
+2025-10-06 18:58:34 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▎          | 1873/2088 [3:50:02<25:00,  6.98s/it]
+2025-10-06 18:58:34 - ERROR - stderr - 
+2025-10-06 18:58:34 - ERROR - stderr - 
+2025-10-06 18:58:34 - INFO - stdout - {'loss': 0.914, 'learning_rate': 2.7557280748055968e-05, 'epoch': 5.38}
+2025-10-06 18:58:34 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▎          | 1873/2088 [3:50:02<25:00,  6.98s/it]
+2025-10-06 18:58:41 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▎          | 1874/2088 [3:50:10<25:06,  7.04s/it]
+2025-10-06 18:58:41 - ERROR - stderr - 
+2025-10-06 18:58:41 - ERROR - stderr - 
+2025-10-06 18:58:41 - INFO - stdout - {'loss': 0.9209, 'learning_rate': 2.73038837151251e-05, 'epoch': 5.39}
+2025-10-06 18:58:41 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▎          | 1874/2088 [3:50:10<25:06,  7.04s/it]
+2025-10-06 18:58:48 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▍          | 1875/2088 [3:50:17<25:18,  7.13s/it]
+2025-10-06 18:58:48 - ERROR - stderr - 
+2025-10-06 18:58:48 - ERROR - stderr - 
+2025-10-06 18:58:48 - INFO - stdout - {'loss': 0.9892, 'learning_rate': 2.705162439235648e-05, 'epoch': 5.39}
+2025-10-06 18:58:48 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▍          | 1875/2088 [3:50:17<25:18,  7.13s/it]
+2025-10-06 18:58:56 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▍          | 1876/2088 [3:50:24<25:09,  7.12s/it]
+2025-10-06 18:58:56 - ERROR - stderr - 
+2025-10-06 18:58:56 - ERROR - stderr - 
+2025-10-06 18:58:56 - INFO - stdout - {'loss': 0.9247, 'learning_rate': 2.680050338690132e-05, 'epoch': 5.39}
+2025-10-06 18:58:56 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▍          | 1876/2088 [3:50:24<25:09,  7.12s/it]
+2025-10-06 18:59:03 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▍          | 1877/2088 [3:50:31<24:53,  7.08s/it]
+2025-10-06 18:59:03 - ERROR - stderr - 
+2025-10-06 18:59:03 - ERROR - stderr - 
+2025-10-06 18:59:03 - INFO - stdout - {'loss': 0.891, 'learning_rate': 2.6550521303170873e-05, 'epoch': 5.39}
+2025-10-06 18:59:03 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▍          | 1877/2088 [3:50:31<24:53,  7.08s/it]
+2025-10-06 18:59:10 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▌          | 1878/2088 [3:50:38<24:52,  7.11s/it]
+2025-10-06 18:59:10 - ERROR - stderr - 
+2025-10-06 18:59:10 - ERROR - stderr - 
+2025-10-06 18:59:10 - INFO - stdout - {'loss': 0.956, 'learning_rate': 2.63016787428354e-05, 'epoch': 5.4}
+2025-10-06 18:59:10 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▌          | 1878/2088 [3:50:38<24:52,  7.11s/it]
+2025-10-06 18:59:17 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▌          | 1879/2088 [3:50:45<24:50,  7.13s/it]
+2025-10-06 18:59:17 - ERROR - stderr - 
+2025-10-06 18:59:17 - ERROR - stderr - 
+2025-10-06 18:59:17 - INFO - stdout - {'loss': 0.9543, 'learning_rate': 2.605397630482237e-05, 'epoch': 5.4}
+2025-10-06 18:59:17 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▌          | 1879/2088 [3:50:45<24:50,  7.13s/it]
+2025-10-06 18:59:24 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▋          | 1880/2088 [3:50:52<24:32,  7.08s/it]
+2025-10-06 18:59:24 - ERROR - stderr - 
+2025-10-06 18:59:24 - ERROR - stderr - 
+2025-10-06 18:59:24 - INFO - stdout - {'loss': 0.9271, 'learning_rate': 2.580741458531516e-05, 'epoch': 5.4}
+2025-10-06 18:59:24 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▋          | 1880/2088 [3:50:52<24:32,  7.08s/it]
+2025-10-06 18:59:32 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▋          | 1881/2088 [3:51:00<25:07,  7.28s/it]
+2025-10-06 18:59:32 - ERROR - stderr - 
+2025-10-06 18:59:32 - ERROR - stderr - 
+2025-10-06 18:59:32 - INFO - stdout - {'loss': 1.0192, 'learning_rate': 2.5561994177751735e-05, 'epoch': 5.41}
+2025-10-06 18:59:32 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▋          | 1881/2088 [3:51:00<25:07,  7.28s/it]
+2025-10-06 18:59:39 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▋          | 1882/2088 [3:51:07<24:57,  7.27s/it]
+2025-10-06 18:59:39 - ERROR - stderr - 
+2025-10-06 18:59:39 - ERROR - stderr - 
+2025-10-06 18:59:39 - INFO - stdout - {'loss': 0.9655, 'learning_rate': 2.5317715672822926e-05, 'epoch': 5.41}
+2025-10-06 18:59:39 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▋          | 1882/2088 [3:51:07<24:57,  7.27s/it]
+2025-10-06 18:59:46 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▊          | 1883/2088 [3:51:15<24:45,  7.24s/it]
+2025-10-06 18:59:46 - ERROR - stderr - 
+2025-10-06 18:59:46 - ERROR - stderr - 
+2025-10-06 18:59:46 - INFO - stdout - {'loss': 0.9577, 'learning_rate': 2.5074579658471265e-05, 'epoch': 5.41}
+2025-10-06 18:59:46 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▊          | 1883/2088 [3:51:15<24:45,  7.24s/it]
+2025-10-06 18:59:53 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▊          | 1884/2088 [3:51:22<24:25,  7.18s/it]
+2025-10-06 18:59:53 - ERROR - stderr - 
+2025-10-06 18:59:53 - ERROR - stderr - 
+2025-10-06 18:59:53 - INFO - stdout - {'loss': 0.9575, 'learning_rate': 2.4832586719889417e-05, 'epoch': 5.41}
+2025-10-06 18:59:53 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▊          | 1884/2088 [3:51:22<24:25,  7.18s/it]
+2025-10-06 19:00:00 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▉          | 1885/2088 [3:51:29<24:19,  7.19s/it]
+2025-10-06 19:00:00 - ERROR - stderr - 
+2025-10-06 19:00:00 - ERROR - stderr - 
+2025-10-06 19:00:00 - INFO - stdout - {'loss': 0.8566, 'learning_rate': 2.459173743951898e-05, 'epoch': 5.42}
+2025-10-06 19:00:00 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▉          | 1885/2088 [3:51:29<24:19,  7.19s/it]
+2025-10-06 19:00:08 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▉          | 1886/2088 [3:51:36<24:14,  7.20s/it]
+2025-10-06 19:00:08 - ERROR - stderr - 
+2025-10-06 19:00:08 - ERROR - stderr - 
+2025-10-06 19:00:08 - INFO - stdout - {'loss': 0.9135, 'learning_rate': 2.4352032397048585e-05, 'epoch': 5.42}
+2025-10-06 19:00:08 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▉          | 1886/2088 [3:51:36<24:14,  7.20s/it]
+2025-10-06 19:00:15 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▉          | 1887/2088 [3:51:43<23:57,  7.15s/it]
+2025-10-06 19:00:15 - ERROR - stderr - 
+2025-10-06 19:00:15 - ERROR - stderr - 
+2025-10-06 19:00:15 - INFO - stdout - {'loss': 0.9523, 'learning_rate': 2.4113472169413175e-05, 'epoch': 5.42}
+2025-10-06 19:00:15 - ERROR - stderr -  90%|█████████████████████████████████████████████████████████████████████████████████████████████▉          | 1887/2088 [3:51:43<23:57,  7.15s/it]
+2025-10-06 19:00:22 - ERROR - stderr -  90%|██████████████████████████████████████████████████████████████████████████████████████████████          | 1888/2088 [3:51:50<23:43,  7.12s/it]
+2025-10-06 19:00:22 - ERROR - stderr - 
+2025-10-06 19:00:22 - ERROR - stderr - 
+2025-10-06 19:00:22 - INFO - stdout - {'loss': 0.9774, 'learning_rate': 2.3876057330792345e-05, 'epoch': 5.43}
+2025-10-06 19:00:22 - ERROR - stderr -  90%|██████████████████████████████████████████████████████████████████████████████████████████████          | 1888/2088 [3:51:50<23:43,  7.12s/it]
+2025-10-06 19:00:29 - ERROR - stderr -  90%|██████████████████████████████████████████████████████████████████████████████████████████████          | 1889/2088 [3:51:57<23:41,  7.14s/it]
+2025-10-06 19:00:29 - ERROR - stderr - 
+2025-10-06 19:00:29 - ERROR - stderr - 
+2025-10-06 19:00:29 - INFO - stdout - {'loss': 0.8849, 'learning_rate': 2.3639788452608556e-05, 'epoch': 5.43}
+2025-10-06 19:00:29 - ERROR - stderr -  90%|██████████████████████████████████████████████████████████████████████████████████████████████          | 1889/2088 [3:51:57<23:41,  7.14s/it]
+2025-10-06 19:00:36 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▏         | 1890/2088 [3:52:04<23:24,  7.09s/it]
+2025-10-06 19:00:36 - ERROR - stderr - 
+2025-10-06 19:00:36 - ERROR - stderr - 
+2025-10-06 19:00:36 - INFO - stdout - {'loss': 0.9411, 'learning_rate': 2.340466610352654e-05, 'epoch': 5.43}
+2025-10-06 19:00:36 - ERROR - stderr -  91%|█████████████████████████████████████████████████████████████���████████████████████████████████▏         | 1890/2088 [3:52:04<23:24,  7.09s/it]
+2025-10-06 19:00:43 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▏         | 1891/2088 [3:52:11<23:01,  7.01s/it]
+2025-10-06 19:00:43 - ERROR - stderr - 
+2025-10-06 19:00:43 - ERROR - stderr - 
+2025-10-06 19:00:43 - INFO - stdout - {'loss': 0.9056, 'learning_rate': 2.3170690849451004e-05, 'epoch': 5.43}
+2025-10-06 19:00:43 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▏         | 1891/2088 [3:52:11<23:01,  7.01s/it]
+2025-10-06 19:00:50 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▏         | 1892/2088 [3:52:18<22:56,  7.02s/it]
+2025-10-06 19:00:50 - ERROR - stderr - 
+2025-10-06 19:00:50 - ERROR - stderr - 
+2025-10-06 19:00:50 - INFO - stdout - {'loss': 0.9487, 'learning_rate': 2.293786325352626e-05, 'epoch': 5.44}
+2025-10-06 19:00:50 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▏         | 1892/2088 [3:52:18<22:56,  7.02s/it]
+2025-10-06 19:00:57 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▎         | 1893/2088 [3:52:25<22:43,  6.99s/it]
+2025-10-06 19:00:57 - ERROR - stderr - 
+2025-10-06 19:00:57 - ERROR - stderr - 
+2025-10-06 19:00:57 - INFO - stdout - {'loss': 0.893, 'learning_rate': 2.2706183876134045e-05, 'epoch': 5.44}
+2025-10-06 19:00:57 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▎         | 1893/2088 [3:52:25<22:43,  6.99s/it]
+2025-10-06 19:01:04 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▎         | 1894/2088 [3:52:32<22:55,  7.09s/it]
+2025-10-06 19:01:04 - ERROR - stderr - 
+2025-10-06 19:01:04 - ERROR - stderr - 
+2025-10-06 19:01:04 - INFO - stdout - {'loss': 0.877, 'learning_rate': 2.2475653274892594e-05, 'epoch': 5.44}
+2025-10-06 19:01:04 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▎         | 1894/2088 [3:52:32<22:55,  7.09s/it]
+2025-10-06 19:01:11 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▍         | 1895/2088 [3:52:40<23:02,  7.17s/it]
+2025-10-06 19:01:11 - ERROR - stderr - 
+2025-10-06 19:01:11 - ERROR - stderr - 
+2025-10-06 19:01:11 - INFO - stdout - {'loss': 0.9011, 'learning_rate': 2.2246272004655345e-05, 'epoch': 5.45}
+2025-10-06 19:01:11 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▍         | 1895/2088 [3:52:40<23:02,  7.17s/it]
+2025-10-06 19:01:18 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▍         | 1896/2088 [3:52:47<22:45,  7.11s/it]
+2025-10-06 19:01:18 - ERROR - stderr - 
+2025-10-06 19:01:18 - ERROR - stderr - 
+2025-10-06 19:01:18 - INFO - stdout - {'loss': 0.9258, 'learning_rate': 2.201804061750917e-05, 'epoch': 5.45}
+2025-10-06 19:01:18 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▍         | 1896/2088 [3:52:47<22:45,  7.11s/it]
+2025-10-06 19:01:26 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▍         | 1897/2088 [3:52:54<22:50,  7.18s/it]
+2025-10-06 19:01:26 - ERROR - stderr - 
+2025-10-06 19:01:26 - ERROR - stderr - 
+2025-10-06 19:01:26 - INFO - stdout - {'loss': 0.8806, 'learning_rate': 2.1790959662773723e-05, 'epoch': 5.45}
+2025-10-06 19:01:26 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▍         | 1897/2088 [3:52:54<22:50,  7.18s/it]
+2025-10-06 19:01:32 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▌         | 1898/2088 [3:53:01<22:21,  7.06s/it]
+2025-10-06 19:01:32 - ERROR - stderr - 
+2025-10-06 19:01:32 - ERROR - stderr - 
+2025-10-06 19:01:32 - INFO - stdout - {'loss': 0.9161, 'learning_rate': 2.1565029686999303e-05, 'epoch': 5.45}
+2025-10-06 19:01:32 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▌         | 1898/2088 [3:53:01<22:21,  7.06s/it]
+2025-10-06 19:01:39 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▌         | 1899/2088 [3:53:08<22:17,  7.08s/it]
+2025-10-06 19:01:39 - ERROR - stderr - 
+2025-10-06 19:01:39 - ERROR - stderr - 
+2025-10-06 19:01:39 - INFO - stdout - {'loss': 0.9444, 'learning_rate': 2.134025123396638e-05, 'epoch': 5.46}
+2025-10-06 19:01:39 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▌         | 1899/2088 [3:53:08<22:17,  7.08s/it]
+2025-10-06 19:01:46 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▋         | 1900/2088 [3:53:15<21:58,  7.01s/it]
+2025-10-06 19:01:46 - ERROR - stderr - 
+2025-10-06 19:01:46 - ERROR - stderr - 
+2025-10-06 19:01:46 - INFO - stdout - {'loss': 0.9017, 'learning_rate': 2.111662484468363e-05, 'epoch': 5.46}
+2025-10-06 19:01:46 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▋         | 1900/2088 [3:53:15<21:58,  7.01s/it]
+2025-10-06 19:01:54 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▋         | 1901/2088 [3:53:22<22:10,  7.12s/it]
+2025-10-06 19:01:54 - ERROR - stderr - 
+2025-10-06 19:01:54 - ERROR - stderr - 
+2025-10-06 19:01:54 - INFO - stdout - {'loss': 0.927, 'learning_rate': 2.0894151057386845e-05, 'epoch': 5.46}
+2025-10-06 19:01:54 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▋         | 1901/2088 [3:53:22<22:10,  7.12s/it]
+2025-10-06 19:02:01 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▋         | 1902/2088 [3:53:29<21:56,  7.08s/it]
+2025-10-06 19:02:01 - ERROR - stderr - 
+2025-10-06 19:02:01 - ERROR - stderr - 
+2025-10-06 19:02:01 - INFO - stdout - {'loss': 1.0153, 'learning_rate': 2.0672830407537924e-05, 'epoch': 5.47}
+2025-10-06 19:02:01 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▋         | 1902/2088 [3:53:29<21:56,  7.08s/it]
+2025-10-06 19:02:07 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▊         | 1903/2088 [3:53:36<21:32,  6.99s/it]
+2025-10-06 19:02:07 - ERROR - stderr - 
+2025-10-06 19:02:07 - ERROR - stderr - 
+2025-10-06 19:02:07 - INFO - stdout - {'loss': 0.9957, 'learning_rate': 2.0452663427823094e-05, 'epoch': 5.47}
+2025-10-06 19:02:07 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▊         | 1903/2088 [3:53:36<21:32,  6.99s/it]
+2025-10-06 19:02:15 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▊         | 1904/2088 [3:53:43<21:42,  7.08s/it]
+2025-10-06 19:02:15 - ERROR - stderr - 
+2025-10-06 19:02:15 - ERROR - stderr - 
+2025-10-06 19:02:15 - INFO - stdout - {'loss': 0.9319, 'learning_rate': 2.0233650648152026e-05, 'epoch': 5.47}
+2025-10-06 19:02:15 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▊         | 1904/2088 [3:53:43<21:42,  7.08s/it]
+2025-10-06 19:02:22 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▉         | 1905/2088 [3:53:50<21:25,  7.02s/it]
+2025-10-06 19:02:22 - ERROR - stderr - 
+2025-10-06 19:02:22 - ERROR - stderr - 
+2025-10-06 19:02:22 - INFO - stdout - {'loss': 1.0197, 'learning_rate': 2.0015792595656222e-05, 'epoch': 5.47}
+2025-10-06 19:02:22 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▉         | 1905/2088 [3:53:50<21:25,  7.02s/it]
+2025-10-06 19:02:29 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▉         | 1906/2088 [3:53:57<21:14,  7.00s/it]
+2025-10-06 19:02:29 - ERROR - stderr - 
+2025-10-06 19:02:29 - ERROR - stderr - 
+2025-10-06 19:02:29 - INFO - stdout - {'loss': 0.9034, 'learning_rate': 1.9799089794688196e-05, 'epoch': 5.48}
+2025-10-06 19:02:29 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▉         | 1906/2088 [3:53:57<21:14,  7.00s/it]
+2025-10-06 19:02:36 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▉         | 1907/2088 [3:54:04<21:24,  7.10s/it]
+2025-10-06 19:02:36 - ERROR - stderr - 
+2025-10-06 19:02:36 - ERROR - stderr - 
+2025-10-06 19:02:36 - INFO - stdout - {'loss': 0.9518, 'learning_rate': 1.9583542766819616e-05, 'epoch': 5.48}
+2025-10-06 19:02:36 - ERROR - stderr -  91%|██████████████████████████████████████████████████████████████████████████████████████████████▉         | 1907/2088 [3:54:04<21:24,  7.10s/it]
+2025-10-06 19:02:43 - ERROR - stderr -  91%|███████████████████████████████████████████████████████████████████████████████████████████████         | 1908/2088 [3:54:12<21:29,  7.17s/it]
+2025-10-06 19:02:43 - ERROR - stderr - 
+2025-10-06 19:02:43 - ERROR - stderr - 
+2025-10-06 19:02:43 - INFO - stdout - {'loss': 0.9657, 'learning_rate': 1.9369152030840554e-05, 'epoch': 5.48}
+2025-10-06 19:02:43 - ERROR - stderr -  91%|███████████████████████████████████████████████████████████████████████████████████████████████         | 1908/2088 [3:54:12<21:29,  7.17s/it]
+2025-10-06 19:02:50 - ERROR - stderr -  91%|███████████████████████████████████████████████████████████████████████████████████████████████         | 1909/2088 [3:54:19<21:28,  7.20s/it]
+2025-10-06 19:02:51 - ERROR - stderr - 
+2025-10-06 19:02:51 - ERROR - stderr - 
+2025-10-06 19:02:51 - INFO - stdout - {'loss': 0.9141, 'learning_rate': 1.9155918102758185e-05, 'epoch': 5.49}
+2025-10-06 19:02:51 - ERROR - stderr -  91%|███████████████████████████████████████████████████████████████████████████████████████████████         | 1909/2088 [3:54:19<21:28,  7.20s/it]
+2025-10-06 19:02:58 - ERROR - stderr -  91%|███████████████████████████████████████████████████████████████████████████████████████████████▏        | 1910/2088 [3:54:26<21:25,  7.22s/it]
+2025-10-06 19:02:58 - ERROR - stderr - 
+2025-10-06 19:02:58 - ERROR - stderr - 
+2025-10-06 19:02:58 - INFO - stdout - {'loss': 0.8918, 'learning_rate': 1.8943841495795088e-05, 'epoch': 5.49}
+2025-10-06 19:02:58 - ERROR - stderr -  91%|███████████████████████████████████████████████████████████████████████████████████████████████▏        | 1910/2088 [3:54:26<21:25,  7.22s/it]
+2025-10-06 19:03:05 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▏        | 1911/2088 [3:54:33<21:12,  7.19s/it]
+2025-10-06 19:03:05 - ERROR - stderr - 
+2025-10-06 19:03:05 - ERROR - stderr - 
+2025-10-06 19:03:05 - INFO - stdout - {'loss': 0.9622, 'learning_rate': 1.873292272038868e-05, 'epoch': 5.49}
+2025-10-06 19:03:05 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▏        | 1911/2088 [3:54:33<21:12,  7.19s/it]
+2025-10-06 19:03:12 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▏        | 1912/2088 [3:54:41<21:04,  7.19s/it]
+2025-10-06 19:03:12 - ERROR - stderr - 
+2025-10-06 19:03:12 - ERROR - stderr - 
+2025-10-06 19:03:12 - INFO - stdout - {'loss': 0.9359, 'learning_rate': 1.8523162284189378e-05, 'epoch': 5.49}
+2025-10-06 19:03:12 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▏        | 1912/2088 [3:54:41<21:04,  7.19s/it]
+2025-10-06 19:03:19 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▎        | 1913/2088 [3:54:48<20:50,  7.15s/it]
+2025-10-06 19:03:19 - ERROR - stderr - 
+2025-10-06 19:03:19 - ERROR - stderr - 
+2025-10-06 19:03:19 - INFO - stdout - {'loss': 0.9652, 'learning_rate': 1.8314560692059833e-05, 'epoch': 5.5}
+2025-10-06 19:03:19 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▎        | 1913/2088 [3:54:48<20:50,  7.15s/it]
+2025-10-06 19:03:26 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▎        | 1914/2088 [3:54:55<20:43,  7.15s/it]
+2025-10-06 19:03:26 - ERROR - stderr - 
+2025-10-06 19:03:26 - ERROR - stderr - 
+2025-10-06 19:03:26 - INFO - stdout - {'loss': 0.9178, 'learning_rate': 1.810711844607349e-05, 'epoch': 5.5}
+2025-10-06 19:03:26 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▎        | 1914/2088 [3:54:55<20:43,  7.15s/it]
+2025-10-06 19:03:33 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▍        | 1915/2088 [3:55:02<20:26,  7.09s/it]
+2025-10-06 19:03:33 - ERROR - stderr - 
+2025-10-06 19:03:33 - ERROR - stderr - 
+2025-10-06 19:03:33 - INFO - stdout - {'loss': 0.9333, 'learning_rate': 1.790083604551318e-05, 'epoch': 5.5}
+2025-10-06 19:03:33 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▍        | 1915/2088 [3:55:02<20:26,  7.09s/it]
+2025-10-06 19:03:40 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▍        | 1916/2088 [3:55:09<20:06,  7.02s/it]
+2025-10-06 19:03:40 - ERROR - stderr - 
+2025-10-06 19:03:40 - ERROR - stderr - 
+2025-10-06 19:03:40 - INFO - stdout - {'loss': 0.9035, 'learning_rate': 1.769571398687059e-05, 'epoch': 5.51}
+2025-10-06 19:03:40 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▍        | 1916/2088 [3:55:09<20:06,  7.02s/it]
+2025-10-06 19:03:47 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▍        | 1917/2088 [3:55:15<19:50,  6.96s/it]
+2025-10-06 19:03:47 - ERROR - stderr - 
+2025-10-06 19:03:47 - ERROR - stderr - 
+2025-10-06 19:03:47 - INFO - stdout - {'loss': 0.9735, 'learning_rate': 1.7491752763844293e-05, 'epoch': 5.51}
+2025-10-06 19:03:47 - ERROR - stderr -  92%|█████████████████████���█████████████████████████████████████████████████████████████████████████▍        | 1917/2088 [3:55:15<19:50,  6.96s/it]
+2025-10-06 19:03:54 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▌        | 1918/2088 [3:55:23<19:57,  7.04s/it]
+2025-10-06 19:03:54 - ERROR - stderr - 
+2025-10-06 19:03:54 - ERROR - stderr - 
+2025-10-06 19:03:54 - INFO - stdout - {'loss': 0.9328, 'learning_rate': 1.728895286733906e-05, 'epoch': 5.51}
+2025-10-06 19:03:54 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▌        | 1918/2088 [3:55:23<19:57,  7.04s/it]
+2025-10-06 19:04:01 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▌        | 1919/2088 [3:55:30<19:42,  7.00s/it]
+2025-10-06 19:04:01 - ERROR - stderr - 
+2025-10-06 19:04:01 - ERROR - stderr - 
+2025-10-06 19:04:01 - INFO - stdout - {'loss': 0.95, 'learning_rate': 1.7087314785464382e-05, 'epoch': 5.51}
+2025-10-06 19:04:01 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▌        | 1919/2088 [3:55:30<19:42,  7.00s/it]
+2025-10-06 19:04:08 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▋        | 1920/2088 [3:55:36<19:32,  6.98s/it]
+2025-10-06 19:04:08 - ERROR - stderr - 
+2025-10-06 19:04:08 - ERROR - stderr - 
+2025-10-06 19:04:08 - INFO - stdout - {'loss': 0.9434, 'learning_rate': 1.688683900353366e-05, 'epoch': 5.52}
+2025-10-06 19:04:08 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▋        | 1920/2088 [3:55:36<19:32,  6.98s/it]
+2025-10-06 19:04:15 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▋        | 1921/2088 [3:55:43<19:19,  6.94s/it]
+2025-10-06 19:04:15 - ERROR - stderr - 
+2025-10-06 19:04:15 - ERROR - stderr - 
+2025-10-06 19:04:15 - INFO - stdout - {'loss': 0.9374, 'learning_rate': 1.668752600406259e-05, 'epoch': 5.52}
+2025-10-06 19:04:15 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▋        | 1921/2088 [3:55:43<19:19,  6.94s/it]
+2025-10-06 19:04:22 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▋        | 1922/2088 [3:55:50<19:19,  6.98s/it]
+2025-10-06 19:04:22 - ERROR - stderr - 
+2025-10-06 19:04:22 - ERROR - stderr - 
+2025-10-06 19:04:22 - INFO - stdout - {'loss': 0.9725, 'learning_rate': 1.648937626676822e-05, 'epoch': 5.52}
+2025-10-06 19:04:22 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▋        | 1922/2088 [3:55:50<19:19,  6.98s/it]
+2025-10-06 19:04:29 - ERROR - stderr -  92%|█████████��█████████████████████████████████████████████████████████████████████████████████████▊        | 1923/2088 [3:55:57<19:17,  7.01s/it]
+2025-10-06 19:04:29 - ERROR - stderr - 
+2025-10-06 19:04:29 - ERROR - stderr - 
+2025-10-06 19:04:29 - INFO - stdout - {'loss': 0.8637, 'learning_rate': 1.6292390268568102e-05, 'epoch': 5.53}
+2025-10-06 19:04:29 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▊        | 1923/2088 [3:55:57<19:17,  7.01s/it]
+2025-10-06 19:04:36 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▊        | 1924/2088 [3:56:05<19:17,  7.06s/it]
+2025-10-06 19:04:36 - ERROR - stderr - 
+2025-10-06 19:04:36 - ERROR - stderr - 
+2025-10-06 19:04:36 - INFO - stdout - {'loss': 0.9359, 'learning_rate': 1.6096568483578377e-05, 'epoch': 5.53}
+2025-10-06 19:04:36 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▊        | 1924/2088 [3:56:05<19:17,  7.06s/it]
+2025-10-06 19:04:43 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▉        | 1925/2088 [3:56:12<19:21,  7.13s/it]
+2025-10-06 19:04:43 - ERROR - stderr - 
+2025-10-06 19:04:43 - ERROR - stderr - 
+2025-10-06 19:04:43 - INFO - stdout - {'loss': 0.8813, 'learning_rate': 1.590191138311342e-05, 'epoch': 5.53}
+2025-10-06 19:04:43 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▉        | 1925/2088 [3:56:12<19:21,  7.13s/it]
+2025-10-06 19:04:51 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▉        | 1926/2088 [3:56:19<19:14,  7.12s/it]
+2025-10-06 19:04:51 - ERROR - stderr - 
+2025-10-06 19:04:51 - ERROR - stderr - 
+2025-10-06 19:04:51 - INFO - stdout - {'loss': 0.8906, 'learning_rate': 1.5708419435684463e-05, 'epoch': 5.53}
+2025-10-06 19:04:51 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▉        | 1926/2088 [3:56:19<19:14,  7.12s/it]
+2025-10-06 19:04:58 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▉        | 1927/2088 [3:56:26<19:05,  7.12s/it]
+2025-10-06 19:04:58 - ERROR - stderr - 
+2025-10-06 19:04:58 - ERROR - stderr - 
+2025-10-06 19:04:58 - INFO - stdout - {'loss': 0.8752, 'learning_rate': 1.5516093106997974e-05, 'epoch': 5.54}
+2025-10-06 19:04:58 - ERROR - stderr -  92%|███████████████████████████████████████████████████████████████████████████████████████████████▉        | 1927/2088 [3:56:26<19:05,  7.12s/it]
+2025-10-06 19:05:05 - ERROR - stderr -  92%|████████████████████████████████████████████████████████████████████████████████████████████████        | 1928/2088 [3:56:33<18:57,  7.11s/it]
+2025-10-06 19:05:05 - ERROR - stderr - 
+2025-10-06 19:05:05 - ERROR - stderr - 
+2025-10-06 19:05:05 - INFO - stdout - {'loss': 0.9593, 'learning_rate': 1.5324932859955398e-05, 'epoch': 5.54}
+2025-10-06 19:05:05 - ERROR - stderr -  92%|████████████████████████████████████████████████████████████████████████████████████████████████        | 1928/2088 [3:56:33<18:57,  7.11s/it]
+2025-10-06 19:05:12 - ERROR - stderr -  92%|████████████████████████████████████████████████████████████████████████████████████████████████        | 1929/2088 [3:56:40<18:41,  7.06s/it]
+2025-10-06 19:05:12 - ERROR - stderr - 
+2025-10-06 19:05:12 - ERROR - stderr - 
+2025-10-06 19:05:12 - INFO - stdout - {'loss': 0.9663, 'learning_rate': 1.5134939154651196e-05, 'epoch': 5.54}
+2025-10-06 19:05:12 - ERROR - stderr -  92%|████████████████████████████████████████████████████████████████████████████████████████████████        | 1929/2088 [3:56:40<18:41,  7.06s/it]
+2025-10-06 19:05:19 - ERROR - stderr -  92%|████████████████████████████████████████████████████████████████████████████████████████████████▏       | 1930/2088 [3:56:47<18:28,  7.01s/it]
+2025-10-06 19:05:19 - ERROR - stderr - 
+2025-10-06 19:05:19 - ERROR - stderr - 
+2025-10-06 19:05:19 - INFO - stdout - {'loss': 0.8674, 'learning_rate': 1.4946112448372463e-05, 'epoch': 5.55}
+2025-10-06 19:05:19 - ERROR - stderr -  92%|████████████████████████████████████████████████████████████████████████████████████████████████▏       | 1930/2088 [3:56:47<18:28,  7.01s/it]
+2025-10-06 19:05:26 - ERROR - stderr -  92%|████████████████████████████████████████████████████████████████████████████████████████████████▏       | 1931/2088 [3:56:54<18:17,  6.99s/it]
+2025-10-06 19:05:26 - ERROR - stderr - 
+2025-10-06 19:05:26 - ERROR - stderr - 
+2025-10-06 19:05:26 - INFO - stdout - {'loss': 0.9207, 'learning_rate': 1.4758453195597266e-05, 'epoch': 5.55}
+2025-10-06 19:05:26 - ERROR - stderr -  92%|████████████████████████████████████████████████████████████████████████████████████████████████▏       | 1931/2088 [3:56:54<18:17,  6.99s/it]
+2025-10-06 19:05:33 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▏       | 1932/2088 [3:57:01<18:18,  7.04s/it]
+2025-10-06 19:05:33 - ERROR - stderr - 
+2025-10-06 19:05:33 - ERROR - stderr - 
+2025-10-06 19:05:33 - INFO - stdout - {'loss': 0.943, 'learning_rate': 1.4571961847993976e-05, 'epoch': 5.55}
+2025-10-06 19:05:33 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▏       | 1932/2088 [3:57:01<18:18,  7.04s/it]
+2025-10-06 19:05:40 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▎       | 1933/2088 [3:57:08<18:08,  7.02s/it]
+2025-10-06 19:05:40 - ERROR - stderr - 
+2025-10-06 19:05:40 - ERROR - stderr - 
+2025-10-06 19:05:40 - INFO - stdout - {'loss': 0.9549, 'learning_rate': 1.438663885441982e-05, 'epoch': 5.55}
+2025-10-06 19:05:40 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▎       | 1933/2088 [3:57:08<18:08,  7.02s/it]
+2025-10-06 19:05:47 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▎       | 1934/2088 [3:57:15<18:10,  7.08s/it]
+2025-10-06 19:05:47 - ERROR - stderr - 
+2025-10-06 19:05:47 - ERROR - stderr - 
+2025-10-06 19:05:47 - INFO - stdout - {'loss': 0.9355, 'learning_rate': 1.4202484660920057e-05, 'epoch': 5.56}
+2025-10-06 19:05:47 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▎       | 1934/2088 [3:57:15<18:10,  7.08s/it]
+2025-10-06 19:05:55 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▍       | 1935/2088 [3:57:23<18:34,  7.28s/it]
+2025-10-06 19:05:55 - ERROR - stderr - 
+2025-10-06 19:05:55 - ERROR - stderr - 
+2025-10-06 19:05:55 - INFO - stdout - {'loss': 0.8933, 'learning_rate': 1.4019499710726914e-05, 'epoch': 5.56}
+2025-10-06 19:05:55 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▍       | 1935/2088 [3:57:23<18:34,  7.28s/it]
+2025-10-06 19:06:02 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▍       | 1936/2088 [3:57:30<18:13,  7.20s/it]
+2025-10-06 19:06:02 - ERROR - stderr - 
+2025-10-06 19:06:02 - ERROR - stderr - 
+2025-10-06 19:06:02 - INFO - stdout - {'loss': 0.9496, 'learning_rate': 1.3837684444258092e-05, 'epoch': 5.56}
+2025-10-06 19:06:02 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▍       | 1936/2088 [3:57:30<18:13,  7.20s/it]
+2025-10-06 19:06:09 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▍       | 1937/2088 [3:57:37<18:00,  7.15s/it]
+2025-10-06 19:06:09 - ERROR - stderr - 
+2025-10-06 19:06:09 - ERROR - stderr - 
+2025-10-06 19:06:09 - INFO - stdout - {'loss': 0.907, 'learning_rate': 1.365703929911638e-05, 'epoch': 5.57}
+2025-10-06 19:06:09 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▍       | 1937/2088 [3:57:37<18:00,  7.15s/it]
+2025-10-06 19:06:16 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▌       | 1938/2088 [3:57:44<17:55,  7.17s/it]
+2025-10-06 19:06:16 - ERROR - stderr - 
+2025-10-06 19:06:16 - ERROR - stderr - 
+2025-10-06 19:06:16 - INFO - stdout - {'loss': 0.9374, 'learning_rate': 1.3477564710088097e-05, 'epoch': 5.57}
+2025-10-06 19:06:16 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▌       | 1938/2088 [3:57:44<17:55,  7.17s/it]
+2025-10-06 19:06:24 - ERROR - stderr -  93%|████████████████████��███████████████████████████████████████████████████████████████████████████▌       | 1939/2088 [3:57:52<18:08,  7.31s/it]
+2025-10-06 19:06:24 - ERROR - stderr - 
+2025-10-06 19:06:24 - ERROR - stderr - 
+2025-10-06 19:06:24 - INFO - stdout - {'loss': 0.9447, 'learning_rate': 1.3299261109142203e-05, 'epoch': 5.57}
+2025-10-06 19:06:24 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▌       | 1939/2088 [3:57:52<18:08,  7.31s/it]
+2025-10-06 19:06:31 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▋       | 1940/2088 [3:58:00<18:16,  7.41s/it]
+2025-10-06 19:06:31 - ERROR - stderr - 
+2025-10-06 19:06:31 - ERROR - stderr - 
+2025-10-06 19:06:31 - INFO - stdout - {'loss': 0.8776, 'learning_rate': 1.3122128925429356e-05, 'epoch': 5.57}
+2025-10-06 19:06:31 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▋       | 1940/2088 [3:58:00<18:16,  7.41s/it]
+2025-10-06 19:06:38 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▋       | 1941/2088 [3:58:07<17:52,  7.29s/it]
+2025-10-06 19:06:38 - ERROR - stderr - 
+2025-10-06 19:06:38 - ERROR - stderr - 
+2025-10-06 19:06:38 - INFO - stdout - {'loss': 0.9783, 'learning_rate': 1.2946168585280638e-05, 'epoch': 5.58}
+2025-10-06 19:06:38 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▋       | 1941/2088 [3:58:07<17:52,  7.29s/it]
+2025-10-06 19:06:46 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▋       | 1942/2088 [3:58:14<17:47,  7.31s/it]
+2025-10-06 19:06:46 - ERROR - stderr - 
+2025-10-06 19:06:46 - ERROR - stderr - 
+2025-10-06 19:06:46 - INFO - stdout - {'loss': 0.9505, 'learning_rate': 1.2771380512206888e-05, 'epoch': 5.58}
+2025-10-06 19:06:46 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▋       | 1942/2088 [3:58:14<17:47,  7.31s/it]
+2025-10-06 19:06:53 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▊       | 1943/2088 [3:58:21<17:35,  7.28s/it]
+2025-10-06 19:06:53 - ERROR - stderr - 
+2025-10-06 19:06:53 - ERROR - stderr - 
+2025-10-06 19:06:53 - INFO - stdout - {'loss': 0.9081, 'learning_rate': 1.2597765126897198e-05, 'epoch': 5.58}
+2025-10-06 19:06:53 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▊       | 1943/2088 [3:58:21<17:35,  7.28s/it]
+2025-10-06 19:07:00 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▊       | 1944/2088 [3:58:28<17:11,  7.16s/it]
+2025-10-06 19:07:00 - ERROR - stderr - 
+2025-10-06 19:07:00 - ERROR - stderr - 
+2025-10-06 19:07:00 - INFO - stdout - {'loss': 0.9344, 'learning_rate': 1.2425322847218367e-05, 'epoch': 5.59}
+2025-10-06 19:07:00 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▊       | 1944/2088 [3:58:28<17:11,  7.16s/it]
+2025-10-06 19:07:07 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▉       | 1945/2088 [3:58:35<17:07,  7.19s/it]
+2025-10-06 19:07:07 - ERROR - stderr - 
+2025-10-06 19:07:07 - ERROR - stderr - 
+2025-10-06 19:07:07 - INFO - stdout - {'loss': 0.9174, 'learning_rate': 1.2254054088213729e-05, 'epoch': 5.59}
+2025-10-06 19:07:07 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▉       | 1945/2088 [3:58:35<17:07,  7.19s/it]
+2025-10-06 19:07:14 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▉       | 1946/2088 [3:58:42<16:55,  7.15s/it]
+2025-10-06 19:07:14 - ERROR - stderr - 
+2025-10-06 19:07:14 - ERROR - stderr - 
+2025-10-06 19:07:14 - INFO - stdout - {'loss': 0.9293, 'learning_rate': 1.2083959262101873e-05, 'epoch': 5.59}
+2025-10-06 19:07:14 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▉       | 1946/2088 [3:58:42<16:55,  7.15s/it]
+2025-10-06 19:07:21 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▉       | 1947/2088 [3:58:50<16:45,  7.13s/it]
+2025-10-06 19:07:21 - ERROR - stderr - 
+2025-10-06 19:07:21 - ERROR - stderr - 
+2025-10-06 19:07:21 - INFO - stdout - {'loss': 0.9089, 'learning_rate': 1.191503877827621e-05, 'epoch': 5.59}
+2025-10-06 19:07:21 - ERROR - stderr -  93%|████████████████████████████████████████████████████████████████████████████████████████████████▉       | 1947/2088 [3:58:50<16:45,  7.13s/it]
+2025-10-06 19:07:29 - ERROR - stderr -  93%|█████████████████████████████████████████████████████████████████████████████████████████████████       | 1948/2088 [3:58:57<16:55,  7.26s/it]
+2025-10-06 19:07:29 - ERROR - stderr - 
+2025-10-06 19:07:29 - ERROR - stderr - 
+2025-10-06 19:07:29 - INFO - stdout - {'loss': 0.8835, 'learning_rate': 1.174729304330352e-05, 'epoch': 5.6}
+2025-10-06 19:07:29 - ERROR - stderr -  93%|█████████████████████████████████████████████████████████████████████████████████████████████████       | 1948/2088 [3:58:57<16:55,  7.26s/it]
+2025-10-06 19:07:36 - ERROR - stderr -  93%|█████████████████████████████████████████████████████████████████████████████████████████████████       | 1949/2088 [3:59:04<16:48,  7.26s/it]
+2025-10-06 19:07:36 - ERROR - stderr - 
+2025-10-06 19:07:36 - ERROR - stderr - 
+2025-10-06 19:07:36 - INFO - stdout - {'loss': 0.8714, 'learning_rate': 1.1580722460923176e-05, 'epoch': 5.6}
+2025-10-06 19:07:36 - ERROR - stderr -  93%|█████████████████████████████████████████████████████████████████████████████████████████████████       | 1949/2088 [3:59:04<16:48,  7.26s/it]
+2025-10-06 19:07:43 - ERROR - stderr -  93%|█████████████████████████████████████████████████████████████████████████████████████████████████▏      | 1950/2088 [3:59:11<16:29,  7.17s/it]
+2025-10-06 19:07:43 - ERROR - stderr - 
+2025-10-06 19:07:43 - ERROR - stderr - 
+2025-10-06 19:07:43 - INFO - stdout - {'loss': 0.9438, 'learning_rate': 1.141532743204604e-05, 'epoch': 5.6}
+2025-10-06 19:07:43 - ERROR - stderr -  93%|█████████████████████████████████████████████████████████████████████████████████████████████████▏      | 1950/2088 [3:59:11<16:29,  7.17s/it]
+2025-10-06 19:07:50 - ERROR - stderr -  93%|█████████████████████████████████████████████████████████████████████████████████████████████████▏      | 1951/2088 [3:59:19<16:38,  7.29s/it]
+2025-10-06 19:07:50 - ERROR - stderr - 
+2025-10-06 19:07:50 - ERROR - stderr - 
+2025-10-06 19:07:50 - INFO - stdout - {'loss': 1.0417, 'learning_rate': 1.1251108354753736e-05, 'epoch': 5.61}
+2025-10-06 19:07:50 - ERROR - stderr -  93%|█████████████████████████████████████████████████████████████████████████████████████████████████▏      | 1951/2088 [3:59:19<16:38,  7.29s/it]
+2025-10-06 19:07:57 - ERROR - stderr -  93%|█████████████████████████████████████████████████████████████████████████████████████████████████▏      | 1952/2088 [3:59:26<16:14,  7.17s/it]
+2025-10-06 19:07:57 - ERROR - stderr - 
+2025-10-06 19:07:57 - ERROR - stderr - 
+2025-10-06 19:07:57 - INFO - stdout - {'loss': 0.9736, 'learning_rate': 1.1088065624297483e-05, 'epoch': 5.61}
+2025-10-06 19:07:57 - ERROR - stderr -  93%|█████████████████████████████████████████████████████████████████████████████████████████████████▏      | 1952/2088 [3:59:26<16:14,  7.17s/it]
+2025-10-06 19:08:04 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 1953/2088 [3:59:33<16:07,  7.17s/it]
+2025-10-06 19:08:04 - ERROR - stderr - 
+2025-10-06 19:08:04 - ERROR - stderr - 
+2025-10-06 19:08:04 - INFO - stdout - {'loss': 0.8482, 'learning_rate': 1.0926199633097156e-05, 'epoch': 5.61}
+2025-10-06 19:08:04 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 1953/2088 [3:59:33<16:07,  7.17s/it]
+2025-10-06 19:08:11 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 1954/2088 [3:59:40<15:56,  7.14s/it]
+2025-10-06 19:08:12 - ERROR - stderr - 
+2025-10-06 19:08:12 - ERROR - stderr - 
+2025-10-06 19:08:12 - INFO - stdout - {'loss': 0.8821, 'learning_rate': 1.0765510770740505e-05, 'epoch': 5.61}
+2025-10-06 19:08:12 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 1954/2088 [3:59:40<15:56,  7.14s/it]
+2025-10-06 19:08:19 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 1955/2088 [3:59:47<15:58,  7.21s/it]
+2025-10-06 19:08:19 - ERROR - stderr - 
+2025-10-06 19:08:19 - ERROR - stderr - 
+2025-10-06 19:08:19 - INFO - stdout - {'loss': 0.91, 'learning_rate': 1.0605999423981937e-05, 'epoch': 5.62}
+2025-10-06 19:08:19 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 1955/2088 [3:59:47<15:58,  7.21s/it]
+2025-10-06 19:08:26 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 1956/2088 [3:59:54<15:39,  7.12s/it]
+2025-10-06 19:08:26 - ERROR - stderr - 
+2025-10-06 19:08:26 - ERROR - stderr - 
+2025-10-06 19:08:26 - INFO - stdout - {'loss': 0.937, 'learning_rate': 1.044766597674196e-05, 'epoch': 5.62}
+2025-10-06 19:08:26 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 1956/2088 [3:59:54<15:39,  7.12s/it]
+2025-10-06 19:08:33 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 1957/2088 [4:00:01<15:32,  7.12s/it]
+2025-10-06 19:08:33 - ERROR - stderr - 
+2025-10-06 19:08:33 - ERROR - stderr - 
+2025-10-06 19:08:33 - INFO - stdout - {'loss': 0.8726, 'learning_rate': 1.0290510810105846e-05, 'epoch': 5.62}
+2025-10-06 19:08:33 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 1957/2088 [4:00:01<15:32,  7.12s/it]
+2025-10-06 19:08:40 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 1958/2088 [4:00:09<15:37,  7.21s/it]
+2025-10-06 19:08:40 - ERROR - stderr - 
+2025-10-06 19:08:40 - ERROR - stderr - 
+2025-10-06 19:08:40 - INFO - stdout - {'loss': 0.8746, 'learning_rate': 1.0134534302323029e-05, 'epoch': 5.63}
+2025-10-06 19:08:40 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 1958/2088 [4:00:09<15:37,  7.21s/it]
+2025-10-06 19:08:48 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 1959/2088 [4:00:16<15:39,  7.29s/it]
+2025-10-06 19:08:48 - ERROR - stderr - 
+2025-10-06 19:08:48 - ERROR - stderr - 
+2025-10-06 19:08:48 - INFO - stdout - {'loss': 1.0505, 'learning_rate': 9.979736828806096e-06, 'epoch': 5.63}
+2025-10-06 19:08:48 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 1959/2088 [4:00:16<15:39,  7.29s/it]
+2025-10-06 19:08:55 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 1960/2088 [4:00:23<15:18,  7.18s/it]
+2025-10-06 19:08:55 - ERROR - stderr - 
+2025-10-06 19:08:55 - ERROR - stderr - 
+2025-10-06 19:08:55 - INFO - stdout - {'loss': 0.941, 'learning_rate': 9.826118762129798e-06, 'epoch': 5.63}
+2025-10-06 19:08:55 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 1960/2088 [4:00:23<15:18,  7.18s/it]
+2025-10-06 19:09:02 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 1961/2088 [4:00:31<15:17,  7.22s/it]
+2025-10-06 19:09:02 - ERROR - stderr - 
+2025-10-06 19:09:02 - ERROR - stderr - 
+2025-10-06 19:09:02 - INFO - stdout - {'loss': 0.8703, 'learning_rate': 9.673680472030322e-06, 'epoch': 5.64}
+2025-10-06 19:09:02 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 1961/2088 [4:00:31<15:17,  7.22s/it]
+2025-10-06 19:09:09 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 1962/2088 [4:00:38<15:11,  7.23s/it]
+2025-10-06 19:09:09 - ERROR - stderr - 
+2025-10-06 19:09:09 - ERROR - stderr - 
+2025-10-06 19:09:09 - INFO - stdout - {'loss': 1.0024, 'learning_rate': 9.522422325404235e-06, 'epoch': 5.64}
+2025-10-06 19:09:09 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 1962/2088 [4:00:38<15:11,  7.23s/it]
+2025-10-06 19:09:17 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 1963/2088 [4:00:45<15:06,  7.25s/it]
+2025-10-06 19:09:17 - ERROR - stderr - 
+2025-10-06 19:09:17 - ERROR - stderr - 
+2025-10-06 19:09:17 - INFO - stdout - {'loss': 0.9037, 'learning_rate': 9.372344686307655e-06, 'epoch': 5.64}
+2025-10-06 19:09:17 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 1963/2088 [4:00:45<15:06,  7.25s/it]
+2025-10-06 19:09:24 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 1964/2088 [4:00:52<15:00,  7.26s/it]
+2025-10-06 19:09:24 - ERROR - stderr - 
+2025-10-06 19:09:24 - ERROR - stderr - 
+2025-10-06 19:09:24 - INFO - stdout - {'loss': 0.8514, 'learning_rate': 9.22344791595553e-06, 'epoch': 5.64}
+2025-10-06 19:09:24 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 1964/2088 [4:00:52<15:00,  7.26s/it]
+2025-10-06 19:09:31 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 1965/2088 [4:00:59<14:46,  7.20s/it]
+2025-10-06 19:09:31 - ERROR - stderr - 
+2025-10-06 19:09:31 - ERROR - stderr - 
+2025-10-06 19:09:31 - INFO - stdout - {'loss': 0.9786, 'learning_rate': 9.075732372720414e-06, 'epoch': 5.65}
+2025-10-06 19:09:31 - ERROR - stderr -  94%|███████████████████████████���█████████████████████████████████████████████████████████████████████▊      | 1965/2088 [4:00:59<14:46,  7.20s/it]
+2025-10-06 19:09:38 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 1966/2088 [4:01:06<14:30,  7.14s/it]
+2025-10-06 19:09:38 - ERROR - stderr - 
+2025-10-06 19:09:38 - ERROR - stderr - 
+2025-10-06 19:09:38 - INFO - stdout - {'loss': 0.9767, 'learning_rate': 8.929198412131967e-06, 'epoch': 5.65}
+2025-10-06 19:09:38 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 1966/2088 [4:01:06<14:30,  7.14s/it]
+2025-10-06 19:09:45 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 1967/2088 [4:01:14<14:22,  7.13s/it]
+2025-10-06 19:09:45 - ERROR - stderr - 
+2025-10-06 19:09:45 - ERROR - stderr - 
+2025-10-06 19:09:45 - INFO - stdout - {'loss': 0.9577, 'learning_rate': 8.783846386875959e-06, 'epoch': 5.65}
+2025-10-06 19:09:45 - ERROR - stderr -  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 1967/2088 [4:01:14<14:22,  7.13s/it]
+2025-10-06 19:09:52 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 1968/2088 [4:01:21<14:19,  7.16s/it]
+2025-10-06 19:09:52 - ERROR - stderr - 
+2025-10-06 19:09:52 - ERROR - stderr - 
+2025-10-06 19:09:52 - INFO - stdout - {'loss': 0.868, 'learning_rate': 8.639676646793382e-06, 'epoch': 5.66}
+2025-10-06 19:09:52 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 1968/2088 [4:01:21<14:19,  7.16s/it]
+2025-10-06 19:10:00 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 1969/2088 [4:01:28<14:27,  7.29s/it]
+2025-10-06 19:10:00 - ERROR - stderr - 
+2025-10-06 19:10:00 - ERROR - stderr - 
+2025-10-06 19:10:00 - INFO - stdout - {'loss': 1.0617, 'learning_rate': 8.496689538879553e-06, 'epoch': 5.66}
+2025-10-06 19:10:00 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 1969/2088 [4:01:28<14:27,  7.29s/it]
+2025-10-06 19:10:07 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 1970/2088 [4:01:36<14:20,  7.30s/it]
+2025-10-06 19:10:07 - ERROR - stderr - 
+2025-10-06 19:10:07 - ERROR - stderr - 
+2025-10-06 19:10:07 - INFO - stdout - {'loss': 0.8568, 'learning_rate': 8.354885407283574e-06, 'epoch': 5.66}
+2025-10-06 19:10:07 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 1970/2088 [4:01:36<14:20,  7.30s/it]
+2025-10-06 19:10:15 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 1971/2088 [4:01:43<14:16,  7.32s/it]
+2025-10-06 19:10:15 - ERROR - stderr - 
+2025-10-06 19:10:15 - ERROR - stderr - 
+2025-10-06 19:10:15 - INFO - stdout - {'loss': 0.9819, 'learning_rate': 8.214264593307098e-06, 'epoch': 5.66}
+2025-10-06 19:10:15 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 1971/2088 [4:01:43<14:16,  7.32s/it]
+2025-10-06 19:10:22 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 1972/2088 [4:01:50<13:57,  7.22s/it]
+2025-10-06 19:10:22 - ERROR - stderr - 
+2025-10-06 19:10:22 - ERROR - stderr - 
+2025-10-06 19:10:22 - INFO - stdout - {'loss': 0.9332, 'learning_rate': 8.07482743540372e-06, 'epoch': 5.67}
+2025-10-06 19:10:22 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 1972/2088 [4:01:50<13:57,  7.22s/it]
+2025-10-06 19:10:29 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 1973/2088 [4:01:57<13:52,  7.24s/it]
+2025-10-06 19:10:29 - ERROR - stderr - 
+2025-10-06 19:10:29 - ERROR - stderr - 
+2025-10-06 19:10:29 - INFO - stdout - {'loss': 0.8415, 'learning_rate': 7.936574269178377e-06, 'epoch': 5.67}
+2025-10-06 19:10:29 - ERROR - stderr -  94%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 1973/2088 [4:01:57<13:52,  7.24s/it]
+2025-10-06 19:10:36 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 1974/2088 [4:02:04<13:35,  7.15s/it]
+2025-10-06 19:10:36 - ERROR - stderr - 
+2025-10-06 19:10:36 - ERROR - stderr - 
+2025-10-06 19:10:36 - INFO - stdout - {'loss': 0.8843, 'learning_rate': 7.799505427386e-06, 'epoch': 5.67}
+2025-10-06 19:10:36 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 1974/2088 [4:02:04<13:35,  7.15s/it]
+2025-10-06 19:10:43 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 1975/2088 [4:02:11<13:27,  7.14s/it]
+2025-10-06 19:10:43 - ERROR - stderr - 
+2025-10-06 19:10:43 - ERROR - stderr - 
+2025-10-06 19:10:43 - INFO - stdout - {'loss': 0.9982, 'learning_rate': 7.66362123993125e-06, 'epoch': 5.68}
+2025-10-06 19:10:43 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 1975/2088 [4:02:11<13:27,  7.14s/it]
+2025-10-06 19:10:50 - ERROR - stderr -  95%|█████████████████████████████████████████████████████████████████████████████████████████████████��▍     | 1976/2088 [4:02:19<13:25,  7.19s/it]
+2025-10-06 19:10:50 - ERROR - stderr - 
+2025-10-06 19:10:50 - ERROR - stderr - 
+2025-10-06 19:10:50 - INFO - stdout - {'loss': 0.9647, 'learning_rate': 7.528922033867347e-06, 'epoch': 5.68}
+2025-10-06 19:10:50 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 1976/2088 [4:02:19<13:25,  7.19s/it]
+2025-10-06 19:10:58 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 1977/2088 [4:02:26<13:27,  7.28s/it]
+2025-10-06 19:10:58 - ERROR - stderr - 
+2025-10-06 19:10:58 - ERROR - stderr - 
+2025-10-06 19:10:58 - INFO - stdout - {'loss': 0.9728, 'learning_rate': 7.3954081333955095e-06, 'epoch': 5.68}
+2025-10-06 19:10:58 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 1977/2088 [4:02:26<13:27,  7.28s/it]
+2025-10-06 19:11:05 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▌     | 1978/2088 [4:02:33<13:14,  7.22s/it]
+2025-10-06 19:11:05 - ERROR - stderr - 
+2025-10-06 19:11:05 - ERROR - stderr - 
+2025-10-06 19:11:05 - INFO - stdout - {'loss': 0.8579, 'learning_rate': 7.263079859864297e-06, 'epoch': 5.68}
+2025-10-06 19:11:05 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▌     | 1978/2088 [4:02:33<13:14,  7.22s/it]
+2025-10-06 19:11:13 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▌     | 1979/2088 [4:02:41<13:26,  7.40s/it]
+2025-10-06 19:11:13 - ERROR - stderr - 
+2025-10-06 19:11:13 - ERROR - stderr - 
+2025-10-06 19:11:13 - INFO - stdout - {'loss': 0.9804, 'learning_rate': 7.1319375317681625e-06, 'epoch': 5.69}
+2025-10-06 19:11:13 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▌     | 1979/2088 [4:02:41<13:26,  7.40s/it]
+2025-10-06 19:11:19 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▌     | 1980/2088 [4:02:48<13:02,  7.24s/it]
+2025-10-06 19:11:19 - ERROR - stderr - 
+2025-10-06 19:11:19 - ERROR - stderr - 
+2025-10-06 19:11:19 - INFO - stdout - {'loss': 0.8655, 'learning_rate': 7.001981464747565e-06, 'epoch': 5.69}
+2025-10-06 19:11:19 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▌     | 1980/2088 [4:02:48<13:02,  7.24s/it]
+2025-10-06 19:11:27 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▋     | 1981/2088 [4:02:55<12:49,  7.19s/it]
+2025-10-06 19:11:27 - ERROR - stderr - 
+2025-10-06 19:11:27 - ERROR - stderr - 
+2025-10-06 19:11:27 - INFO - stdout - {'loss': 0.8752, 'learning_rate': 6.873211971587634e-06, 'epoch': 5.69}
+2025-10-06 19:11:27 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▋     | 1981/2088 [4:02:55<12:49,  7.19s/it]
+2025-10-06 19:11:33 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▋     | 1982/2088 [4:03:02<12:30,  7.08s/it]
+2025-10-06 19:11:33 - ERROR - stderr - 
+2025-10-06 19:11:33 - ERROR - stderr - 
+2025-10-06 19:11:33 - INFO - stdout - {'loss': 0.9783, 'learning_rate': 6.745629362217731e-06, 'epoch': 5.7}
+2025-10-06 19:11:33 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▋     | 1982/2088 [4:03:02<12:30,  7.08s/it]
+2025-10-06 19:11:41 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▊     | 1983/2088 [4:03:09<12:29,  7.14s/it]
+2025-10-06 19:11:41 - ERROR - stderr - 
+2025-10-06 19:11:41 - ERROR - stderr - 
+2025-10-06 19:11:41 - INFO - stdout - {'loss': 0.8415, 'learning_rate': 6.61923394371039e-06, 'epoch': 5.7}
+2025-10-06 19:11:41 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▊     | 1983/2088 [4:03:09<12:29,  7.14s/it]
+2025-10-06 19:11:48 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▊     | 1984/2088 [4:03:16<12:20,  7.12s/it]
+2025-10-06 19:11:48 - ERROR - stderr - 
+2025-10-06 19:11:48 - ERROR - stderr - 
+2025-10-06 19:11:48 - INFO - stdout - {'loss': 0.9615, 'learning_rate': 6.494026020280874e-06, 'epoch': 5.7}
+2025-10-06 19:11:48 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▊     | 1984/2088 [4:03:16<12:20,  7.12s/it]
+2025-10-06 19:11:55 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▊     | 1985/2088 [4:03:24<12:21,  7.20s/it]
+2025-10-06 19:11:55 - ERROR - stderr - 
+2025-10-06 19:11:55 - ERROR - stderr - 
+2025-10-06 19:11:55 - INFO - stdout - {'loss': 0.8892, 'learning_rate': 6.3700058932862905e-06, 'epoch': 5.7}
+2025-10-06 19:11:55 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▊     | 1985/2088 [4:03:24<12:21,  7.20s/it]
+2025-10-06 19:12:02 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▉     | 1986/2088 [4:03:30<12:03,  7.09s/it]
+2025-10-06 19:12:02 - ERROR - stderr - 
+2025-10-06 19:12:02 - ERROR - stderr - 
+2025-10-06 19:12:02 - INFO - stdout - {'loss': 0.8774, 'learning_rate': 6.2471738612247534e-06, 'epoch': 5.71}
+2025-10-06 19:12:02 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████��███▉     | 1986/2088 [4:03:30<12:03,  7.09s/it]
+2025-10-06 19:12:09 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▉     | 1987/2088 [4:03:38<12:01,  7.14s/it]
+2025-10-06 19:12:09 - ERROR - stderr - 
+2025-10-06 19:12:09 - ERROR - stderr - 
+2025-10-06 19:12:09 - INFO - stdout - {'loss': 0.934, 'learning_rate': 6.125530219734998e-06, 'epoch': 5.71}
+2025-10-06 19:12:09 - ERROR - stderr -  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▉     | 1987/2088 [4:03:38<12:01,  7.14s/it]
+2025-10-06 19:12:16 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████     | 1988/2088 [4:03:45<11:50,  7.11s/it]
+2025-10-06 19:12:16 - ERROR - stderr - 
+2025-10-06 19:12:16 - ERROR - stderr - 
+2025-10-06 19:12:16 - INFO - stdout - {'loss': 0.9642, 'learning_rate': 6.005075261595494e-06, 'epoch': 5.71}
+2025-10-06 19:12:16 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████     | 1988/2088 [4:03:45<11:50,  7.11s/it]
+2025-10-06 19:12:23 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████     | 1989/2088 [4:03:52<11:46,  7.14s/it]
+2025-10-06 19:12:23 - ERROR - stderr - 
+2025-10-06 19:12:23 - ERROR - stderr - 
+2025-10-06 19:12:23 - INFO - stdout - {'loss': 0.9142, 'learning_rate': 5.885809276723608e-06, 'epoch': 5.72}
+2025-10-06 19:12:23 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████     | 1989/2088 [4:03:52<11:46,  7.14s/it]
+2025-10-06 19:12:32 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████     | 1990/2088 [4:04:00<12:07,  7.43s/it]
+2025-10-06 19:12:32 - ERROR - stderr - 
+2025-10-06 19:12:32 - ERROR - stderr - 
+2025-10-06 19:12:32 - INFO - stdout - {'loss': 0.9645, 'learning_rate': 5.767732552174998e-06, 'epoch': 5.72}
+2025-10-06 19:12:32 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████     | 1990/2088 [4:04:00<12:07,  7.43s/it]
+2025-10-06 19:12:39 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████▏    | 1991/2088 [4:04:07<11:56,  7.38s/it]
+2025-10-06 19:12:39 - ERROR - stderr - 
+2025-10-06 19:12:39 - ERROR - stderr - 
+2025-10-06 19:12:39 - INFO - stdout - {'loss': 0.9398, 'learning_rate': 5.650845372142999e-06, 'epoch': 5.72}
+2025-10-06 19:12:39 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████▏    | 1991/2088 [4:04:07<11:56,  7.38s/it]
+2025-10-06 19:12:46 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████��███████████████████████████████████████▏    | 1992/2088 [4:04:14<11:40,  7.30s/it]
+2025-10-06 19:12:46 - ERROR - stderr - 
+2025-10-06 19:12:46 - ERROR - stderr - 
+2025-10-06 19:12:46 - INFO - stdout - {'loss': 0.9265, 'learning_rate': 5.5351480179580135e-06, 'epoch': 5.72}
+2025-10-06 19:12:46 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████▏    | 1992/2088 [4:04:14<11:40,  7.30s/it]
+2025-10-06 19:12:53 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████▎    | 1993/2088 [4:04:21<11:19,  7.15s/it]
+2025-10-06 19:12:53 - ERROR - stderr - 
+2025-10-06 19:12:53 - ERROR - stderr - 
+2025-10-06 19:12:53 - INFO - stdout - {'loss': 0.9346, 'learning_rate': 5.42064076808646e-06, 'epoch': 5.73}
+2025-10-06 19:12:53 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████▎    | 1993/2088 [4:04:21<11:19,  7.15s/it]
+2025-10-06 19:12:59 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████▎    | 1994/2088 [4:04:28<11:00,  7.03s/it]
+2025-10-06 19:12:59 - ERROR - stderr - 
+2025-10-06 19:12:59 - ERROR - stderr - 
+2025-10-06 19:12:59 - INFO - stdout - {'loss': 0.9319, 'learning_rate': 5.307323898130545e-06, 'epoch': 5.73}
+2025-10-06 19:12:59 - ERROR - stderr -  95%|███████████████████████████████████████████████████████████████████████████████████████████████████▎    | 1994/2088 [4:04:28<11:00,  7.03s/it]
+2025-10-06 19:13:07 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▎    | 1995/2088 [4:04:35<11:05,  7.15s/it]
+2025-10-06 19:13:07 - ERROR - stderr - 
+2025-10-06 19:13:07 - ERROR - stderr - 
+2025-10-06 19:13:07 - INFO - stdout - {'loss': 0.8801, 'learning_rate': 5.195197680827379e-06, 'epoch': 5.73}
+2025-10-06 19:13:07 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▎    | 1995/2088 [4:04:35<11:05,  7.15s/it]
+2025-10-06 19:13:14 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▍    | 1996/2088 [4:04:43<11:05,  7.23s/it]
+2025-10-06 19:13:14 - ERROR - stderr - 
+2025-10-06 19:13:14 - ERROR - stderr - 
+2025-10-06 19:13:14 - INFO - stdout - {'loss': 0.9238, 'learning_rate': 5.0842623860482e-06, 'epoch': 5.74}
+2025-10-06 19:13:14 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▍    | 1996/2088 [4:04:43<11:05,  7.23s/it]
+2025-10-06 19:13:22 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▍    | 1997/2088 [4:04:50<11:02,  7.27s/it]
+2025-10-06 19:13:22 - ERROR - stderr - 
+2025-10-06 19:13:22 - ERROR - stderr - 
+2025-10-06 19:13:22 - INFO - stdout - {'loss': 0.921, 'learning_rate': 4.974518280798035e-06, 'epoch': 5.74}
+2025-10-06 19:13:22 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▍    | 1997/2088 [4:04:50<11:02,  7.27s/it]
+2025-10-06 19:13:29 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▌    | 1998/2088 [4:04:57<10:48,  7.21s/it]
+2025-10-06 19:13:29 - ERROR - stderr - 
+2025-10-06 19:13:29 - ERROR - stderr - 
+2025-10-06 19:13:29 - INFO - stdout - {'loss': 0.9408, 'learning_rate': 4.865965629214819e-06, 'epoch': 5.74}
+2025-10-06 19:13:29 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▌    | 1998/2088 [4:04:57<10:48,  7.21s/it]
+2025-10-06 19:13:36 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▌    | 1999/2088 [4:05:05<10:55,  7.37s/it]
+2025-10-06 19:13:36 - ERROR - stderr - 
+2025-10-06 19:13:36 - ERROR - stderr - 
+2025-10-06 19:13:36 - INFO - stdout - {'loss': 0.918, 'learning_rate': 4.758604692568946e-06, 'epoch': 5.74}
+2025-10-06 19:13:36 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▌    | 1999/2088 [4:05:05<10:55,  7.37s/it]
+2025-10-06 19:13:43 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▌    | 2000/2088 [4:05:12<10:38,  7.26s/it]
+2025-10-06 19:13:43 - ERROR - stderr - 
+2025-10-06 19:13:43 - ERROR - stderr - 
+2025-10-06 19:13:43 - INFO - stdout - {'loss': 1.0032, 'learning_rate': 4.652435729262272e-06, 'epoch': 5.75}
+2025-10-06 19:13:43 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▌    | 2000/2088 [4:05:12<10:38,  7.26s/it]
+2025-10-06 19:13:44 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000
+2025-10-06 19:13:44 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000
+2025-10-06 19:13:44 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/config.json
+2025-10-06 19:13:44 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/config.json
+2025-10-06 19:13:44 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/generation_config.json
+2025-10-06 19:13:44 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/generation_config.json
+2025-10-06 19:14:25 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/pytorch_model.bin.index.json.
+2025-10-06 19:14:25 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/pytorch_model.bin.index.json.
+2025-10-06 19:14:25 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/tokenizer_config.json
+2025-10-06 19:14:25 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/tokenizer_config.json
+2025-10-06 19:14:25 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/special_tokens_map.json
+2025-10-06 19:14:25 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/special_tokens_map.json
+2025-10-06 19:14:25 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/added_tokens.json
+2025-10-06 19:14:25 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-2000/added_tokens.json
+2025-10-06 19:14:27 - INFO - transformers.trainer - Deleting older checkpoint [epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600] due to args.save_total_limit
+2025-10-06 19:14:27 - INFO - transformers.trainer - Deleting older checkpoint [epoch6/PointLLM_train_stage1/PointLLM_train_stagece/checkpoint-1600] due to args.save_total_limit
+2025-10-06 19:14:33 - ERROR - stderr - /home/xindanzhang/anaconda3/envs/pointllm/lib/python3.10/site-packages/torch/utils/checkpoint.py:429: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+2025-10-06 19:14:33 - ERROR - stderr -   warnings.warn(
+2025-10-06 19:14:37 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▋    | 2001/2088 [4:06:05<30:31, 21.05s/it]
+2025-10-06 19:14:37 - ERROR - stderr - 
+2025-10-06 19:14:37 - ERROR - stderr - 
+2025-10-06 19:14:37 - INFO - stdout - {'loss': 0.9377, 'learning_rate': 4.547458994828002e-06, 'epoch': 5.75}
+2025-10-06 19:14:37 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▋    | 2001/2088 [4:06:05<30:31, 21.05s/it]
+2025-10-06 19:14:44 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▋    | 2002/2088 [4:06:12<24:11, 16.88s/it]
+2025-10-06 19:14:44 - ERROR - stderr - 
+2025-10-06 19:14:44 - ERROR - stderr - 
+2025-10-06 19:14:44 - INFO - stdout - {'loss': 0.8998, 'learning_rate': 4.443674741929693e-06, 'epoch': 5.75}
+2025-10-06 19:14:44 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▋    | 2002/2088 [4:06:12<24:11, 16.88s/it]
+2025-10-06 19:14:51 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2003/2088 [4:06:20<19:47, 13.97s/it]
+2025-10-06 19:14:51 - ERROR - stderr - 
+2025-10-06 19:14:51 - ERROR - stderr - 
+2025-10-06 19:14:51 - INFO - stdout - {'loss': 0.9254, 'learning_rate': 4.341083220360864e-06, 'epoch': 5.76}
+2025-10-06 19:14:51 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2003/2088 [4:06:20<19:47, 13.97s/it]
+2025-10-06 19:14:58 - ERROR - stderr -  96%|███████████████████████████████████████████████��███████████████████████████████████████████████████▊    | 2004/2088 [4:06:26<16:31, 11.80s/it]
+2025-10-06 19:14:58 - ERROR - stderr - 
+2025-10-06 19:14:58 - ERROR - stderr - 
+2025-10-06 19:14:58 - INFO - stdout - {'loss': 0.8811, 'learning_rate': 4.239684677044165e-06, 'epoch': 5.76}
+2025-10-06 19:14:58 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2004/2088 [4:06:26<16:31, 11.80s/it]
+2025-10-06 19:15:05 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2005/2088 [4:06:33<14:23, 10.41s/it]
+2025-10-06 19:15:05 - ERROR - stderr - 
+2025-10-06 19:15:05 - ERROR - stderr - 
+2025-10-06 19:15:05 - INFO - stdout - {'loss': 0.9301, 'learning_rate': 4.1394793560310395e-06, 'epoch': 5.76}
+2025-10-06 19:15:05 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2005/2088 [4:06:33<14:23, 10.41s/it]
+2025-10-06 19:15:12 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▉    | 2006/2088 [4:06:40<12:50,  9.39s/it]
+2025-10-06 19:15:12 - ERROR - stderr - 
+2025-10-06 19:15:12 - ERROR - stderr - 
+2025-10-06 19:15:12 - INFO - stdout - {'loss': 0.891, 'learning_rate': 4.04046749850101e-06, 'epoch': 5.76}
+2025-10-06 19:15:12 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▉    | 2006/2088 [4:06:40<12:50,  9.39s/it]
+2025-10-06 19:15:19 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▉    | 2007/2088 [4:06:47<11:39,  8.64s/it]
+2025-10-06 19:15:19 - ERROR - stderr - 
+2025-10-06 19:15:19 - ERROR - stderr - 
+2025-10-06 19:15:19 - INFO - stdout - {'loss': 0.9762, 'learning_rate': 3.942649342761117e-06, 'epoch': 5.77}
+2025-10-06 19:15:19 - ERROR - stderr -  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▉    | 2007/2088 [4:06:47<11:39,  8.64s/it]
+2025-10-06 19:15:26 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████    | 2008/2088 [4:06:55<11:00,  8.25s/it]
+2025-10-06 19:15:26 - ERROR - stderr - 
+2025-10-06 19:15:26 - ERROR - stderr - 
+2025-10-06 19:15:26 - INFO - stdout - {'loss': 1.0246, 'learning_rate': 3.846025124245145e-06, 'epoch': 5.77}
+2025-10-06 19:15:26 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████    | 2008/2088 [4:06:55<11:00,  8.25s/it]
+2025-10-06 19:15:34 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████    | 2009/2088 [4:07:02<10:33,  8.02s/it]
+2025-10-06 19:15:34 - ERROR - stderr - 
+2025-10-06 19:15:34 - ERROR - stderr - 
+2025-10-06 19:15:34 - INFO - stdout - {'loss': 0.9927, 'learning_rate': 3.750595075513563e-06, 'epoch': 5.77}
+2025-10-06 19:15:34 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████    | 2009/2088 [4:07:02<10:33,  8.02s/it]
+2025-10-06 19:15:41 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████    | 2010/2088 [4:07:09<10:03,  7.74s/it]
+2025-10-06 19:15:41 - ERROR - stderr - 
+2025-10-06 19:15:41 - ERROR - stderr - 
+2025-10-06 19:15:41 - INFO - stdout - {'loss': 0.8961, 'learning_rate': 3.6563594262524203e-06, 'epoch': 5.78}
+2025-10-06 19:15:41 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████    | 2010/2088 [4:07:09<10:03,  7.74s/it]
+2025-10-06 19:15:48 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 2011/2088 [4:07:16<09:38,  7.51s/it]
+2025-10-06 19:15:48 - ERROR - stderr - 
+2025-10-06 19:15:48 - ERROR - stderr - 
+2025-10-06 19:15:48 - INFO - stdout - {'loss': 0.9908, 'learning_rate': 3.563318403273119e-06, 'epoch': 5.78}
+2025-10-06 19:15:48 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 2011/2088 [4:07:16<09:38,  7.51s/it]
+2025-10-06 19:15:56 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 2012/2088 [4:07:24<09:39,  7.63s/it]
+2025-10-06 19:15:56 - ERROR - stderr - 
+2025-10-06 19:15:56 - ERROR - stderr - 
+2025-10-06 19:15:56 - INFO - stdout - {'loss': 0.8572, 'learning_rate': 3.471472230511752e-06, 'epoch': 5.78}
+2025-10-06 19:15:56 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 2012/2088 [4:07:24<09:39,  7.63s/it]
+2025-10-06 19:16:03 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2013/2088 [4:07:31<09:23,  7.52s/it]
+2025-10-06 19:16:03 - ERROR - stderr - 
+2025-10-06 19:16:03 - ERROR - stderr - 
+2025-10-06 19:16:03 - INFO - stdout - {'loss': 0.9405, 'learning_rate': 3.3808211290284885e-06, 'epoch': 5.78}
+2025-10-06 19:16:03 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2013/2088 [4:07:31<09:23,  7.52s/it]
+2025-10-06 19:16:10 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2014/2088 [4:07:38<09:05,  7.37s/it]
+2025-10-06 19:16:10 - ERROR - stderr - 
+2025-10-06 19:16:10 - ERROR - stderr - 
+2025-10-06 19:16:10 - INFO - stdout - {'loss': 0.9336, 'learning_rate': 3.2913653170073554e-06, 'epoch': 5.79}
+2025-10-06 19:16:10 - ERROR - stderr -  96%|████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2014/2088 [4:07:38<09:05,  7.37s/it]
+2025-10-06 19:16:18 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2015/2088 [4:07:46<09:04,  7.46s/it]
+2025-10-06 19:16:18 - ERROR - stderr - 
+2025-10-06 19:16:18 - ERROR - stderr - 
+2025-10-06 19:16:18 - INFO - stdout - {'loss': 0.96, 'learning_rate': 3.203105009755236e-06, 'epoch': 5.79}
+2025-10-06 19:16:18 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2015/2088 [4:07:46<09:04,  7.46s/it]
+2025-10-06 19:16:24 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 2016/2088 [4:07:53<08:42,  7.25s/it]
+2025-10-06 19:16:24 - ERROR - stderr - 
+2025-10-06 19:16:24 - ERROR - stderr - 
+2025-10-06 19:16:24 - INFO - stdout - {'loss': 0.9799, 'learning_rate': 3.1160404197018156e-06, 'epoch': 5.79}
+2025-10-06 19:16:24 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 2016/2088 [4:07:53<08:42,  7.25s/it]
+2025-10-06 19:16:32 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 2017/2088 [4:08:01<08:46,  7.42s/it]
+2025-10-06 19:16:32 - ERROR - stderr - 
+2025-10-06 19:16:32 - ERROR - stderr - 
+2025-10-06 19:16:32 - INFO - stdout - {'loss': 0.8705, 'learning_rate': 3.0301717563987474e-06, 'epoch': 5.8}
+2025-10-06 19:16:32 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 2017/2088 [4:08:01<08:46,  7.42s/it]
+2025-10-06 19:16:39 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2018/2088 [4:08:07<08:26,  7.24s/it]
+2025-10-06 19:16:39 - ERROR - stderr - 
+2025-10-06 19:16:39 - ERROR - stderr - 
+2025-10-06 19:16:39 - INFO - stdout - {'loss': 0.9011, 'learning_rate': 2.9454992265193214e-06, 'epoch': 5.8}
+2025-10-06 19:16:39 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2018/2088 [4:08:07<08:26,  7.24s/it]
+2025-10-06 19:16:46 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2019/2088 [4:08:15<08:20,  7.25s/it]
+2025-10-06 19:16:46 - ERROR - stderr - 
+2025-10-06 19:16:46 - ERROR - stderr - 
+2025-10-06 19:16:46 - INFO - stdout - {'loss': 0.9446, 'learning_rate': 2.8620230338578524e-06, 'epoch': 5.8}
+2025-10-06 19:16:46 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2019/2088 [4:08:15<08:20,  7.25s/it]
+2025-10-06 19:16:53 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2020/2088 [4:08:22<08:09,  7.19s/it]
+2025-10-06 19:16:53 - ERROR - stderr - 
+2025-10-06 19:16:53 - ERROR - stderr - 
+2025-10-06 19:16:53 - INFO - stdout - {'loss': 0.9422, 'learning_rate': 2.7797433793292914e-06, 'epoch': 5.8}
+2025-10-06 19:16:53 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2020/2088 [4:08:22<08:09,  7.19s/it]
+2025-10-06 19:17:00 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 2021/2088 [4:08:29<07:54,  7.08s/it]
+2025-10-06 19:17:00 - ERROR - stderr - 
+2025-10-06 19:17:00 - ERROR - stderr - 
+2025-10-06 19:17:00 - INFO - stdout - {'loss': 0.8927, 'learning_rate': 2.6986604609687273e-06, 'epoch': 5.81}
+2025-10-06 19:17:00 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 2021/2088 [4:08:29<07:54,  7.08s/it]
+2025-10-06 19:17:07 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 2022/2088 [4:08:35<07:39,  6.96s/it]
+2025-10-06 19:17:07 - ERROR - stderr - 
+2025-10-06 19:17:07 - ERROR - stderr - 
+2025-10-06 19:17:07 - INFO - stdout - {'loss': 0.9249, 'learning_rate': 2.6187744739308294e-06, 'epoch': 5.81}
+2025-10-06 19:17:07 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 2022/2088 [4:08:35<07:39,  6.96s/it]
+2025-10-06 19:17:14 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2023/2088 [4:08:42<07:37,  7.03s/it]
+2025-10-06 19:17:14 - ERROR - stderr - 
+2025-10-06 19:17:14 - ERROR - stderr - 
+2025-10-06 19:17:14 - INFO - stdout - {'loss': 0.9044, 'learning_rate': 2.5400856104894065e-06, 'epoch': 5.81}
+2025-10-06 19:17:14 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2023/2088 [4:08:43<07:37,  7.03s/it]
+2025-10-06 19:17:21 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2024/2088 [4:08:50<07:32,  7.07s/it]
+2025-10-06 19:17:21 - ERROR - stderr - 
+2025-10-06 19:17:21 - ERROR - stderr - 
+2025-10-06 19:17:21 - INFO - stdout - {'loss': 0.9725, 'learning_rate': 2.4625940600369603e-06, 'epoch': 5.82}
+2025-10-06 19:17:21 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2024/2088 [4:08:50<07:32,  7.07s/it]
+2025-10-06 19:17:28 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2025/2088 [4:08:57<07:22,  7.03s/it]
+2025-10-06 19:17:28 - ERROR - stderr - 
+2025-10-06 19:17:28 - ERROR - stderr - 
+2025-10-06 19:17:28 - INFO - stdout - {'loss': 0.9514, 'learning_rate': 2.386300009084408e-06, 'epoch': 5.82}
+2025-10-06 19:17:28 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2025/2088 [4:08:57<07:22,  7.03s/it]
+2025-10-06 19:17:35 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2026/2088 [4:09:04<07:13,  7.00s/it]
+2025-10-06 19:17:35 - ERROR - stderr - 
+2025-10-06 19:17:35 - ERROR - stderr - 
+2025-10-06 19:17:35 - INFO - stdout - {'loss': 0.914, 'learning_rate': 2.3112036412602513e-06, 'epoch': 5.82}
+2025-10-06 19:17:35 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2026/2088 [4:09:04<07:13,  7.00s/it]
+2025-10-06 19:17:42 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2027/2088 [4:09:11<07:12,  7.09s/it]
+2025-10-06 19:17:42 - ERROR - stderr - 
+2025-10-06 19:17:42 - ERROR - stderr - 
+2025-10-06 19:17:42 - INFO - stdout - {'loss': 0.9681, 'learning_rate': 2.237305137310408e-06, 'epoch': 5.82}
+2025-10-06 19:17:42 - ERROR - stderr -  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2027/2088 [4:09:11<07:12,  7.09s/it]
+2025-10-06 19:17:50 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████   | 2028/2088 [4:09:18<07:08,  7.15s/it]
+2025-10-06 19:17:50 - ERROR - stderr - 
+2025-10-06 19:17:50 - ERROR - stderr - 
+2025-10-06 19:17:50 - INFO - stdout - {'loss': 0.9539, 'learning_rate': 2.1646046750978256e-06, 'epoch': 5.83}
+2025-10-06 19:17:50 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████   | 2028/2088 [4:09:18<07:08,  7.15s/it]
+2025-10-06 19:17:56 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████   | 2029/2088 [4:09:25<06:57,  7.07s/it]
+2025-10-06 19:17:56 - ERROR - stderr - 
+2025-10-06 19:17:56 - ERROR - stderr - 
+2025-10-06 19:17:56 - INFO - stdout - {'loss': 0.9244, 'learning_rate': 2.093102429601701e-06, 'epoch': 5.83}
+2025-10-06 19:17:56 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████   | 2029/2088 [4:09:25<06:57,  7.07s/it]
+2025-10-06 19:18:04 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████   | 2030/2088 [4:09:32<06:52,  7.12s/it]
+2025-10-06 19:18:04 - ERROR - stderr - 
+2025-10-06 19:18:04 - ERROR - stderr - 
+2025-10-06 19:18:04 - INFO - stdout - {'loss': 0.9184, 'learning_rate': 2.022798572917539e-06, 'epoch': 5.83}
+2025-10-06 19:18:04 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████   | 2030/2088 [4:09:32<06:52,  7.12s/it]
+2025-10-06 19:18:11 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 2031/2088 [4:09:39<06:40,  7.03s/it]
+2025-10-06 19:18:11 - ERROR - stderr - 
+2025-10-06 19:18:11 - ERROR - stderr - 
+2025-10-06 19:18:11 - INFO - stdout - {'loss': 0.929, 'learning_rate': 1.953693274256374e-06, 'epoch': 5.84}
+2025-10-06 19:18:11 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 2031/2088 [4:09:39<06:40,  7.03s/it]
+2025-10-06 19:18:18 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 2032/2088 [4:09:46<06:34,  7.04s/it]
+2025-10-06 19:18:18 - ERROR - stderr - 
+2025-10-06 19:18:18 - ERROR - stderr - 
+2025-10-06 19:18:18 - INFO - stdout - {'loss': 0.9518, 'learning_rate': 1.8857866999444916e-06, 'epoch': 5.84}
+2025-10-06 19:18:18 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 2032/2088 [4:09:46<06:34,  7.04s/it]
+2025-10-06 19:18:25 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 2033/2088 [4:09:53<06:32,  7.14s/it]
+2025-10-06 19:18:25 - ERROR - stderr - 
+2025-10-06 19:18:25 - ERROR - stderr - 
+2025-10-06 19:18:25 - INFO - stdout - {'loss': 0.9528, 'learning_rate': 1.8190790134231528e-06, 'epoch': 5.84}
+2025-10-06 19:18:25 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 2033/2088 [4:09:53<06:32,  7.14s/it]
+2025-10-06 19:18:32 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 2034/2088 [4:10:01<06:29,  7.21s/it]
+2025-10-06 19:18:32 - ERROR - stderr - 
+2025-10-06 19:18:32 - ERROR - stderr - 
+2025-10-06 19:18:32 - INFO - stdout - {'loss': 0.9379, 'learning_rate': 1.753570375247815e-06, 'epoch': 5.84}
+2025-10-06 19:18:32 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 2034/2088 [4:10:01<06:29,  7.21s/it]
+2025-10-06 19:18:40 - ERROR - stderr -  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 2035/2088 [4:10:08<06:26,  7.29s/it]
+2025-10-06 19:18:40 - ERROR - stderr - 
+2025-10-06 19:18:40 - ERROR - stderr - 
+2025-10-06 19:18:40 - INFO - stdout - {'loss': 0.8915, 'learning_rate': 1.6892609430883e-06, 'epoch': 5.85}
+2025-10-06 19:18:40 - ERROR - stderr -  97%|███████████████████��█████████████████████████████████████████████████████████████████████████████████▎  | 2035/2088 [4:10:08<06:26,  7.29s/it]
+2025-10-06 19:18:47 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2036/2088 [4:10:15<06:12,  7.16s/it]
+2025-10-06 19:18:47 - ERROR - stderr - 
+2025-10-06 19:18:47 - ERROR - stderr - 
+2025-10-06 19:18:47 - INFO - stdout - {'loss': 0.8783, 'learning_rate': 1.6261508717278495e-06, 'epoch': 5.85}
+2025-10-06 19:18:47 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2036/2088 [4:10:15<06:12,  7.16s/it]
+2025-10-06 19:18:54 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2037/2088 [4:10:22<06:00,  7.06s/it]
+2025-10-06 19:18:54 - ERROR - stderr - 
+2025-10-06 19:18:54 - ERROR - stderr - 
+2025-10-06 19:18:54 - INFO - stdout - {'loss': 0.9547, 'learning_rate': 1.5642403130632365e-06, 'epoch': 5.85}
+2025-10-06 19:18:54 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2037/2088 [4:10:22<06:00,  7.06s/it]
+2025-10-06 19:19:01 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 2038/2088 [4:10:29<05:56,  7.13s/it]
+2025-10-06 19:19:01 - ERROR - stderr - 
+2025-10-06 19:19:01 - ERROR - stderr - 
+2025-10-06 19:19:01 - INFO - stdout - {'loss': 0.9599, 'learning_rate': 1.503529416103988e-06, 'epoch': 5.86}
+2025-10-06 19:19:01 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 2038/2088 [4:10:29<05:56,  7.13s/it]
+2025-10-06 19:19:08 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 2039/2088 [4:10:36<05:49,  7.13s/it]
+2025-10-06 19:19:08 - ERROR - stderr - 
+2025-10-06 19:19:08 - ERROR - stderr - 
+2025-10-06 19:19:08 - INFO - stdout - {'loss': 0.9067, 'learning_rate': 1.444018326972385e-06, 'epoch': 5.86}
+2025-10-06 19:19:08 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 2039/2088 [4:10:36<05:49,  7.13s/it]
+2025-10-06 19:19:15 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 2040/2088 [4:10:43<05:41,  7.11s/it]
+2025-10-06 19:19:15 - ERROR - stderr - 
+2025-10-06 19:19:15 - ERROR - stderr - 
+2025-10-06 19:19:15 - INFO - stdout - {'loss': 0.9541, 'learning_rate': 1.3857071889029072e-06, 'epoch': 5.86}
+2025-10-06 19:19:15 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████��███████▌  | 2040/2088 [4:10:44<05:41,  7.11s/it]
+2025-10-06 19:19:22 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2041/2088 [4:10:51<05:38,  7.21s/it]
+2025-10-06 19:19:22 - ERROR - stderr - 
+2025-10-06 19:19:22 - ERROR - stderr - 
+2025-10-06 19:19:22 - INFO - stdout - {'loss': 0.9173, 'learning_rate': 1.3285961422417892e-06, 'epoch': 5.86}
+2025-10-06 19:19:22 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2041/2088 [4:10:51<05:38,  7.21s/it]
+2025-10-06 19:19:29 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2042/2088 [4:10:58<05:29,  7.16s/it]
+2025-10-06 19:19:29 - ERROR - stderr - 
+2025-10-06 19:19:29 - ERROR - stderr - 
+2025-10-06 19:19:29 - INFO - stdout - {'loss': 0.8999, 'learning_rate': 1.2726853244471316e-06, 'epoch': 5.87}
+2025-10-06 19:19:29 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2042/2088 [4:10:58<05:29,  7.16s/it]
+2025-10-06 19:19:37 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2043/2088 [4:11:05<05:22,  7.17s/it]
+2025-10-06 19:19:37 - ERROR - stderr - 
+2025-10-06 19:19:37 - ERROR - stderr - 
+2025-10-06 19:19:37 - INFO - stdout - {'loss': 0.9359, 'learning_rate': 1.2179748700879012e-06, 'epoch': 5.87}
+2025-10-06 19:19:37 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2043/2088 [4:11:05<05:22,  7.17s/it]
+2025-10-06 19:19:44 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2044/2088 [4:11:12<05:11,  7.07s/it]
+2025-10-06 19:19:44 - ERROR - stderr - 
+2025-10-06 19:19:44 - ERROR - stderr - 
+2025-10-06 19:19:44 - INFO - stdout - {'loss': 1.0013, 'learning_rate': 1.164464910844154e-06, 'epoch': 5.87}
+2025-10-06 19:19:44 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2044/2088 [4:11:12<05:11,  7.07s/it]
+2025-10-06 19:19:51 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2045/2088 [4:11:19<05:08,  7.17s/it]
+2025-10-06 19:19:51 - ERROR - stderr - 
+2025-10-06 19:19:51 - ERROR - stderr - 
+2025-10-06 19:19:51 - INFO - stdout - {'loss': 0.9292, 'learning_rate': 1.1121555755065348e-06, 'epoch': 5.88}
+2025-10-06 19:19:51 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2045/2088 [4:11:19<05:08,  7.17s/it]
+2025-10-06 19:19:59 - ERROR - stderr -  98%|████████████████████████████████████���████████████████████████████████████████████████████████████████▉  | 2046/2088 [4:11:27<05:06,  7.31s/it]
+2025-10-06 19:19:59 - ERROR - stderr - 
+2025-10-06 19:19:59 - ERROR - stderr - 
+2025-10-06 19:19:59 - INFO - stdout - {'loss': 0.856, 'learning_rate': 1.061046989976e-06, 'epoch': 5.88}
+2025-10-06 19:19:59 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 2046/2088 [4:11:27<05:06,  7.31s/it]
+2025-10-06 19:20:05 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 2047/2088 [4:11:34<04:54,  7.17s/it]
+2025-10-06 19:20:05 - ERROR - stderr - 
+2025-10-06 19:20:05 - ERROR - stderr - 
+2025-10-06 19:20:05 - INFO - stdout - {'loss': 0.9083, 'learning_rate': 1.011139277263262e-06, 'epoch': 5.88}
+2025-10-06 19:20:05 - ERROR - stderr -  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 2047/2088 [4:11:34<04:54,  7.17s/it]
+2025-10-06 19:20:12 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████  | 2048/2088 [4:11:41<04:43,  7.08s/it]
+2025-10-06 19:20:12 - ERROR - stderr - 
+2025-10-06 19:20:12 - ERROR - stderr - 
+2025-10-06 19:20:12 - INFO - stdout - {'loss': 0.9101, 'learning_rate': 9.624325574890126e-07, 'epoch': 5.89}
+2025-10-06 19:20:12 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████  | 2048/2088 [4:11:41<04:43,  7.08s/it]
+2025-10-06 19:20:20 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████  | 2049/2088 [4:11:48<04:40,  7.18s/it]
+2025-10-06 19:20:20 - ERROR - stderr - 
+2025-10-06 19:20:20 - ERROR - stderr - 
+2025-10-06 19:20:20 - INFO - stdout - {'loss': 0.9492, 'learning_rate': 9.149269478830879e-07, 'epoch': 5.89}
+2025-10-06 19:20:20 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████  | 2049/2088 [4:11:48<04:40,  7.18s/it]
+2025-10-06 19:20:27 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████  | 2050/2088 [4:11:55<04:31,  7.15s/it]
+2025-10-06 19:20:27 - ERROR - stderr - 
+2025-10-06 19:20:27 - ERROR - stderr - 
+2025-10-06 19:20:27 - INFO - stdout - {'loss': 0.9283, 'learning_rate': 8.686225627845268e-07, 'epoch': 5.89}
+2025-10-06 19:20:27 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████  | 2050/2088 [4:11:55<04:31,  7.15s/it]
+2025-10-06 19:20:34 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2051/2088 [4:12:02<04:24,  7.16s/it]
+2025-10-06 19:20:34 - ERROR - stderr - 
+2025-10-06 19:20:34 - ERROR - stderr - 
+2025-10-06 19:20:34 - INFO - stdout - {'loss': 0.9059, 'learning_rate': 8.235195136411799e-07, 'epoch': 5.89}
+2025-10-06 19:20:34 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2051/2088 [4:12:02<04:24,  7.16s/it]
+2025-10-06 19:20:41 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2052/2088 [4:12:10<04:19,  7.22s/it]
+2025-10-06 19:20:41 - ERROR - stderr - 
+2025-10-06 19:20:41 - ERROR - stderr - 
+2025-10-06 19:20:41 - INFO - stdout - {'loss': 0.9395, 'learning_rate': 7.796179090094891e-07, 'epoch': 5.9}
+2025-10-06 19:20:41 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2052/2088 [4:12:10<04:19,  7.22s/it]
+2025-10-06 19:20:48 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2053/2088 [4:12:17<04:09,  7.12s/it]
+2025-10-06 19:20:48 - ERROR - stderr - 
+2025-10-06 19:20:48 - ERROR - stderr - 
+2025-10-06 19:20:48 - INFO - stdout - {'loss': 0.8922, 'learning_rate': 7.369178545542087e-07, 'epoch': 5.9}
+2025-10-06 19:20:48 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2053/2088 [4:12:17<04:09,  7.12s/it]
+2025-10-06 19:20:55 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2054/2088 [4:12:24<04:03,  7.16s/it]
+2025-10-06 19:20:55 - ERROR - stderr - 
+2025-10-06 19:20:55 - ERROR - stderr - 
+2025-10-06 19:20:55 - INFO - stdout - {'loss': 0.8971, 'learning_rate': 6.954194530480185e-07, 'epoch': 5.9}
+2025-10-06 19:20:55 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2054/2088 [4:12:24<04:03,  7.16s/it]
+2025-10-06 19:21:03 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2055/2088 [4:12:31<03:57,  7.19s/it]
+2025-10-06 19:21:03 - ERROR - stderr - 
+2025-10-06 19:21:03 - ERROR - stderr - 
+2025-10-06 19:21:03 - INFO - stdout - {'loss': 0.9824, 'learning_rate': 6.551228043715218e-07, 'epoch': 5.91}
+2025-10-06 19:21:03 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2055/2088 [4:12:31<03:57,  7.19s/it]
+2025-10-06 19:21:10 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2056/2088 [4:12:38<03:48,  7.15s/it]
+2025-10-06 19:21:10 - ERROR - stderr - 
+2025-10-06 19:21:10 - ERROR - stderr - 
+2025-10-06 19:21:10 - INFO - stdout - {'loss': 0.9088, 'learning_rate': 6.160280055128031e-07, 'epoch': 5.91}
+2025-10-06 19:21:10 - ERROR - stderr -  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2056/2088 [4:12:38<03:48,  7.15s/it]
+2025-10-06 19:21:17 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2057/2088 [4:12:45<03:39,  7.07s/it]
+2025-10-06 19:21:17 - ERROR - stderr - 
+2025-10-06 19:21:17 - ERROR - stderr - 
+2025-10-06 19:21:17 - INFO - stdout - {'loss': 0.9579, 'learning_rate': 5.781351505673715e-07, 'epoch': 5.91}
+2025-10-06 19:21:17 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2057/2088 [4:12:45<03:39,  7.07s/it]
+2025-10-06 19:21:23 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2058/2088 [4:12:52<03:29,  6.98s/it]
+2025-10-06 19:21:23 - ERROR - stderr - 
+2025-10-06 19:21:23 - ERROR - stderr - 
+2025-10-06 19:21:23 - INFO - stdout - {'loss': 0.9403, 'learning_rate': 5.41444330737717e-07, 'epoch': 5.91}
+2025-10-06 19:21:23 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2058/2088 [4:12:52<03:29,  6.98s/it]
+2025-10-06 19:21:31 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2059/2088 [4:12:59<03:25,  7.08s/it]
+2025-10-06 19:21:31 - ERROR - stderr - 
+2025-10-06 19:21:31 - ERROR - stderr - 
+2025-10-06 19:21:31 - INFO - stdout - {'loss': 0.9674, 'learning_rate': 5.059556343333105e-07, 'epoch': 5.92}
+2025-10-06 19:21:31 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2059/2088 [4:12:59<03:25,  7.08s/it]
+2025-10-06 19:21:38 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2060/2088 [4:13:06<03:19,  7.13s/it]
+2025-10-06 19:21:38 - ERROR - stderr - 
+2025-10-06 19:21:38 - ERROR - stderr - 
+2025-10-06 19:21:38 - INFO - stdout - {'loss': 0.9178, 'learning_rate': 4.716691467701595e-07, 'epoch': 5.92}
+2025-10-06 19:21:38 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2060/2088 [4:13:07<03:19,  7.13s/it]
+2025-10-06 19:21:45 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 2061/2088 [4:13:13<03:11,  7.09s/it]
+2025-10-06 19:21:45 - ERROR - stderr - 
+2025-10-06 19:21:45 - ERROR - stderr - 
+2025-10-06 19:21:45 - INFO - stdout - {'loss': 0.9729, 'learning_rate': 4.3858495057080837e-07, 'epoch': 5.92}
+2025-10-06 19:21:45 - ERROR - stderr -  99%|██████████████████████████████████████████████████████���███████████████████████████████████████████████▋ | 2061/2088 [4:13:13<03:11,  7.09s/it]
+2025-10-06 19:21:52 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 2062/2088 [4:13:20<03:03,  7.06s/it]
+2025-10-06 19:21:52 - ERROR - stderr - 
+2025-10-06 19:21:52 - ERROR - stderr - 
+2025-10-06 19:21:52 - INFO - stdout - {'loss': 0.9259, 'learning_rate': 4.0670312536411624e-07, 'epoch': 5.93}
+2025-10-06 19:21:52 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 2062/2088 [4:13:20<03:03,  7.06s/it]
+2025-10-06 19:21:59 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2063/2088 [4:13:28<02:59,  7.16s/it]
+2025-10-06 19:21:59 - ERROR - stderr - 
+2025-10-06 19:21:59 - ERROR - stderr - 
+2025-10-06 19:21:59 - INFO - stdout - {'loss': 0.9497, 'learning_rate': 3.7602374788497927e-07, 'epoch': 5.93}
+2025-10-06 19:21:59 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2063/2088 [4:13:28<02:59,  7.16s/it]
+2025-10-06 19:22:06 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2064/2088 [4:13:35<02:51,  7.15s/it]
+2025-10-06 19:22:06 - ERROR - stderr - 
+2025-10-06 19:22:06 - ERROR - stderr - 
+2025-10-06 19:22:06 - INFO - stdout - {'loss': 0.8808, 'learning_rate': 3.465468919740533e-07, 'epoch': 5.93}
+2025-10-06 19:22:06 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2064/2088 [4:13:35<02:51,  7.15s/it]
+2025-10-06 19:22:14 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2065/2088 [4:13:42<02:44,  7.15s/it]
+2025-10-06 19:22:14 - ERROR - stderr - 
+2025-10-06 19:22:14 - ERROR - stderr - 
+2025-10-06 19:22:14 - INFO - stdout - {'loss': 0.9894, 'learning_rate': 3.182726285778648e-07, 'epoch': 5.93}
+2025-10-06 19:22:14 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2065/2088 [4:13:42<02:44,  7.15s/it]
+2025-10-06 19:22:20 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2066/2088 [4:13:49<02:34,  7.04s/it]
+2025-10-06 19:22:20 - ERROR - stderr - 
+2025-10-06 19:22:20 - ERROR - stderr - 
+2025-10-06 19:22:20 - INFO - stdout - {'loss': 0.8658, 'learning_rate': 2.912010257484221e-07, 'epoch': 5.94}
+2025-10-06 19:22:20 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2066/2088 [4:13:49<02:34,  7.04s/it]
+2025-10-06 19:22:27 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2067/2088 [4:13:56<02:27,  7.01s/it]
+2025-10-06 19:22:27 - ERROR - stderr - 
+2025-10-06 19:22:27 - ERROR - stderr - 
+2025-10-06 19:22:27 - INFO - stdout - {'loss': 0.9026, 'learning_rate': 2.6533214864310486e-07, 'epoch': 5.94}
+2025-10-06 19:22:27 - ERROR - stderr -  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2067/2088 [4:13:56<02:27,  7.01s/it]
+2025-10-06 19:22:35 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 2068/2088 [4:14:03<02:22,  7.11s/it]
+2025-10-06 19:22:35 - ERROR - stderr - 
+2025-10-06 19:22:35 - ERROR - stderr - 
+2025-10-06 19:22:35 - INFO - stdout - {'loss': 0.9133, 'learning_rate': 2.4066605952444145e-07, 'epoch': 5.94}
+2025-10-06 19:22:35 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 2068/2088 [4:14:03<02:22,  7.11s/it]
+2025-10-06 19:22:41 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 2069/2088 [4:14:10<02:13,  7.01s/it]
+2025-10-06 19:22:41 - ERROR - stderr - 
+2025-10-06 19:22:41 - ERROR - stderr - 
+2025-10-06 19:22:41 - INFO - stdout - {'loss': 0.8918, 'learning_rate': 2.172028177601648e-07, 'epoch': 5.95}
+2025-10-06 19:22:41 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 2069/2088 [4:14:10<02:13,  7.01s/it]
+2025-10-06 19:22:49 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 2070/2088 [4:14:17<02:07,  7.06s/it]
+2025-10-06 19:22:49 - ERROR - stderr - 
+2025-10-06 19:22:49 - ERROR - stderr - 
+2025-10-06 19:22:49 - INFO - stdout - {'loss': 0.9019, 'learning_rate': 1.9494247982282386e-07, 'epoch': 5.95}
+2025-10-06 19:22:49 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 2070/2088 [4:14:17<02:07,  7.06s/it]
+2025-10-06 19:22:56 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2071/2088 [4:14:24<01:59,  7.06s/it]
+2025-10-06 19:22:56 - ERROR - stderr - 
+2025-10-06 19:22:56 - ERROR - stderr - 
+2025-10-06 19:22:56 - INFO - stdout - {'loss': 0.9045, 'learning_rate': 1.7388509928978335e-07, 'epoch': 5.95}
+2025-10-06 19:22:56 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2071/2088 [4:14:24<01:59,  7.06s/it]
+2025-10-06 19:23:03 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2072/2088 [4:14:31<01:52,  7.05s/it]
+2025-10-06 19:23:03 - ERROR - stderr - 
+2025-10-06 19:23:03 - ERROR - stderr - 
+2025-10-06 19:23:03 - INFO - stdout - {'loss': 0.9457, 'learning_rate': 1.540307268430019e-07, 'epoch': 5.95}
+2025-10-06 19:23:03 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2072/2088 [4:14:31<01:52,  7.05s/it]
+2025-10-06 19:23:09 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2073/2088 [4:14:38<01:44,  6.94s/it]
+2025-10-06 19:23:09 - ERROR - stderr - 
+2025-10-06 19:23:09 - ERROR - stderr - 
+2025-10-06 19:23:09 - INFO - stdout - {'loss': 0.9536, 'learning_rate': 1.3537941026914301e-07, 'epoch': 5.96}
+2025-10-06 19:23:09 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2073/2088 [4:14:38<01:44,  6.94s/it]
+2025-10-06 19:23:17 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2074/2088 [4:14:45<01:38,  7.01s/it]
+2025-10-06 19:23:17 - ERROR - stderr - 
+2025-10-06 19:23:17 - ERROR - stderr - 
+2025-10-06 19:23:17 - INFO - stdout - {'loss': 1.0099, 'learning_rate': 1.1793119445918654e-07, 'epoch': 5.96}
+2025-10-06 19:23:17 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2074/2088 [4:14:45<01:38,  7.01s/it]
+2025-10-06 19:23:24 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2075/2088 [4:14:52<01:31,  7.02s/it]
+2025-10-06 19:23:24 - ERROR - stderr - 
+2025-10-06 19:23:24 - ERROR - stderr - 
+2025-10-06 19:23:24 - INFO - stdout - {'loss': 0.9, 'learning_rate': 1.0168612140831757e-07, 'epoch': 5.96}
+2025-10-06 19:23:24 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2075/2088 [4:14:52<01:31,  7.02s/it]
+2025-10-06 19:23:31 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2076/2088 [4:14:59<01:24,  7.01s/it]
+2025-10-06 19:23:31 - ERROR - stderr - 
+2025-10-06 19:23:31 - ERROR - stderr - 
+2025-10-06 19:23:31 - INFO - stdout - {'loss': 0.94, 'learning_rate': 8.664423021614853e-08, 'epoch': 5.97}
+2025-10-06 19:23:31 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2076/2088 [4:14:59<01:24,  7.01s/it]
+2025-10-06 19:23:38 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2077/2088 [4:15:06<01:17,  7.07s/it]
+2025-10-06 19:23:38 - ERROR - stderr - 
+2025-10-06 19:23:38 - ERROR - stderr - 
+2025-10-06 19:23:38 - INFO - stdout - {'loss': 0.8817, 'learning_rate': 7.280555708627511e-08, 'epoch': 5.97}
+2025-10-06 19:23:38 - ERROR - stderr -  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2077/2088 [4:15:06<01:17,  7.07s/it]
+2025-10-06 19:23:45 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2078/2088 [4:15:14<01:11,  7.19s/it]
+2025-10-06 19:23:45 - ERROR - stderr - 
+2025-10-06 19:23:45 - ERROR - stderr - 
+2025-10-06 19:23:45 - INFO - stdout - {'loss': 0.8885, 'learning_rate': 6.017013532627625e-08, 'epoch': 5.97}
+2025-10-06 19:23:45 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2078/2088 [4:15:14<01:11,  7.19s/it]
+2025-10-06 19:23:52 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2079/2088 [4:15:21<01:03,  7.10s/it]
+2025-10-06 19:23:52 - ERROR - stderr - 
+2025-10-06 19:23:52 - ERROR - stderr - 
+2025-10-06 19:23:52 - INFO - stdout - {'loss': 0.8433, 'learning_rate': 4.873799534788059e-08, 'epoch': 5.97}
+2025-10-06 19:23:52 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2079/2088 [4:15:21<01:03,  7.10s/it]
+2025-10-06 19:23:59 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2080/2088 [4:15:28<00:57,  7.15s/it]
+2025-10-06 19:23:59 - ERROR - stderr - 
+2025-10-06 19:23:59 - ERROR - stderr - 
+2025-10-06 19:23:59 - INFO - stdout - {'loss': 1.0004, 'learning_rate': 3.850916466652255e-08, 'epoch': 5.98}
+2025-10-06 19:23:59 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2080/2088 [4:15:28<00:57,  7.15s/it]
+2025-10-06 19:24:07 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2081/2088 [4:15:35<00:50,  7.15s/it]
+2025-10-06 19:24:07 - ERROR - stderr - 
+2025-10-06 19:24:07 - ERROR - stderr - 
+2025-10-06 19:24:07 - INFO - stdout - {'loss': 0.9297, 'learning_rate': 2.948366790145318e-08, 'epoch': 5.98}
+2025-10-06 19:24:07 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2081/2088 [4:15:35<00:50,  7.15s/it]
+2025-10-06 19:24:14 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2082/2088 [4:15:42<00:42,  7.11s/it]
+2025-10-06 19:24:14 - ERROR - stderr - 
+2025-10-06 19:24:14 - ERROR - stderr - 
+2025-10-06 19:24:14 - INFO - stdout - {'loss': 1.0617, 'learning_rate': 2.1661526775795802e-08, 'epoch': 5.98}
+2025-10-06 19:24:14 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2082/2088 [4:15:42<00:42,  7.11s/it]
+2025-10-06 19:24:21 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2083/2088 [4:15:49<00:35,  7.17s/it]
+2025-10-06 19:24:21 - ERROR - stderr - 
+2025-10-06 19:24:21 - ERROR - stderr - 
+2025-10-06 19:24:21 - INFO - stdout - {'loss': 0.8841, 'learning_rate': 1.504276011621286e-08, 'epoch': 5.99}
+2025-10-06 19:24:21 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2083/2088 [4:15:49<00:35,  7.17s/it]
+2025-10-06 19:24:28 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2084/2088 [4:15:57<00:28,  7.20s/it]
+2025-10-06 19:24:28 - ERROR - stderr - 
+2025-10-06 19:24:28 - ERROR - stderr - 
+2025-10-06 19:24:28 - INFO - stdout - {'loss': 0.8912, 'learning_rate': 9.627383853128002e-09, 'epoch': 5.99}
+2025-10-06 19:24:28 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2084/2088 [4:15:57<00:28,  7.20s/it]
+2025-10-06 19:24:35 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2085/2088 [4:16:04<00:21,  7.08s/it]
+2025-10-06 19:24:35 - ERROR - stderr - 
+2025-10-06 19:24:35 - ERROR - stderr - 
+2025-10-06 19:24:35 - INFO - stdout - {'loss': 0.9817, 'learning_rate': 5.415411020615046e-09, 'epoch': 5.99}
+2025-10-06 19:24:35 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2085/2088 [4:16:04<00:21,  7.08s/it]
+2025-10-06 19:24:42 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 2086/2088 [4:16:11<00:14,  7.05s/it]
+2025-10-06 19:24:42 - ERROR - stderr - 
+2025-10-06 19:24:42 - ERROR - stderr - 
+2025-10-06 19:24:42 - INFO - stdout - {'loss': 0.939, 'learning_rate': 2.406851756231454e-09, 'epoch': 5.99}
+2025-10-06 19:24:42 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 2086/2088 [4:16:11<00:14,  7.05s/it]
+2025-10-06 19:24:49 - ERROR - stderr - 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 2087/2088 [4:16:18<00:07,  7.05s/it]
+2025-10-06 19:24:49 - ERROR - stderr - 
+2025-10-06 19:24:49 - ERROR - stderr - 
+2025-10-06 19:24:49 - INFO - stdout - {'loss': 1.0128, 'learning_rate': 6.017133011293474e-10, 'epoch': 6.0}
+2025-10-06 19:24:49 - ERROR - stderr - 100%|█████████████████████████████████████████████���█████████████████████████████████████████████████████████▉| 2087/2088 [4:16:18<00:07,  7.05s/it]
+2025-10-06 19:24:53 - ERROR - stderr - 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 2088/2088 [4:16:22<00:00,  6.13s/it]
+2025-10-06 19:24:53 - ERROR - stderr - 
+2025-10-06 19:24:53 - ERROR - stderr - 
+2025-10-06 19:24:53 - INFO - stdout - {'loss': 0.8203, 'learning_rate': 0.0, 'epoch': 6.0}
+2025-10-06 19:24:53 - ERROR - stderr - 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 2088/2088 [4:16:22<00:00,  6.13s/it]
+2025-10-06 19:24:53 - INFO - transformers.trainer - 
+
+Training completed. Do not forget to share your model on huggingface.co/models =)
+
+
+2025-10-06 19:24:53 - INFO - transformers.trainer - 
+
+Training completed. Do not forget to share your model on huggingface.co/models =)
+
+
+2025-10-06 19:24:53 - ERROR - stderr - 
+2025-10-06 19:24:53 - ERROR - stderr - 
+2025-10-06 19:24:53 - INFO - stdout - {'train_runtime': 15384.7999, 'train_samples_per_second': 17.345, 'train_steps_per_second': 0.136, 'train_loss': 1.2130510043138745, 'epoch': 6.0}
+2025-10-06 19:24:53 - ERROR - stderr - 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 2088/2088 [4:16:22<00:00,  6.13s/it]
+2025-10-06 19:24:53 - ERROR - stderr - 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 2088/2088 [4:16:22<00:00,  7.37s/it]
+2025-10-06 19:24:53 - ERROR - stderr - 
+2025-10-06 19:25:08 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece
+2025-10-06 19:25:08 - INFO - transformers.trainer - Saving model checkpoint to epoch6/PointLLM_train_stage1/PointLLM_train_stagece
+2025-10-06 19:25:08 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/config.json
+2025-10-06 19:25:08 - INFO - transformers.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/config.json
+2025-10-06 19:25:08 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/generation_config.json
+2025-10-06 19:25:08 - INFO - transformers.generation.configuration_utils - Configuration saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/generation_config.json
+2025-10-06 19:25:33 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/pytorch_model.bin.index.json.
+2025-10-06 19:25:33 - INFO - transformers.modeling_utils - The model is bigger than the maximum size per checkpoint (10GB) and is going to be split in 3 checkpoint shards. You can find where each parameters has been saved in the index located at epoch6/PointLLM_train_stage1/PointLLM_train_stagece/pytorch_model.bin.index.json.
+2025-10-06 19:25:33 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/tokenizer_config.json
+2025-10-06 19:25:33 - INFO - transformers.tokenization_utils_base - tokenizer config file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/tokenizer_config.json
+2025-10-06 19:25:33 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/special_tokens_map.json
+2025-10-06 19:25:33 - INFO - transformers.tokenization_utils_base - Special tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/special_tokens_map.json
+2025-10-06 19:25:33 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/added_tokens.json
+2025-10-06 19:25:33 - INFO - transformers.tokenization_utils_base - added tokens file saved in epoch6/PointLLM_train_stage1/PointLLM_train_stagece/added_tokens.json
+2025-10-06 19:25:35 - INFO - wandb.sdk.lib.service.service_client - Reached EOF.
+2025-10-06 19:25:35 - INFO - wandb.sdk.mailbox.mailbox - Closing mailbox, abandoning 1 handles.
+2025-10-06 19:25:35 - INFO - wandb.sdk.mailbox.mailbox - Closing mailbox, abandoning 1 handles.