Finetuning issue

by MatthewLiuTT - opened Nov 17, 2025

Nov 17, 2025

Hi, I tried to run the finetuning script accordingly. However, it seems have some issue with batching. It would be good if you can give some comments on it.

--- Starting Model Training ---
Traceback (most recent call last):
  File "/home/vjepa2/vjepa2.py", line 436, in <module>
    main()
  File "/home/vjepa2/vjepa2.py", line 399, in main
    training_history = run_training_loop(config, model, processor, train_loader, val_loader, device)
                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/vjepa2/vjepa2.py", line 231, in run_training_loop
    inputs = processor(vids, return_tensors="pt").to(device)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/vj2_env/lib/python3.12/site-packages/transformers/video_processing_utils.py", line 209, in __call__
    return self.preprocess(videos, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/vj2_env/lib/python3.12/site-packages/transformers/video_processing_utils.py", line 391, in preprocess
    videos = self._prepare_input_videos(videos=videos, input_data_format=input_data_format, device=device)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/vj2_env/lib/python3.12/site-packages/transformers/video_processing_utils.py", line 347, in _prepare_input_videos
    input_data_format = infer_channel_dimension_format(video)
                        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/vj2_env/lib/python3.12/site-packages/transformers/image_utils.py", line 312, in infer_channel_dimension_format
    raise ValueError(f"Unsupported number of image dimensions: {image.ndim}")
ValueError: Unsupported number of image dimensions: 6

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment