videoloc
/

seamless-basic

subtitle-editing-time-prediction

Model card Files Files and versions

giuseppe-tanzi commited on Jun 16, 2025

Commit

867d40b

·

verified ·

1 Parent(s): 8525e7c

Upload folder using huggingface_hub

Files changed (1) hide show

README.md +1 -4

README.md CHANGED Viewed

@@ -8,7 +8,7 @@ tags:
 - seamless
 - subtitle-editing-time-prediction
 library_name: transformers
-pipeline_tag: audio-regression
 ---
 # videoloc/seamless-basic
@@ -24,7 +24,6 @@ The model is built on top of Meta's SeamlessM4T and fine-tuned on a multimodal d
 - **Multimodal Processing**: Simultaneously processes audio (16kHz) and text inputs
 - **Frozen Encoders**: Uses pre-trained SeamlessM4T encoders (frozen for stability)
 - **TTE Prediction**: Predicts editing time required for subtitle segments
-- **Efficient Architecture**: Optimized for inference with gradient checkpointing support
 - **Direct Output**: Raw time values in seconds for immediate use
 ## Model Architecture
@@ -156,8 +155,6 @@ data = [
 - **Dataset Split**: 80/20 train/test
 - **Random Seed**: 42
 - **Metric**: RMSE (lower is better)
-- **Audio Caching**: Enabled with compression
-- **Workers**: 8
 ## Training Configuration

 - seamless
 - subtitle-editing-time-prediction
 library_name: transformers
+base_model: facebook/hf-seamless-m4t-medium
 ---
 # videoloc/seamless-basic
 - **Multimodal Processing**: Simultaneously processes audio (16kHz) and text inputs
 - **Frozen Encoders**: Uses pre-trained SeamlessM4T encoders (frozen for stability)
 - **TTE Prediction**: Predicts editing time required for subtitle segments
 - **Direct Output**: Raw time values in seconds for immediate use
 ## Model Architecture
 - **Dataset Split**: 80/20 train/test
 - **Random Seed**: 42
 - **Metric**: RMSE (lower is better)
 ## Training Configuration