Upload 8 files

Browse files

Files changed (9) hide show

.gitattributes +1 -0
preprocessor_config.json +31 -0
special_tokens_map.json +38 -0
spk_dict.pt +3 -0
tokenizer.json +3 -0
tokenizer_config.json +226 -0
trainer_state.json +294 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "chunk_length": 300,
+  "dither": 0.0,
+  "feature_extractor_type": "WhisperFeatureExtractor",
+  "feature_size": 128,
+  "hop_length": 160,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "Qwen2VLImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "max_pixels": 12845056,
+  "merge_size": 2,
+  "min_pixels": 3136,
+  "n_fft": 400,
+  "n_samples": 4800000,
+  "nb_max_frames": 30000,
+  "padding_side": "left",
+  "padding_value": 0.0,
+  "patch_size": 14,
+  "processor_class": "Qwen2_5OmniProcessor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "temporal_patch_size": 2
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|AUDIO|>",
+    "<|audio_bos|>",
+    "<|audio_eos|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_bos|>",
+    "<|vision_eos|>",
+    "<|vision_pad|>",
+    "<|IMAGE|>",
+    "<|VIDEO|>"
+  ],
+  "audio_bos_token": "<|audio_bos|>",
+  "audio_eos_token": "<|audio_eos|>",
+  "audio_token": "<|AUDIO|>",
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<|IMAGE|>",
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "video_token": "<|VIDEO|>",
+  "vision_bos_token": "<|vision_bos|>",
+  "vision_eos_token": "<|vision_eos|>"
+}

spk_dict.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a05609b28f5d42b7b748f0f07592545c8f1f6885b9ae8fff64baf56e86b2a18
+size 259544

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9711e245647e88538786834977dc8afb51172e879ee661352c587cf01efd6b0
+size 11422037

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,226 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|AUDIO|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|audio_bos|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|audio_eos|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_bos|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_eos|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|IMAGE|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|VIDEO|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|AUDIO|>",
+    "<|audio_bos|>",
+    "<|audio_eos|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_bos|>",
+    "<|vision_eos|>",
+    "<|vision_pad|>",
+    "<|IMAGE|>",
+    "<|VIDEO|>"
+  ],
+  "audio_bos_token": "<|audio_bos|>",
+  "audio_eos_token": "<|audio_eos|>",
+  "audio_token": "<|AUDIO|>",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {
+    "audio_bos_token": "<|audio_bos|>",
+    "audio_eos_token": "<|audio_eos|>",
+    "audio_token": "<|AUDIO|>",
+    "image_token": "<|IMAGE|>",
+    "video_token": "<|VIDEO|>",
+    "vision_bos_token": "<|vision_bos|>",
+    "vision_eos_token": "<|vision_eos|>"
+  },
+  "image_token": "<|IMAGE|>",
+  "max_length": null,
+  "model_max_length": 32768,
+  "pad_to_multiple_of": null,
+  "pad_token": "<|endoftext|>",
+  "pad_token_type_id": 0,
+  "padding_side": "left",
+  "processor_class": "Qwen2_5OmniProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null,
+  "video_token": "<|VIDEO|>",
+  "vision_bos_token": "<|vision_bos|>",
+  "vision_eos_token": "<|vision_eos|>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,294 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.05333333333333334,
+  "eval_steps": 500,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "completion_length": 49.39791831970215,
+      "epoch": 0.0026666666666666666,
+      "grad_norm": 2.0543670654296875,
+      "kl": 0.0,
+      "learning_rate": 9.988749999999998e-07,
+      "loss": 0.0,
+      "reward": 0.7812500149011612,
+      "reward_std": 0.07898591235280036,
+      "rewards/accuracy_reward": 0.7812500149011612,
+      "rewards/format_reward": 0.0,
+      "step": 10
+    },
+    {
+      "completion_length": 49.31250114440918,
+      "epoch": 0.005333333333333333,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.97625e-07,
+      "loss": 0.0,
+      "reward": 0.8270833492279053,
+      "reward_std": 0.055086643993854524,
+      "rewards/accuracy_reward": 0.8270833492279053,
+      "rewards/format_reward": 0.0,
+      "step": 20
+    },
+    {
+      "completion_length": 47.689584732055664,
+      "epoch": 0.008,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.96375e-07,
+      "loss": 0.0,
+      "reward": 0.8666666746139526,
+      "reward_std": 0.02957112304866314,
+      "rewards/accuracy_reward": 0.8666666746139526,
+      "rewards/format_reward": 0.0,
+      "step": 30
+    },
+    {
+      "completion_length": 46.74375114440918,
+      "epoch": 0.010666666666666666,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.95125e-07,
+      "loss": 0.0,
+      "reward": 0.7645833373069764,
+      "reward_std": 0.021764283627271654,
+      "rewards/accuracy_reward": 0.7645833373069764,
+      "rewards/format_reward": 0.0,
+      "step": 40
+    },
+    {
+      "completion_length": 46.62708435058594,
+      "epoch": 0.013333333333333334,
+      "grad_norm": 5.9468488693237305,
+      "kl": 0.0,
+      "learning_rate": 9.938749999999999e-07,
+      "loss": 0.0,
+      "reward": 0.7562500178813935,
+      "reward_std": 0.041129202023148535,
+      "rewards/accuracy_reward": 0.7562500178813935,
+      "rewards/format_reward": 0.0,
+      "step": 50
+    },
+    {
+      "completion_length": 43.75833435058594,
+      "epoch": 0.016,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.926249999999999e-07,
+      "loss": 0.0,
+      "reward": 0.7791666775941849,
+      "reward_std": 0.05818194076418877,
+      "rewards/accuracy_reward": 0.7791666775941849,
+      "rewards/format_reward": 0.0,
+      "step": 60
+    },
+    {
+      "completion_length": 41.90833435058594,
+      "epoch": 0.018666666666666668,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.913749999999999e-07,
+      "loss": 0.0,
+      "reward": 0.7645833492279053,
+      "reward_std": 0.0550866425037384,
+      "rewards/accuracy_reward": 0.7645833492279053,
+      "rewards/format_reward": 0.0,
+      "step": 70
+    },
+    {
+      "completion_length": 40.07916793823242,
+      "epoch": 0.021333333333333333,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.90125e-07,
+      "loss": 0.0,
+      "reward": 0.7770833373069763,
+      "reward_std": 0.0317061148583889,
+      "rewards/accuracy_reward": 0.7770833373069763,
+      "rewards/format_reward": 0.0,
+      "step": 80
+    },
+    {
+      "completion_length": 38.35000114440918,
+      "epoch": 0.024,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.88875e-07,
+      "loss": 0.0,
+      "reward": 0.7645833432674408,
+      "reward_std": 0.060581305995583534,
+      "rewards/accuracy_reward": 0.7645833432674408,
+      "rewards/format_reward": 0.0,
+      "step": 90
+    },
+    {
+      "completion_length": 37.939584732055664,
+      "epoch": 0.02666666666666667,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.87625e-07,
+      "loss": 0.0,
+      "reward": 0.7979166746139527,
+      "reward_std": 0.028219255805015563,
+      "rewards/accuracy_reward": 0.7979166746139527,
+      "rewards/format_reward": 0.0,
+      "step": 100
+    },
+    {
+      "completion_length": 37.908334732055664,
+      "epoch": 0.029333333333333333,
+      "grad_norm": 5.802574634552002,
+      "kl": 0.0,
+      "learning_rate": 9.86375e-07,
+      "loss": 0.0,
+      "reward": 0.8333333432674408,
+      "reward_std": 0.045271995663642886,
+      "rewards/accuracy_reward": 0.8333333432674408,
+      "rewards/format_reward": 0.0,
+      "step": 110
+    },
+    {
+      "completion_length": 37.3604175567627,
+      "epoch": 0.032,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.85125e-07,
+      "loss": 0.0,
+      "reward": 0.7812500119209289,
+      "reward_std": 0.027258946374058724,
+      "rewards/accuracy_reward": 0.7812500119209289,
+      "rewards/format_reward": 0.0,
+      "step": 120
+    },
+    {
+      "completion_length": 37.42083473205567,
+      "epoch": 0.034666666666666665,
+      "grad_norm": 2.0744457244873047,
+      "kl": 0.0,
+      "learning_rate": 9.83875e-07,
+      "loss": 0.0,
+      "reward": 0.8125000178813935,
+      "reward_std": 0.02686738669872284,
+      "rewards/accuracy_reward": 0.8125000178813935,
+      "rewards/format_reward": 0.0,
+      "step": 130
+    },
+    {
+      "completion_length": 37.39583473205566,
+      "epoch": 0.037333333333333336,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.82625e-07,
+      "loss": 0.0,
+      "reward": 0.7708333492279053,
+      "reward_std": 0.07484312132000923,
+      "rewards/accuracy_reward": 0.7708333492279053,
+      "rewards/format_reward": 0.0,
+      "step": 140
+    },
+    {
+      "completion_length": 37.16458435058594,
+      "epoch": 0.04,
+      "grad_norm": 4.576603889465332,
+      "kl": 0.0,
+      "learning_rate": 9.81375e-07,
+      "loss": 0.0,
+      "reward": 0.7645833492279053,
+      "reward_std": 0.028219255059957503,
+      "rewards/accuracy_reward": 0.7645833492279053,
+      "rewards/format_reward": 0.0,
+      "step": 150
+    },
+    {
+      "completion_length": 37.14375114440918,
+      "epoch": 0.042666666666666665,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 9.80125e-07,
+      "loss": 0.0,
+      "reward": 0.7958333432674408,
+      "reward_std": 0.03506578803062439,
+      "rewards/accuracy_reward": 0.7958333432674408,
+      "rewards/format_reward": 0.0,
+      "step": 160
+    },
+    {
+      "completion_length": 35.55625114440918,
+      "epoch": 0.04533333333333334,
+      "grad_norm": 1.8064866065979004,
+      "kl": 0.0,
+      "learning_rate": 9.78875e-07,
+      "loss": 0.0,
+      "reward": 0.7145833492279052,
+      "reward_std": 0.05953380987048149,
+      "rewards/accuracy_reward": 0.7145833492279052,
+      "rewards/format_reward": 0.0,
+      "step": 170
+    },
+    {
+      "completion_length": 34.5791675567627,
+      "epoch": 0.048,
+      "grad_norm": 2.790367364883423,
+      "kl": 0.0,
+      "learning_rate": 9.77625e-07,
+      "loss": 0.0,
+      "reward": 0.8020833432674408,
+      "reward_std": 0.06502847410738469,
+      "rewards/accuracy_reward": 0.8020833432674408,
+      "rewards/format_reward": 0.0,
+      "step": 180
+    },
+    {
+      "completion_length": 34.96250114440918,
+      "epoch": 0.050666666666666665,
+      "grad_norm": 2.381667137145996,
+      "kl": 0.0,
+      "learning_rate": 9.76375e-07,
+      "loss": 0.0,
+      "reward": 0.7625000238418579,
+      "reward_std": 0.04998354017734528,
+      "rewards/accuracy_reward": 0.7604166865348816,
+      "rewards/format_reward": 0.002083333395421505,
+      "step": 190
+    },
+    {
+      "completion_length": 33.00416793823242,
+      "epoch": 0.05333333333333334,
+      "grad_norm": 3.4813380241394043,
+      "kl": 0.0,
+      "learning_rate": 9.75125e-07,
+      "loss": 0.0,
+      "reward": 0.7333333492279053,
+      "reward_std": 0.03707359582185745,
+      "rewards/accuracy_reward": 0.7333333492279053,
+      "rewards/format_reward": 0.0,
+      "step": 200
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 8000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b9b937ff73e7987bfae67f92072d2175021b10e00c84216c533bdfb396576b8
+size 8376

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff