Upload VibeVoiceAsrForConditionalGeneration

Browse files

Files changed (4) hide show

config.json +2 -0
model-00007-of-00008.safetensors +2 -2
model-00008-of-00008.safetensors +2 -2
model.safetensors.index.json +8 -8

config.json CHANGED Viewed

@@ -23,6 +23,7 @@
     "ffn_expansion": 4,
     "hidden_act": "gelu",
     "hidden_size": 64,
     "kernel_size": 7,
     "layer_scale_init_value": 1e-06,
     "model_type": "vibevoice_asr_encoder",
@@ -63,6 +64,7 @@
     "ffn_expansion": 4,
     "hidden_act": "gelu",
     "hidden_size": 128,
     "kernel_size": 7,
     "layer_scale_init_value": 1e-06,
     "model_type": "vibevoice_asr_encoder",

     "ffn_expansion": 4,
     "hidden_act": "gelu",
     "hidden_size": 64,
+    "initializer_range": 0.01,
     "kernel_size": 7,
     "layer_scale_init_value": 1e-06,
     "model_type": "vibevoice_asr_encoder",
     "ffn_expansion": 4,
     "hidden_act": "gelu",
     "hidden_size": 128,
+    "initializer_range": 0.01,
     "kernel_size": 7,
     "layer_scale_init_value": 1e-06,
     "model_type": "vibevoice_asr_encoder",

model-00007-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ae098071e2891cef7442f4f9869568fdf5f50e86bab55880650c45b9f659784
-size 2493791232

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e7b2afc2317cb1250bdad558ecb5aaccbf6a9072f5eab695ae60e827fe8bb66
+size 2482226384

model-00008-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fbe26228575ec5eeedcdaa3ef903671c008650dc5a34da76e726de40a1f68b1
-size 25697544

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dfbf12dbdabde3e406b1c83826493225bb9a7e09e7e9a2466e1022e3cdcf81e
+size 37262376

model.safetensors.index.json CHANGED Viewed

@@ -626,8 +626,8 @@
     "multi_modal_projector.acoustic_norm.weight": "model-00007-of-00008.safetensors",
     "multi_modal_projector.semantic_linear_1.bias": "model-00007-of-00008.safetensors",
     "multi_modal_projector.semantic_linear_1.weight": "model-00007-of-00008.safetensors",
-    "multi_modal_projector.semantic_linear_2.bias": "model-00008-of-00008.safetensors",
-    "multi_modal_projector.semantic_linear_2.weight": "model-00008-of-00008.safetensors",
     "multi_modal_projector.semantic_norm.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.0.conv.conv.bias": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.0.conv.conv.weight": "model-00007-of-00008.safetensors",
@@ -863,16 +863,16 @@
     "semantic_tokenizer.encoder.conv_layers.5.stage.6.norm.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn.linear1.bias": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn.linear1.weight": "model-00007-of-00008.safetensors",
-    "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn.linear2.bias": "model-00007-of-00008.safetensors",
-    "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn.linear2.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn_gamma": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn_norm.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.gamma": "model-00007-of-00008.safetensors",
-    "semantic_tokenizer.encoder.conv_layers.5.stage.7.mixer.conv.bias": "model-00007-of-00008.safetensors",
-    "semantic_tokenizer.encoder.conv_layers.5.stage.7.mixer.conv.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.norm.weight": "model-00007-of-00008.safetensors",
-    "semantic_tokenizer.encoder.head.conv.bias": "model-00007-of-00008.safetensors",
-    "semantic_tokenizer.encoder.head.conv.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.stem.conv.conv.bias": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.stem.conv.conv.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.stem.stage.0.ffn.linear1.bias": "model-00007-of-00008.safetensors",

     "multi_modal_projector.acoustic_norm.weight": "model-00007-of-00008.safetensors",
     "multi_modal_projector.semantic_linear_1.bias": "model-00007-of-00008.safetensors",
     "multi_modal_projector.semantic_linear_1.weight": "model-00007-of-00008.safetensors",
+    "multi_modal_projector.semantic_linear_2.bias": "model-00007-of-00008.safetensors",
+    "multi_modal_projector.semantic_linear_2.weight": "model-00007-of-00008.safetensors",
     "multi_modal_projector.semantic_norm.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.0.conv.conv.bias": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.0.conv.conv.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.6.norm.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn.linear1.bias": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn.linear1.weight": "model-00007-of-00008.safetensors",
+    "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn.linear2.bias": "model-00008-of-00008.safetensors",
+    "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn.linear2.weight": "model-00008-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn_gamma": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.ffn_norm.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.gamma": "model-00007-of-00008.safetensors",
+    "semantic_tokenizer.encoder.conv_layers.5.stage.7.mixer.conv.bias": "model-00008-of-00008.safetensors",
+    "semantic_tokenizer.encoder.conv_layers.5.stage.7.mixer.conv.weight": "model-00008-of-00008.safetensors",
     "semantic_tokenizer.encoder.conv_layers.5.stage.7.norm.weight": "model-00007-of-00008.safetensors",
+    "semantic_tokenizer.encoder.head.conv.bias": "model-00008-of-00008.safetensors",
+    "semantic_tokenizer.encoder.head.conv.weight": "model-00008-of-00008.safetensors",
     "semantic_tokenizer.encoder.stem.conv.conv.bias": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.stem.conv.conv.weight": "model-00007-of-00008.safetensors",
     "semantic_tokenizer.encoder.stem.stage.0.ffn.linear1.bias": "model-00007-of-00008.safetensors",