Upload 22 files

by maybleMyers - opened Jun 28, 2025

base: refs/heads/main

←

from: refs/pr/8

Discussion Files changed

+232

-0

Files changed (22) hide show

chinese-wav2vec2-base/.cache/huggingface/.gitignore +1 -0
chinese-wav2vec2-base/.cache/huggingface/download/.gitattributes.lock +0 -0
chinese-wav2vec2-base/.cache/huggingface/download/.gitattributes.metadata +3 -0
chinese-wav2vec2-base/.cache/huggingface/download/README.md.lock +0 -0
chinese-wav2vec2-base/.cache/huggingface/download/README.md.metadata +3 -0
chinese-wav2vec2-base/.cache/huggingface/download/chinese-wav2vec2-base-fairseq-ckpt.pt.lock +0 -0
chinese-wav2vec2-base/.cache/huggingface/download/chinese-wav2vec2-base-fairseq-ckpt.pt.metadata +3 -0
chinese-wav2vec2-base/.cache/huggingface/download/config.json.lock +0 -0
chinese-wav2vec2-base/.cache/huggingface/download/config.json.metadata +3 -0
chinese-wav2vec2-base/.cache/huggingface/download/model.safetensors.lock +0 -0
chinese-wav2vec2-base/.cache/huggingface/download/model.safetensors.metadata +3 -0
chinese-wav2vec2-base/.cache/huggingface/download/preprocessor_config.json.lock +0 -0
chinese-wav2vec2-base/.cache/huggingface/download/preprocessor_config.json.metadata +3 -0
chinese-wav2vec2-base/.cache/huggingface/download/pytorch_model.bin.lock +0 -0
chinese-wav2vec2-base/.cache/huggingface/download/pytorch_model.bin.metadata +3 -0
chinese-wav2vec2-base/.gitattributes +27 -0
chinese-wav2vec2-base/README.md +61 -0
chinese-wav2vec2-base/chinese-wav2vec2-base-fairseq-ckpt.pt +3 -0
chinese-wav2vec2-base/config.json +105 -0
chinese-wav2vec2-base/model.safetensors +3 -0
chinese-wav2vec2-base/preprocessor_config.json +8 -0
chinese-wav2vec2-base/pytorch_model.bin +3 -0

chinese-wav2vec2-base/.cache/huggingface/.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ *

chinese-wav2vec2-base/.cache/huggingface/download/.gitattributes.lock ADDED Viewed

File without changes

chinese-wav2vec2-base/.cache/huggingface/download/.gitattributes.metadata ADDED Viewed

	@@ -0,0 +1,3 @@

+3991242c806928916fff4a8c0e4f76acf661b743
+ac481c8eb05e4d2496fbe076a38a7b4835dd733d
+1751137924.4122005

chinese-wav2vec2-base/.cache/huggingface/download/README.md.lock ADDED Viewed

File without changes

chinese-wav2vec2-base/.cache/huggingface/download/README.md.metadata ADDED Viewed

	@@ -0,0 +1,3 @@

+3991242c806928916fff4a8c0e4f76acf661b743
+393620d4c9668e4580244a55bb3dc63127ec6bc2
+1751137924.3266006

chinese-wav2vec2-base/.cache/huggingface/download/chinese-wav2vec2-base-fairseq-ckpt.pt.lock ADDED Viewed

File without changes

chinese-wav2vec2-base/.cache/huggingface/download/chinese-wav2vec2-base-fairseq-ckpt.pt.metadata ADDED Viewed

	@@ -0,0 +1,3 @@

+3991242c806928916fff4a8c0e4f76acf661b743
+a75e04e426977dd399415b7f586b18978bc6836a3e8514ae1bb29e468fb17184
+1751138016.490058

chinese-wav2vec2-base/.cache/huggingface/download/config.json.lock ADDED Viewed

File without changes

chinese-wav2vec2-base/.cache/huggingface/download/config.json.metadata ADDED Viewed

	@@ -0,0 +1,3 @@

+3991242c806928916fff4a8c0e4f76acf661b743
+74fe6760e497a3ce7647338c725395d7b2f7e63a
+1751137924.400056

chinese-wav2vec2-base/.cache/huggingface/download/model.safetensors.lock ADDED Viewed

File without changes

chinese-wav2vec2-base/.cache/huggingface/download/model.safetensors.metadata ADDED Viewed

	@@ -0,0 +1,3 @@

+5f7a6cfdfc5440ec78748f79a9dd66f077c2b463
+b86f5be7b752fc655c27387a75712f733315a30f976e5875491599615399e773
+1751137904.7127929

chinese-wav2vec2-base/.cache/huggingface/download/preprocessor_config.json.lock ADDED Viewed

File without changes

chinese-wav2vec2-base/.cache/huggingface/download/preprocessor_config.json.metadata ADDED Viewed

	@@ -0,0 +1,3 @@

+3991242c806928916fff4a8c0e4f76acf661b743
+7d03dfc4ecba260febb718eb2ed6bb0d2da4f0f9
+1751137924.2934573

chinese-wav2vec2-base/.cache/huggingface/download/pytorch_model.bin.lock ADDED Viewed

File without changes

chinese-wav2vec2-base/.cache/huggingface/download/pytorch_model.bin.metadata ADDED Viewed

	@@ -0,0 +1,3 @@

+3991242c806928916fff4a8c0e4f76acf661b743
+be2da40c9e7ae26bfc904a3ed79ebb9e8f060bec6dba85d6a6ae86114bc38901
+1751137992.8533957

chinese-wav2vec2-base/.gitattributes ADDED Viewed

	@@ -0,0 +1,27 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

chinese-wav2vec2-base/README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+license: mit
+---
+Pretrained on 10k hours WenetSpeech L subset. More details in  [TencentGameMate/chinese_speech_pretrain](https://github.com/TencentGameMate/chinese_speech_pretrain)
+This model does not have a tokenizer as it was pretrained on audio alone.
+In order to use this model speech recognition, a tokenizer should be created and the model should be fine-tuned on labeled text data.
+python package:
+transformers==4.16.2
+```python
+import torch
+import torch.nn.functional as F
+import soundfile as sf
+from fairseq import checkpoint_utils
+from transformers import (
+    Wav2Vec2FeatureExtractor,
+    Wav2Vec2ForPreTraining,
+    Wav2Vec2Model,
+)
+from transformers.models.wav2vec2.modeling_wav2vec2 import _compute_mask_indices
+model_path=""
+wav_path=""
+mask_prob=0.0
+mask_length=10
+feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_path)
+model = Wav2Vec2Model.from_pretrained(model_path)
+# for pretrain: Wav2Vec2ForPreTraining
+# model = Wav2Vec2ForPreTraining.from_pretrained(model_path)
+model = model.to(device)
+model = model.half()
+model.eval()
+wav, sr = sf.read(wav_path)
+input_values = feature_extractor(wav, return_tensors="pt").input_values
+input_values = input_values.half()
+input_values = input_values.to(device)
+# for Wav2Vec2ForPreTraining
+# batch_size, raw_sequence_length = input_values.shape
+# sequence_length = model._get_feat_extract_output_lengths(raw_sequence_length)
+# mask_time_indices = _compute_mask_indices((batch_size, sequence_length), mask_prob=0.0, mask_length=2)
+# mask_time_indices = torch.tensor(mask_time_indices, device=input_values.device, dtype=torch.long)
+with torch.no_grad():
+    outputs = model(input_values)
+    last_hidden_state = outputs.last_hidden_state
+    # for Wav2Vec2ForPreTraining
+    # outputs = model(input_values, mask_time_indices=mask_time_indices, output_hidden_states=True)
+    # last_hidden_state = outputs.hidden_states[-1]
+```

chinese-wav2vec2-base/chinese-wav2vec2-base-fairseq-ckpt.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a75e04e426977dd399415b7f586b18978bc6836a3e8514ae1bb29e468fb17184
+size 1140632401

chinese-wav2vec2-base/config.json ADDED Viewed

	@@ -0,0 +1,105 @@

+{
+  "activation_dropout": 0.1,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForPreTraining"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 256,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 12,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 12,
+  "num_negatives": 100,
+  "output_hidden_size": 768,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 256,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.16.2",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

chinese-wav2vec2-base/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b86f5be7b752fc655c27387a75712f733315a30f976e5875491599615399e773
+size 380204696

chinese-wav2vec2-base/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "do_normalize": false,
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}

chinese-wav2vec2-base/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be2da40c9e7ae26bfc904a3ed79ebb9e8f060bec6dba85d6a6ae86114bc38901
+size 380261837