IDEA-Emdoor
/

DistilCodec-v1.0

Model card Files Files and versions

Ray0323 commited on May 22, 2025

Commit

8e2b804

·

verified ·

1 Parent(s): f8aa413

Update README.md

Files changed (1) hide show

README.md +27 -12

README.md CHANGED Viewed

@@ -40,8 +40,8 @@ The code is in [DistilCodec](https://github.com/IDEA-Emdoor-Lab/DistilCodec).
 from distil_codec import DistilCodec, demo_for_generate_audio_codes
-codec_model_config_path='path_to_model_config'
-codec_ckpt_path = 'path_to_codec_ckpt_path'
 step=204000
 codec = DistilCodec.from_pretrained(
@@ -51,8 +51,13 @@ codec = DistilCodec.from_pretrained(
     use_generator=True,
     is_debug=False).eval()
-audio_path = 'path_to_audio'
-audio_tokens = demo_for_generate_audio_codes(codec, audio_path, target_sr=24000)
 print(audio_tokens)
 ```
@@ -62,8 +67,10 @@ print(audio_tokens)
 from distil_codec import DistilCodec, demo_for_generate_audio_codes
-codec_model_config_path='path_to_model_config'
-codec_ckpt_path = 'path_to_codec_ckpt_path'
 step=204000
 codec = DistilCodec.from_pretrained(
@@ -73,14 +80,22 @@ codec = DistilCodec.from_pretrained(
     use_generator=True,
     is_debug=False).eval()
-audio_path = 'path_to_audio'
-audio_tokens = demo_for_generate_audio_codes(codec, audio_path, target_sr=24000)
 print(audio_tokens)
-# Setup generated audio save path, the path is f'{gen_audio_save_path}/audio_name.wav'
-gen_audio_save_path = 'path_to_save_path'
-audio_name = 'your_audio_name'
-y_gen = codec.decode_from_codes(audio_tokens, minus_token_offset=True)
 codec.save_wav(
     audio_gen_batch=y_gen,
     nhop_lengths=[y_gen.shape[-1]],

 from distil_codec import DistilCodec, demo_for_generate_audio_codes
+codec_model_config_path='/path/to/distilcodec/model_config.json'
+codec_ckpt_path = '/path/to/distilcodec_ckpt'
 step=204000
 codec = DistilCodec.from_pretrained(
     use_generator=True,
     is_debug=False).eval()
+audio_path = '/path/to/audio_file'
+audio_tokens = demo_for_generate_audio_codes(
+    codec,
+    audio_path,
+    target_sr=24000,
+    plus_llm_offset=True # If this parameter set to True, then it will add LLM's vocabulary number to audio token, and DistilCodec's default vocabulary number is from QWen2.5-7B.
+)
 print(audio_tokens)
 ```
 from distil_codec import DistilCodec, demo_for_generate_audio_codes
+from distil_codec import DistilCodec, demo_for_generate_audio_codes
+codec_model_config_path='/path/to/distilcodec/model_config.json'
+codec_ckpt_path = '/path/to/distilcodec_ckpt'
 step=204000
 codec = DistilCodec.from_pretrained(
     use_generator=True,
     is_debug=False).eval()
+audio_path = '/path/to/audio_file'
+audio_tokens = demo_for_generate_audio_codes(
+    codec,
+    audio_path,
+    target_sr=24000,
+    plus_llm_offset=True # If this parameter set to True, then it will add LLM's vocabulary number to audio token, and DistilCodec's default vocabulary number is from QWen2.5-7B.
+)
 print(audio_tokens)
+# Generated audio save path, the path is f'{gen_audio_save_path}/{audio_name}.wav'
+gen_audio_save_path = '/path/to/audio_save_path'
+audio_name = 'audio_name'
+y_gen = codec.decode_from_codes(
+    audio_tokens,
+    minus_token_offset=True # if the 'plus_llm_offset' of method demo_for_generate_audio_codes is set to True, then minus_token_offset must be True.
+)
 codec.save_wav(
     audio_gen_batch=y_gen,
     nhop_lengths=[y_gen.shape[-1]],