benjamin
/

Llama3-2-3B-IT-Byte

Model card Files Files and versions

benjamin commited on Apr 22, 2025

Commit

ec20474

·

verified ·

1 Parent(s): 5ec211b

Update README.md

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -65,14 +65,14 @@ python3 scripts/cross_tokenizer_distill.py \
     output_embeddings_mode=untie \
     eval.tasks=[arc_easy,arc_challenge,piqa,boolq,arithmetic,mmlu,ifeval,agieval_en,agieval_cn] \
     data.batch_size=32 \
-    student.pretrained_model_name_or_path=benjamin/gemma-2-2b-it-flax \
-    student.tokenizer_name=google/gemma-2-2b-it:source=Gemma2 \
-    target_tokenizer_name=google/gemma-2-2b-it:source=Gemma2:target=Gemma2:conversion=byte \
     n_model_parallel=4 \
     n_data_parallel=4 \
     data.num_workers=16 \
     num_workers=16 \
-    name=gemma2_to_byte_20k
 ```
 ## Future Work

     output_embeddings_mode=untie \
     eval.tasks=[arc_easy,arc_challenge,piqa,boolq,arithmetic,mmlu,ifeval,agieval_en,agieval_cn] \
     data.batch_size=32 \
+    student.pretrained_model_name_or_path=benjamin/Llama-3.2-3B-Instruct-flax \
+    student.tokenizer_name=meta-llama/Llama-3.2-3B-Instruct:source=Llama3 \
+    target_tokenizer_name=meta-llama/Llama-3.2-3B-Instruct:source=Llama3:target=Llama3:conversion=byte \
     n_model_parallel=4 \
     n_data_parallel=4 \
     data.num_workers=16 \
     num_workers=16 \
+    name=llama3_to_byte_20k
 ```
 ## Future Work