NIRVLab
/

vanilla_bpe

cross-lingual-retrieval

vanilla-transformer

Model card Files Files and versions

HeyDunaX commited on 3 days ago

Commit

db9d66b

·

verified ·

1 Parent(s): 5caeba5

add model card

Files changed (1) hide show

README.md +7 -9

README.md CHANGED Viewed

@@ -4,23 +4,21 @@ language:
 - ede
 tags:
 - cross-lingual-retrieval
-- morpheme-tokenizer
 - vanilla-transformer
 - EViRAL
 ---
-# Vanilla Transformer + Morpheme Tokenizer — EViRAL
-Task: Ede query → Vietnamese passage retrieval
-Config: 6 layers / hidden 512 / 8 heads / FFN 2048
-Tokenizer: corpus-driven morpheme segmentation + Ede-only synonym buffer
 ## Checkpoints
 | file | description |
-|------|-------------|
 | mlm.pt | MLM pre-trained encoder |
 | align.pt | cross-lingual aligned encoder |
 | finetune.pt | contrastive fine-tuned encoder (best val) |
-## Vocab size
-`32000`

 - ede
 tags:
 - cross-lingual-retrieval
+- bpe-tokenizer
 - vanilla-transformer
 - EViRAL
 ---
+# Vanilla Transformer + BPE — EViRAL
+Task: Ede query → Vietnamese passage retrieval
+Config: 6 layers / hidden 512 / 8 heads / FFN 2048
+Tokenizer: BPE (vocab 32 000, trained from scratch on Ede + Vi corpus)
 ## Checkpoints
 | file | description |
+|---|---|
 | mlm.pt | MLM pre-trained encoder |
 | align.pt | cross-lingual aligned encoder |
 | finetune.pt | contrastive fine-tuned encoder (best val) |
+| bpe_tokenizer/tokenizer.json | BPE tokenizer |