| { | |
| "tokenizer_class": "LineageRNATokenizer", | |
| "auto_map": { | |
| "AutoTokenizer": [ | |
| "lineage_tokenizer.py", | |
| "LineageRNATokenizer" | |
| ] | |
| }, | |
| "vocab_size": 114, | |
| "pad_token": "<pad>", | |
| "bos_token": "<bos>", | |
| "eos_token": "<eos>", | |
| "unk_token": "<unk>", | |
| "rna_bases": [ | |
| "A", | |
| "U", | |
| "G", | |
| "C" | |
| ], | |
| "special_tokens": [ | |
| "<pad>", | |
| "<bos>", | |
| "<eos>", | |
| "<bos_glm>", | |
| "<eos_span>", | |
| "<unk>" | |
| ], | |
| "glm_span_tokens": [ | |
| "<span_0>", | |
| "<span_1>", | |
| "<span_2>", | |
| "<span_3>", | |
| "<span_4>", | |
| "<span_5>", | |
| "<span_6>", | |
| "<span_7>", | |
| "<span_8>", | |
| "<span_9>", | |
| "<span_10>", | |
| "<span_11>", | |
| "<span_12>", | |
| "<span_13>", | |
| "<span_14>", | |
| "<span_15>", | |
| "<span_16>", | |
| "<span_17>", | |
| "<span_18>", | |
| "<span_19>", | |
| "<span_20>", | |
| "<span_21>", | |
| "<span_22>", | |
| "<span_23>", | |
| "<span_24>", | |
| "<span_25>", | |
| "<span_26>", | |
| "<span_27>", | |
| "<span_28>", | |
| "<span_29>", | |
| "<span_30>", | |
| "<span_31>", | |
| "<span_32>", | |
| "<span_33>", | |
| "<span_34>", | |
| "<span_35>", | |
| "<span_36>", | |
| "<span_37>", | |
| "<span_38>", | |
| "<span_39>", | |
| "<span_40>", | |
| "<span_41>", | |
| "<span_42>", | |
| "<span_43>", | |
| "<span_44>", | |
| "<span_45>", | |
| "<span_46>", | |
| "<span_47>", | |
| "<span_48>", | |
| "<span_49>" | |
| ], | |
| "rna_type_tokens": [ | |
| "<rna_mRNA>", | |
| "<rna_rRNA>", | |
| "<rna_tRNA>", | |
| "<rna_sRNA>", | |
| "<rna_lncRNA>", | |
| "<rna_circRNA>", | |
| "<rna_viral_RNA>", | |
| "<rna_miRNA>", | |
| "<rna_snoRNA>", | |
| "<rna_snRNA>", | |
| "<rna_piRNA>", | |
| "<rna_ribozyme>", | |
| "<rna_scaRNA>", | |
| "<rna_Y_RNA>", | |
| "<rna_vault_RNA>" | |
| ], | |
| "lineage_level_tokens": [ | |
| "d__", | |
| "p__", | |
| "c__", | |
| "o__", | |
| "f__", | |
| "g__", | |
| "s__" | |
| ], | |
| "lineage_special_chars": [ | |
| ";", | |
| "|", | |
| "_", | |
| "-" | |
| ], | |
| "mode": "lineage", | |
| "description": "Lineage-based tokenizer without species tokens or task tokens" | |
| } |