File size: 1,913 Bytes
ec927b3
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
{
  "tokenizer_class": "LineageRNATokenizer",
  "auto_map": {
    "AutoTokenizer": [
      "lineage_tokenizer.py",
      "LineageRNATokenizer"
    ]
  },
  "vocab_size": 114,
  "pad_token": "<pad>",
  "bos_token": "<bos>",
  "eos_token": "<eos>",
  "unk_token": "<unk>",
  "rna_bases": [
    "A",
    "U",
    "G",
    "C"
  ],
  "special_tokens": [
    "<pad>",
    "<bos>",
    "<eos>",
    "<bos_glm>",
    "<eos_span>",
    "<unk>"
  ],
  "glm_span_tokens": [
    "<span_0>",
    "<span_1>",
    "<span_2>",
    "<span_3>",
    "<span_4>",
    "<span_5>",
    "<span_6>",
    "<span_7>",
    "<span_8>",
    "<span_9>",
    "<span_10>",
    "<span_11>",
    "<span_12>",
    "<span_13>",
    "<span_14>",
    "<span_15>",
    "<span_16>",
    "<span_17>",
    "<span_18>",
    "<span_19>",
    "<span_20>",
    "<span_21>",
    "<span_22>",
    "<span_23>",
    "<span_24>",
    "<span_25>",
    "<span_26>",
    "<span_27>",
    "<span_28>",
    "<span_29>",
    "<span_30>",
    "<span_31>",
    "<span_32>",
    "<span_33>",
    "<span_34>",
    "<span_35>",
    "<span_36>",
    "<span_37>",
    "<span_38>",
    "<span_39>",
    "<span_40>",
    "<span_41>",
    "<span_42>",
    "<span_43>",
    "<span_44>",
    "<span_45>",
    "<span_46>",
    "<span_47>",
    "<span_48>",
    "<span_49>"
  ],
  "rna_type_tokens": [
    "<rna_mRNA>",
    "<rna_rRNA>",
    "<rna_tRNA>",
    "<rna_sRNA>",
    "<rna_lncRNA>",
    "<rna_circRNA>",
    "<rna_viral_RNA>",
    "<rna_miRNA>",
    "<rna_snoRNA>",
    "<rna_snRNA>",
    "<rna_piRNA>",
    "<rna_ribozyme>",
    "<rna_scaRNA>",
    "<rna_Y_RNA>",
    "<rna_vault_RNA>"
  ],
  "lineage_level_tokens": [
    "d__",
    "p__",
    "c__",
    "o__",
    "f__",
    "g__",
    "s__"
  ],
  "lineage_special_chars": [
    ";",
    "|",
    "_",
    "-"
  ],
  "mode": "lineage",
  "description": "Lineage-based tokenizer without species tokens or task tokens"
}