| { | |
| "version": "1.0", | |
| "truncation": null, | |
| "padding": null, | |
| "added_tokens": [ | |
| { | |
| "id": 0, | |
| "content": "<unk>", | |
| "single_word": false, | |
| "lstrip": false, | |
| "rstrip": false, | |
| "normalized": false, | |
| "special": true | |
| }, | |
| { | |
| "id": 1, | |
| "content": "[PAD]", | |
| "single_word": false, | |
| "lstrip": false, | |
| "rstrip": false, | |
| "normalized": false, | |
| "special": true | |
| }, | |
| { | |
| "id": 2, | |
| "content": "<|endoftext|>", | |
| "single_word": false, | |
| "lstrip": false, | |
| "rstrip": false, | |
| "normalized": false, | |
| "special": true | |
| } | |
| ], | |
| "normalizer": null, | |
| "pre_tokenizer": { | |
| "type": "ByteLevel", | |
| "add_prefix_space": false, | |
| "trim_offsets": true, | |
| "use_regex": true | |
| }, | |
| "post_processor": { | |
| "type": "ByteLevel", | |
| "add_prefix_space": true, | |
| "trim_offsets": false, | |
| "use_regex": true | |
| }, | |
| "decoder": { | |
| "type": "ByteLevel", | |
| "add_prefix_space": true, | |
| "trim_offsets": true, | |
| "use_regex": true | |
| }, | |
| "model": { | |
| "type": "BPE", | |
| "dropout": null, | |
| "unk_token": null, | |
| "continuing_subword_prefix": "", | |
| "end_of_word_suffix": "", | |
| "fuse_unk": false, | |
| "byte_fallback": false, | |
| "ignore_merges": false, | |
| "vocab": { | |
| "<unk>": 0, | |
| "[PAD]": 1, | |
| "<|endoftext|>": 2, | |
| "TT": 3, | |
| "AA": 4, | |
| "TG": 5, | |
| "CA": 6, | |
| "CC": 7, | |
| "TA": 8, | |
| "GG": 9, | |
| "TC": 10, | |
| "GA": 11, | |
| "AAA": 12, | |
| "GC": 13, | |
| "TAA": 14, | |
| "TTTT": 15, | |
| "TCA": 16, | |
| "TGA": 17, | |
| "TTA": 18, | |
| "GAA": 19, | |
| "TCC": 20, | |
| "CAA": 21, | |
| "CTG": 22, | |
| "CTT": 23, | |
| "GTG": 24, | |
| "GTT": 25, | |
| "GCA": 26, | |
| "GGA": 27, | |
| "CCA": 28, | |
| "GTA": 29, | |
| "GCC": 30, | |
| "CTA": 31, | |
| "TAAA": 32, | |
| "AAAA": 33, | |
| "CTC": 34, | |
| "GTC": 35, | |
| "TGTG": 36, | |
| "TATT": 37, | |
| "CACA": 38, | |
| "GAAA": 39, | |
| "TATA": 40, | |
| "TCTT": 41, | |
| "TGTT": 42, | |
| "CAAA": 43, | |
| "GAGA": 44, | |
| "CATT": 45, | |
| "TGAA": 46, | |
| "CAGG": 47, | |
| "TCTG": 48, | |
| "CAGA": 49, | |
| "TCAA": 50, | |
| "GGAA": 51, | |
| "TAAAA": 52, | |
| "CTGA": 53, | |
| "GCTT": 54, | |
| "GTGA": 55, | |
| "GCTG": 56, | |
| "CTCA": 57, | |
| "CCTT": 58, | |
| "CATG": 59, | |
| "GCAA": 60, | |
| "GTCA": 61, | |
| "GTAA": 62, | |
| "TATG": 63, | |
| "TTTTA": 64, | |
| "GAGG": 65, | |
| "CGG": 66, | |
| "GATT": 67, | |
| "CCTG": 68, | |
| "TCTC": 69, | |
| "CCAA": 70, | |
| "GTTA": 71, | |
| "CTCC": 72, | |
| "CTAA": 73, | |
| "TACA": 74, | |
| "CTTA": 75, | |
| "TCCA": 76, | |
| "GATG": 77, | |
| "TTAA": 78, | |
| "GAAAA": 79, | |
| "TTTG": 80, | |
| "GTTTT": 81, | |
| "TCTA": 82, | |
| "GCCA": 83, | |
| "GTCC": 84, | |
| "CTTTT": 85, | |
| "GGGG": 86, | |
| "CGA": 87, | |
| "TTTA": 88, | |
| "CCCA": 89, | |
| "CAAAA": 90, | |
| "TGGG": 91, | |
| "TAGA": 92, | |
| "TAGG": 93, | |
| "GACA": 94, | |
| "GGTT": 95, | |
| "CCCC": 96, | |
| "GGTG": 97, | |
| "CATA": 98, | |
| "GCTA": 99, | |
| "TGTA": 100, | |
| "TCAAA": 101, | |
| "TGGA": 102, | |
| "TAATT": 103, | |
| "TTATT": 104, | |
| "TGCA": 105, | |
| "GGCA": 106, | |
| "GATA": 107, | |
| "CCTA": 108, | |
| "TTCA": 109, | |
| "TCTCA": 110, | |
| "GGGA": 111, | |
| "CGC": 112, | |
| "CTGAA": 113, | |
| "TCTCC": 114, | |
| "GTAAA": 115, | |
| "TTTTTT": 116, | |
| "GCAAA": 117, | |
| "CGTG": 118, | |
| "TAAAAA": 119, | |
| "TCTGA": 120, | |
| "TCATT": 121, | |
| "GGAAA": 122, | |
| "T": 123, | |
| "A": 124, | |
| "C": 125, | |
| "G": 126, | |
| "▁": 127 | |
| }, | |
| "merges": [ | |
| [ | |
| "T", | |
| "T" | |
| ], | |
| [ | |
| "A", | |
| "A" | |
| ], | |
| [ | |
| "T", | |
| "G" | |
| ], | |
| [ | |
| "C", | |
| "A" | |
| ], | |
| [ | |
| "C", | |
| "C" | |
| ], | |
| [ | |
| "T", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "G" | |
| ], | |
| [ | |
| "T", | |
| "C" | |
| ], | |
| [ | |
| "G", | |
| "A" | |
| ], | |
| [ | |
| "A", | |
| "AA" | |
| ], | |
| [ | |
| "AA", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "C" | |
| ], | |
| [ | |
| "T", | |
| "AA" | |
| ], | |
| [ | |
| "TA", | |
| "A" | |
| ], | |
| [ | |
| "TT", | |
| "TT" | |
| ], | |
| [ | |
| "T", | |
| "CA" | |
| ], | |
| [ | |
| "TC", | |
| "A" | |
| ], | |
| [ | |
| "T", | |
| "GA" | |
| ], | |
| [ | |
| "TG", | |
| "A" | |
| ], | |
| [ | |
| "T", | |
| "TA" | |
| ], | |
| [ | |
| "TT", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "AA" | |
| ], | |
| [ | |
| "GA", | |
| "A" | |
| ], | |
| [ | |
| "T", | |
| "CC" | |
| ], | |
| [ | |
| "TC", | |
| "C" | |
| ], | |
| [ | |
| "C", | |
| "AA" | |
| ], | |
| [ | |
| "CA", | |
| "A" | |
| ], | |
| [ | |
| "C", | |
| "TG" | |
| ], | |
| [ | |
| "C", | |
| "TT" | |
| ], | |
| [ | |
| "G", | |
| "TG" | |
| ], | |
| [ | |
| "G", | |
| "TT" | |
| ], | |
| [ | |
| "G", | |
| "CA" | |
| ], | |
| [ | |
| "GC", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "GA" | |
| ], | |
| [ | |
| "GG", | |
| "A" | |
| ], | |
| [ | |
| "C", | |
| "CA" | |
| ], | |
| [ | |
| "CC", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "TA" | |
| ], | |
| [ | |
| "G", | |
| "CC" | |
| ], | |
| [ | |
| "GC", | |
| "C" | |
| ], | |
| [ | |
| "C", | |
| "TA" | |
| ], | |
| [ | |
| "T", | |
| "AAA" | |
| ], | |
| [ | |
| "TA", | |
| "AA" | |
| ], | |
| [ | |
| "TAA", | |
| "A" | |
| ], | |
| [ | |
| "A", | |
| "AAA" | |
| ], | |
| [ | |
| "AA", | |
| "AA" | |
| ], | |
| [ | |
| "AAA", | |
| "A" | |
| ], | |
| [ | |
| "C", | |
| "TC" | |
| ], | |
| [ | |
| "G", | |
| "TC" | |
| ], | |
| [ | |
| "T", | |
| "GTG" | |
| ], | |
| [ | |
| "TG", | |
| "TG" | |
| ], | |
| [ | |
| "TA", | |
| "TT" | |
| ], | |
| [ | |
| "CA", | |
| "CA" | |
| ], | |
| [ | |
| "G", | |
| "AAA" | |
| ], | |
| [ | |
| "GA", | |
| "AA" | |
| ], | |
| [ | |
| "GAA", | |
| "A" | |
| ], | |
| [ | |
| "TA", | |
| "TA" | |
| ], | |
| [ | |
| "T", | |
| "CTT" | |
| ], | |
| [ | |
| "TC", | |
| "TT" | |
| ], | |
| [ | |
| "T", | |
| "GTT" | |
| ], | |
| [ | |
| "TG", | |
| "TT" | |
| ], | |
| [ | |
| "C", | |
| "AAA" | |
| ], | |
| [ | |
| "CA", | |
| "AA" | |
| ], | |
| [ | |
| "CAA", | |
| "A" | |
| ], | |
| [ | |
| "GA", | |
| "GA" | |
| ], | |
| [ | |
| "CA", | |
| "TT" | |
| ], | |
| [ | |
| "T", | |
| "GAA" | |
| ], | |
| [ | |
| "TG", | |
| "AA" | |
| ], | |
| [ | |
| "TGA", | |
| "A" | |
| ], | |
| [ | |
| "CA", | |
| "GG" | |
| ], | |
| [ | |
| "T", | |
| "CTG" | |
| ], | |
| [ | |
| "TC", | |
| "TG" | |
| ], | |
| [ | |
| "CA", | |
| "GA" | |
| ], | |
| [ | |
| "T", | |
| "CAA" | |
| ], | |
| [ | |
| "TC", | |
| "AA" | |
| ], | |
| [ | |
| "TCA", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "GAA" | |
| ], | |
| [ | |
| "GG", | |
| "AA" | |
| ], | |
| [ | |
| "GGA", | |
| "A" | |
| ], | |
| [ | |
| "T", | |
| "AAAA" | |
| ], | |
| [ | |
| "TA", | |
| "AAA" | |
| ], | |
| [ | |
| "TAA", | |
| "AA" | |
| ], | |
| [ | |
| "TAAA", | |
| "A" | |
| ], | |
| [ | |
| "C", | |
| "TGA" | |
| ], | |
| [ | |
| "CTG", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "CTT" | |
| ], | |
| [ | |
| "GC", | |
| "TT" | |
| ], | |
| [ | |
| "G", | |
| "TGA" | |
| ], | |
| [ | |
| "GTG", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "CTG" | |
| ], | |
| [ | |
| "GC", | |
| "TG" | |
| ], | |
| [ | |
| "C", | |
| "TCA" | |
| ], | |
| [ | |
| "CTC", | |
| "A" | |
| ], | |
| [ | |
| "C", | |
| "CTT" | |
| ], | |
| [ | |
| "CC", | |
| "TT" | |
| ], | |
| [ | |
| "CA", | |
| "TG" | |
| ], | |
| [ | |
| "G", | |
| "CAA" | |
| ], | |
| [ | |
| "GC", | |
| "AA" | |
| ], | |
| [ | |
| "GCA", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "TCA" | |
| ], | |
| [ | |
| "GTC", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "TAA" | |
| ], | |
| [ | |
| "GTA", | |
| "A" | |
| ], | |
| [ | |
| "TA", | |
| "TG" | |
| ], | |
| [ | |
| "T", | |
| "TTTA" | |
| ], | |
| [ | |
| "TT", | |
| "TTA" | |
| ], | |
| [ | |
| "TTTT", | |
| "A" | |
| ], | |
| [ | |
| "GA", | |
| "GG" | |
| ], | |
| [ | |
| "C", | |
| "GG" | |
| ], | |
| [ | |
| "GA", | |
| "TT" | |
| ], | |
| [ | |
| "C", | |
| "CTG" | |
| ], | |
| [ | |
| "CC", | |
| "TG" | |
| ], | |
| [ | |
| "T", | |
| "CTC" | |
| ], | |
| [ | |
| "TC", | |
| "TC" | |
| ], | |
| [ | |
| "C", | |
| "CAA" | |
| ], | |
| [ | |
| "CC", | |
| "AA" | |
| ], | |
| [ | |
| "CCA", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "TTA" | |
| ], | |
| [ | |
| "GTT", | |
| "A" | |
| ], | |
| [ | |
| "C", | |
| "TCC" | |
| ], | |
| [ | |
| "CTC", | |
| "C" | |
| ], | |
| [ | |
| "C", | |
| "TAA" | |
| ], | |
| [ | |
| "CTA", | |
| "A" | |
| ], | |
| [ | |
| "TA", | |
| "CA" | |
| ], | |
| [ | |
| "C", | |
| "TTA" | |
| ], | |
| [ | |
| "CTT", | |
| "A" | |
| ], | |
| [ | |
| "T", | |
| "CCA" | |
| ], | |
| [ | |
| "TC", | |
| "CA" | |
| ], | |
| [ | |
| "TCC", | |
| "A" | |
| ], | |
| [ | |
| "GA", | |
| "TG" | |
| ], | |
| [ | |
| "T", | |
| "TAA" | |
| ], | |
| [ | |
| "TT", | |
| "AA" | |
| ], | |
| [ | |
| "TTA", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "AAAA" | |
| ], | |
| [ | |
| "GA", | |
| "AAA" | |
| ], | |
| [ | |
| "GAA", | |
| "AA" | |
| ], | |
| [ | |
| "GAAA", | |
| "A" | |
| ], | |
| [ | |
| "TT", | |
| "TG" | |
| ], | |
| [ | |
| "G", | |
| "TTTT" | |
| ], | |
| [ | |
| "GTT", | |
| "TT" | |
| ], | |
| [ | |
| "T", | |
| "CTA" | |
| ], | |
| [ | |
| "TC", | |
| "TA" | |
| ], | |
| [ | |
| "G", | |
| "CCA" | |
| ], | |
| [ | |
| "GC", | |
| "CA" | |
| ], | |
| [ | |
| "GCC", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "TCC" | |
| ], | |
| [ | |
| "GTC", | |
| "C" | |
| ], | |
| [ | |
| "C", | |
| "TTTT" | |
| ], | |
| [ | |
| "CTT", | |
| "TT" | |
| ], | |
| [ | |
| "GG", | |
| "GG" | |
| ], | |
| [ | |
| "C", | |
| "GA" | |
| ], | |
| [ | |
| "T", | |
| "TTA" | |
| ], | |
| [ | |
| "TT", | |
| "TA" | |
| ], | |
| [ | |
| "C", | |
| "CCA" | |
| ], | |
| [ | |
| "CC", | |
| "CA" | |
| ], | |
| [ | |
| "C", | |
| "AAAA" | |
| ], | |
| [ | |
| "CA", | |
| "AAA" | |
| ], | |
| [ | |
| "CAA", | |
| "AA" | |
| ], | |
| [ | |
| "CAAA", | |
| "A" | |
| ], | |
| [ | |
| "TG", | |
| "GG" | |
| ], | |
| [ | |
| "TA", | |
| "GA" | |
| ], | |
| [ | |
| "TA", | |
| "GG" | |
| ], | |
| [ | |
| "GA", | |
| "CA" | |
| ], | |
| [ | |
| "G", | |
| "GTT" | |
| ], | |
| [ | |
| "GG", | |
| "TT" | |
| ], | |
| [ | |
| "CC", | |
| "CC" | |
| ], | |
| [ | |
| "G", | |
| "GTG" | |
| ], | |
| [ | |
| "GG", | |
| "TG" | |
| ], | |
| [ | |
| "CA", | |
| "TA" | |
| ], | |
| [ | |
| "G", | |
| "CTA" | |
| ], | |
| [ | |
| "GC", | |
| "TA" | |
| ], | |
| [ | |
| "T", | |
| "GTA" | |
| ], | |
| [ | |
| "TG", | |
| "TA" | |
| ], | |
| [ | |
| "T", | |
| "CAAA" | |
| ], | |
| [ | |
| "TC", | |
| "AAA" | |
| ], | |
| [ | |
| "TCA", | |
| "AA" | |
| ], | |
| [ | |
| "TCAA", | |
| "A" | |
| ], | |
| [ | |
| "T", | |
| "GGA" | |
| ], | |
| [ | |
| "TG", | |
| "GA" | |
| ], | |
| [ | |
| "TAA", | |
| "TT" | |
| ], | |
| [ | |
| "T", | |
| "TATT" | |
| ], | |
| [ | |
| "TTA", | |
| "TT" | |
| ], | |
| [ | |
| "T", | |
| "GCA" | |
| ], | |
| [ | |
| "TG", | |
| "CA" | |
| ], | |
| [ | |
| "G", | |
| "GCA" | |
| ], | |
| [ | |
| "GG", | |
| "CA" | |
| ], | |
| [ | |
| "GA", | |
| "TA" | |
| ], | |
| [ | |
| "C", | |
| "CTA" | |
| ], | |
| [ | |
| "CC", | |
| "TA" | |
| ], | |
| [ | |
| "T", | |
| "TCA" | |
| ], | |
| [ | |
| "TT", | |
| "CA" | |
| ], | |
| [ | |
| "T", | |
| "CTCA" | |
| ], | |
| [ | |
| "TC", | |
| "TCA" | |
| ], | |
| [ | |
| "TCTC", | |
| "A" | |
| ], | |
| [ | |
| "G", | |
| "GGA" | |
| ], | |
| [ | |
| "GG", | |
| "GA" | |
| ], | |
| [ | |
| "C", | |
| "GC" | |
| ], | |
| [ | |
| "C", | |
| "TGAA" | |
| ], | |
| [ | |
| "CTG", | |
| "AA" | |
| ], | |
| [ | |
| "CTGA", | |
| "A" | |
| ], | |
| [ | |
| "T", | |
| "CTCC" | |
| ], | |
| [ | |
| "TC", | |
| "TCC" | |
| ], | |
| [ | |
| "TCTC", | |
| "C" | |
| ], | |
| [ | |
| "G", | |
| "TAAA" | |
| ], | |
| [ | |
| "GTA", | |
| "AA" | |
| ], | |
| [ | |
| "GTAA", | |
| "A" | |
| ], | |
| [ | |
| "TT", | |
| "TTTT" | |
| ], | |
| [ | |
| "TTTT", | |
| "TT" | |
| ], | |
| [ | |
| "G", | |
| "CAAA" | |
| ], | |
| [ | |
| "GC", | |
| "AAA" | |
| ], | |
| [ | |
| "GCA", | |
| "AA" | |
| ], | |
| [ | |
| "GCAA", | |
| "A" | |
| ], | |
| [ | |
| "C", | |
| "GTG" | |
| ], | |
| [ | |
| "TA", | |
| "AAAA" | |
| ], | |
| [ | |
| "TAA", | |
| "AAA" | |
| ], | |
| [ | |
| "TAAA", | |
| "AA" | |
| ], | |
| [ | |
| "TAAAA", | |
| "A" | |
| ], | |
| [ | |
| "T", | |
| "CTGA" | |
| ], | |
| [ | |
| "TC", | |
| "TGA" | |
| ], | |
| [ | |
| "TCTG", | |
| "A" | |
| ], | |
| [ | |
| "T", | |
| "CATT" | |
| ], | |
| [ | |
| "TCA", | |
| "TT" | |
| ], | |
| [ | |
| "G", | |
| "GAAA" | |
| ], | |
| [ | |
| "GG", | |
| "AAA" | |
| ], | |
| [ | |
| "GGA", | |
| "AA" | |
| ], | |
| [ | |
| "GGAA", | |
| "A" | |
| ] | |
| ] | |
| } | |
| } |