nancyH commited on
Commit
7f04680
·
verified ·
1 Parent(s): 83a0092

Upload vocab_dedup.txt with huggingface_hub

Browse files
Files changed (1) hide show
  1. vocab_dedup.txt +901 -0
vocab_dedup.txt ADDED
@@ -0,0 +1,901 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ CCAATCAG
2
+ GGTTGGGCTT
3
+ AATCGATT
4
+ TGAAACCTGAT
5
+ ATTGCATAA
6
+ CTAATTAG
7
+ CCAATAAA
8
+ CTGTCA
9
+ GCGTGGGCG
10
+ GGCCAAGCCCC
11
+ ATCAGGTGAT
12
+ CATTGGCC
13
+ GAGTTCA
14
+ ACCGAACAAT
15
+ TTTTATTGC
16
+ CTCACCTCC
17
+ GCCTGAGGC
18
+ GACACGTGCC
19
+ GATGACTCA
20
+ GTAAACAAA
21
+ CCCAAGGGA
22
+ GGG
23
+ CCTAGCAAC
24
+ TGGCCCCA
25
+ GCGGAAGT
26
+ GATGAGTCAT
27
+ AAGGAAGT
28
+ CGTTTA
29
+ TGAGTCA
30
+ TATGCAAAT
31
+ TGCCGCA
32
+ CTTTCTC
33
+ TAATTAG
34
+ AAACAGGAAGT
35
+ GTGGGCGTGG
36
+ AACATATGGT
37
+ ACAGTAGC
38
+ GCCACGCCCAC
39
+ ACCCGGAAGT
40
+ CATTAATTAA
41
+ ATTGTTT
42
+ AACAGATGGT
43
+ ATT
44
+ TTCCAGGAAA
45
+ TAATCGATA
46
+ ATGACTCA
47
+ TTAACTCTT
48
+ TAATCAATTA
49
+ ATTGTTCGGT
50
+ AGGCACAGC
51
+ GGAACAGCA
52
+ N
53
+ CTTCCT
54
+ TCGTAA
55
+ CCACGCCCCC
56
+ AGGCCTCGGC
57
+ TAATTTGCATA
58
+ GTACCCGCAT
59
+ ACCTACCG
60
+ TATGTCGCGATA
61
+ TTTTACGAG
62
+ GCAATTA
63
+ TCTTATCT
64
+ AGGTCTGGA
65
+ ATTAATTATGCA
66
+ CGC
67
+ TATCTGGGCA
68
+ GACCACCCA
69
+ ATGACATCAT
70
+ CACCTG
71
+ GAA
72
+ AGCAGCTGCT
73
+ CTGACTCAGC
74
+ ATGATGTCAT
75
+ TTGCACAA
76
+ CCATTGTTCT
77
+ TGCAGTGATTT
78
+ TGGAAA
79
+ TCCCTTGGG
80
+ GGTTTCG
81
+ CTCCAGAA
82
+ TTGACTTTT
83
+ TCAGGTT
84
+ TTAATTAG
85
+ CCGTTAACGGT
86
+ ACAATAG
87
+ TGTAAC
88
+ AATGTAACAA
89
+ AAATCACTGCA
90
+ GAG
91
+ AATTA
92
+ CACTCAA
93
+ CAATAAA
94
+ TTCCAGGAA
95
+ ACAGCTGT
96
+ CAACTG
97
+ TAATCCC
98
+ ACAATGG
99
+ CTTATCT
100
+ TAAGTG
101
+ AGGTGTTAATG
102
+ TTTATTG
103
+ ATGAGGTCAT
104
+ ATGACTCAGCA
105
+ CGGCCTCA
106
+ TGCTGTTCC
107
+ GCGTG
108
+ CGA
109
+ ACAGCAGA
110
+ GACGC
111
+ TGCGGCA
112
+ CCT
113
+ TGACTCAT
114
+ TTACGTCAT
115
+ GTAAACAT
116
+ GGTTTCTGTT
117
+ TTAATGA
118
+ TGCATAATTAAT
119
+ TAATTAC
120
+ AACAGCTGAT
121
+ CCCCTCCCCC
122
+ TACGTA
123
+ TGGGTGGTC
124
+ CAATTA
125
+ AGTTCAAGGTCA
126
+ ATGACGTCA
127
+ CGTCAGCACTTT
128
+ ATCAAAGG
129
+ TCAAGGTCA
130
+ TTTCAGTTTCA
131
+ CCGGAAGTG
132
+ CCACGCCCAC
133
+ ACACGTGCC
134
+ AAAAATCAATAA
135
+ AAAGGTCA
136
+ TATCGATTA
137
+ CCACGCCC
138
+ CGG
139
+ TGACTCA
140
+ TTATGCAAT
141
+ GCAACAGGTG
142
+ GCCACGTCATC
143
+ GCCACGCCCCC
144
+ GTCACGTGAC
145
+ TAAACG
146
+ ATGTAAACA
147
+ AAACCGGTT
148
+ GTCGTAAAA
149
+ GGGTCCTGGG
150
+ TGC
151
+ ACATATGTC
152
+ ACATTCCA
153
+ CACTTCCGGT
154
+ ATGACCTTGA
155
+ GAACAAAG
156
+ GGCCAATG
157
+ GCTACTGT
158
+ TGAGTCAT
159
+ CACCTGTTGA
160
+ ACCGGAAGTG
161
+ TCATTAA
162
+ CCTTGAGCC
163
+ CGTCCGC
164
+ CAGGGGGC
165
+ CTA
166
+ TGACAGCTGTCA
167
+ AGA
168
+ CACGTGCC
169
+ TGTCAGGGGGC
170
+ ATCACCCCAT
171
+ GCCACGTG
172
+ ATTGCACAAT
173
+ TAATTG
174
+ AAACCATTA
175
+ TACAAAGTA
176
+ TAGTTAA
177
+ TCGGTGGTCG
178
+ TTTCCA
179
+ GGGGCGGGG
180
+ ACAGTCTGT
181
+ TGACCTTGAACT
182
+ TTGAGGTT
183
+ ATCACGTGAT
184
+ GTTGCTAGG
185
+ ATGGCGG
186
+ GGGGGCGTGGC
187
+ GCTGTGATTT
188
+ AGATAAG
189
+ GCCCGGGGGC
190
+ CCACGTGG
191
+ TGACCTT
192
+ ATC
193
+ ATGGGGTGAT
194
+ ATGCCAAC
195
+ AGGTGTGAAG
196
+ TGACCT
197
+ GGATTATCT
198
+ GTTGCATAA
199
+ TAATCGATTA
200
+ TGATTTATG
201
+ TTCTGGAG
202
+ TGATTGC
203
+ GCCGAGGCCT
204
+ [PAD]
205
+ TATTGATTT
206
+ GTAAACAA
207
+ TGACGTCA
208
+ GTGGGCGTGGC
209
+ AGCTCATTA
210
+ ACCGAAACT
211
+ TGCCAA
212
+ ATGACGTCAT
213
+ TTTTCCAT
214
+ GAT
215
+ TCCCAGCC
216
+ TGTACAGTA
217
+ TTGACAG
218
+ CTTTGTT
219
+ TTAATTAATG
220
+ TGAACTC
221
+ TTTTATA
222
+ CCCAGCCT
223
+ CTC
224
+ CACGTGA
225
+ TCCAC
226
+ CTTGGCA
227
+ TTTTATTGCC
228
+ TAATGGTTT
229
+ CCA
230
+ AACAATGG
231
+ CATCAATCA
232
+ TAATTGC
233
+ TCTGCTGT
234
+ GCCCAGGCTG
235
+ ACTTCCTGT
236
+ TGATGTCA
237
+ TAG
238
+ TGTTTGTTTAA
239
+ AAAGGTCAAGGG
240
+ TCCTGTTTAC
241
+ TGCCAAG
242
+ TATGCAAATTA
243
+ GCTGAGTCAG
244
+ AAAAAAAA
245
+ CATATGTT
246
+ CAG
247
+ TAATTGATTA
248
+ CACGTG
249
+ CAA
250
+ CAGTTTCAAGG
251
+ AGATAAGG
252
+ CACGTGT
253
+ TTTCCATT
254
+ GGAATGT
255
+ [SEP]
256
+ GCACCTGT
257
+ GCGGACG
258
+ AATTGATACAT
259
+ ATGCAAA
260
+ TGGGGATT
261
+ CCATCTGT
262
+ TTCCTGGAA
263
+ ATGACCTCAT
264
+ ACAGATGG
265
+ ACATTCCAG
266
+ ATCAAAG
267
+ GCCCCCGGGC
268
+ GCACCTGCC
269
+ ATGACGTAA
270
+ AACATATGTT
271
+ TTATCTTATCT
272
+ ACGCCCACGCA
273
+ TAC
274
+ AACATCTGGAT
275
+ GCTGTTCTTATC
276
+ GGGGGCGTGG
277
+ AAAGTGCTGACG
278
+ AGGTCGTAAAA
279
+ ATGCCAGAC
280
+ GTCTAGACA
281
+ GCCACACCCAC
282
+ ATCAGGTTTCA
283
+ TGACACCTGTCA
284
+ TTAAGTGGTT
285
+ AACCGGTTT
286
+ TTACGTAA
287
+ TGTCTAGAC
288
+ AACATCTGT
289
+ ATTTGCATA
290
+ GATGACGTCAT
291
+ TGGGCCC
292
+ TCCTCCC
293
+ ATAGTAGGT
294
+ AGCAATTAA
295
+ TTTGAAT
296
+ AACAAAG
297
+ TTT
298
+ CCATTGTT
299
+ GGCAGGTGC
300
+ GCGTC
301
+ TGGCGCC
302
+ TTTACAGCG
303
+ T
304
+ ACCATATGGT
305
+ AGGAAG
306
+ CCATTTTG
307
+ ACC
308
+ GGCACGTG
309
+ TGCCCTGGGGC
310
+ ATTCCCC
311
+ TGTTTACAT
312
+ TGTGGATT
313
+ TATCGATC
314
+ GTGGGTGTGGC
315
+ CGCCCACGC
316
+ TCGTGAC
317
+ TGAACTTT
318
+ CTAAAAATAG
319
+ TAAGTGG
320
+ GGCACGTGTC
321
+ CAAAGTCCA
322
+ GGGCGTGGTC
323
+ CTATAAATAGC
324
+ AACAGAAACC
325
+ GCGCGTGA
326
+ CCTTTGAT
327
+ AAGGTGTGAA
328
+ ATGGAAA
329
+ TTCTGGGAA
330
+ GGCACGTGT
331
+ TAA
332
+ TTTTATTGG
333
+ GATAA
334
+ CTAATCT
335
+ GTAATTAG
336
+ CAAAATGG
337
+ GGAAATTCCC
338
+ TAAACAGGAAG
339
+ TGACATCA
340
+ CATTAACACCT
341
+ TAGCAACG
342
+ TTTTACGAC
343
+ GGGGCTTGGCC
344
+ CACCTGTTGC
345
+ TTTTACGACCT
346
+ CGT
347
+ TAATCAAATTAT
348
+ TAAGGCGTCTT
349
+ TTGTTACATT
350
+ TCAAGGTCAT
351
+ ACCACGTGGT
352
+ TTGCGGTT
353
+ ATAGGGTATCA
354
+ TTTTACGACC
355
+ CCAATCA
356
+ TTCCAAGAA
357
+ AGTGCTT
358
+ GGGGAAT
359
+ TGGGGCCA
360
+ CGGAAGTAATTA
361
+ TAT
362
+ GCTGTGCCT
363
+ ATCAATCAA
364
+ AACCACTTAA
365
+ CATGTG
366
+ TAATTACTTCCG
367
+ CTTTGATCT
368
+ GGCTGTTC
369
+ TTTCCAT
370
+ TTAAACAAACA
371
+ ATGACTCAT
372
+ AAGTAGGTCA
373
+ GCTGTTACCCT
374
+ CAGATGG
375
+ CCATTGT
376
+ CTAATTAA
377
+ AACCTGTT
378
+ ATTGCATCAT
379
+ CCCGCCCCGC
380
+ TGCAATCCC
381
+ ACAGGAAGT
382
+ GCGTGACC
383
+ GGATTA
384
+ ATG
385
+ ATATACCAT
386
+ TGACA
387
+ CCATTAG
388
+ GATCGATA
389
+ CCATTGTTTT
390
+ AACAAT
391
+ TGGCGCCC
392
+ CCTTTGATCT
393
+ CTTTGT
394
+ GTC
395
+ TTATTGATTTTT
396
+ ACCTACTAT
397
+ CGGTAGGT
398
+ CTGGAATGT
399
+ TGATACCCTAT
400
+ GAAACAGAAA
401
+ CCG
402
+ TTATTAG
403
+ CTATAAATAG
404
+ AGATAAGATAA
405
+ GTAAACAGGA
406
+ TAAAAAT
407
+ TAATTTAATTA
408
+ GCCCCAGGGCA
409
+ TGT
410
+ CAT
411
+ TAATTAA
412
+ AAACCACAA
413
+ ATTTTTA
414
+ AAGGTCA
415
+ GCAGCTGCG
416
+ TTCCTGAGAA
417
+ AAACAAT
418
+ TGCCACGTCATC
419
+ CTGTCAA
420
+ ACAGAAGC
421
+ GTCTGG
422
+ AAAACAATGG
423
+ TAATTAAATTA
424
+ CTTCACACCT
425
+ TGGGAA
426
+ TGAAACTGAAA
427
+ ACAGGTGT
428
+ AACAGCTGTT
429
+ CCC
430
+ TACTGTACA
431
+ CACGTGGC
432
+ AGATCAAAGG
433
+ TTTAAT
434
+ GGAAATCCC
435
+ ACCATATGG
436
+ ATTGTT
437
+ ACAGACTGT
438
+ TTTGCAT
439
+ AGAACAATGG
440
+ CGTTGCTA
441
+ CTATTTTTAG
442
+ CTCATTA
443
+ CGAAACC
444
+ ATCACCTGAT
445
+ CACGT
446
+ GACAGGTGC
447
+ GACATATGT
448
+ ACCATCTGTT
449
+ GCTTCTGT
450
+ TTG
451
+ TTGAGTG
452
+ TTC
453
+ CCAATAAAA
454
+ CCAGAC
455
+ CCACTTGA
456
+ TTCCTGTT
457
+ CCCCGCCCC
458
+ TTCTTGGAA
459
+ GGTCTCTA
460
+ CTGACCA
461
+ GTTCCAG
462
+ ATTAATA
463
+ CCTTGAAACTG
464
+ CAGTTG
465
+ [UNK]
466
+ CACTTCCTGT
467
+ TGATACA
468
+ GCAATTAG
469
+ TTTTTTTT
470
+ GCT
471
+ CTCGAACCC
472
+ TATAAAA
473
+ GATGACGTGGCA
474
+ CCGTGTAGAC
475
+ CACTTCCTG
476
+ GAACAGCC
477
+ TGCCCAGATA
478
+ AAA
479
+ CCAAGAAGAAT
480
+ TTCCCGCCA
481
+ ACCATTTGTC
482
+ CCTCTCTG
483
+ GTAATAAAA
484
+ ACACCTGT
485
+ TGTGGGAAAAGC
486
+ GGCAATAAAA
487
+ TGCCC
488
+ TGGCGGGAA
489
+ GGGCGTGG
490
+ ACTTCCGC
491
+ TAATTAATT
492
+ AATTCTA
493
+ CCGCCAT
494
+ TGATTGATG
495
+ CTT
496
+ TGGCACGTGCC
497
+ ACGTG
498
+ ATGCGGGTAC
499
+ GCAGGTGC
500
+ TGTCA
501
+ TGTTTAC
502
+ TGCTGAGTCAGC
503
+ GGGAGG
504
+ AAGCTT
505
+ AACATATGTC
506
+ CCCTTGCCTC
507
+ TAATGA
508
+ ATGTTTAC
509
+ TGATTAAATTA
510
+ TGTTTACA
511
+ CAATATT
512
+ ACAGATGTT
513
+ CTGCGCCTGCGC
514
+ AATCCACA
515
+ TTACGA
516
+ TTAATTGCT
517
+ CTCGTAAAA
518
+ GGGGGG
519
+ GCACGTGG
520
+ CTTCCTGTTTA
521
+ CACTTCCGG
522
+ TGCTGCCC
523
+ CAC
524
+ [MASK]
525
+ AAATCACAGC
526
+ CTTTGAT
527
+ ATTAAA
528
+ CTAATCGGT
529
+ GGTGGTCG
530
+ AAACCGGTTT
531
+ CAGGAAGTG
532
+ GGA
533
+ AACAGGTT
534
+ GCGCAGGCGCAG
535
+ CTTTGTTC
536
+ TAAGTAAACAA
537
+ ATTGCGCAAT
538
+ TGGTCAG
539
+ TATGAGTTCTCG
540
+ CAGAGAGG
541
+ CTTCCGGT
542
+ A
543
+ AGATTAG
544
+ AGGTCA
545
+ TCG
546
+ CTGTGGTTT
547
+ TGCAGAGCCC
548
+ ATTTCCGGT
549
+ AGACCACCCA
550
+ CACGC
551
+ AGGTGTGAA
552
+ CCCTTGACCTTT
553
+ GGTCGTAAAA
554
+ GATAAGAACAGC
555
+ GGCTCAAGG
556
+ AGG
557
+ ACT
558
+ AACAGGAA
559
+ CTAATTGC
560
+ AACCCGGAAGT
561
+ GCTAATTAGC
562
+ GGGGGCGGGGG
563
+ ACCCGGATGT
564
+ GTAATTA
565
+ GCACGT
566
+ GGGTTCGAG
567
+ ATAACGGT
568
+ CGAACAATG
569
+ GGCACGTGCC
570
+ GCG
571
+ TGCCCTGC
572
+ CCACTTA
573
+ AGGTGTGA
574
+ C
575
+ ATGAGTCA
576
+ AGGTTTCTT
577
+ AAG
578
+ CAGATG
579
+ TAATT
580
+ TTTGTTTAC
581
+ GTCACGTG
582
+ ACTTCCTGTTT
583
+ TATTAAT
584
+ ACA
585
+ ATTAATTATTCA
586
+ CCTGCTGTG
587
+ TGCCTGA
588
+ CACTTGA
589
+ ACTTCCTT
590
+ CCCCGCCC
591
+ CATTGTTCG
592
+ CACATG
593
+ TACGTCA
594
+ GCAGGTG
595
+ CCTCCCCCAC
596
+ GGGCA
597
+ CGAGAACTCATA
598
+ CGACCACCGA
599
+ CCGCGCAC
600
+ TGACCTAATT
601
+ TAATTTAATCA
602
+ TGCACCTGT
603
+ TGA
604
+ ACACGTG
605
+ AAAAGTCAA
606
+ ACCGGAAGT
607
+ AATTAATTA
608
+ TTCTCAGGAA
609
+ TTGAGTGG
610
+ GACATATGTT
611
+ TCCAGACCT
612
+ AGGCTTTCCCAC
613
+ GGGGATTCCCC
614
+ AAACAGGAAG
615
+ GGGATTA
616
+ TCATTA
617
+ ATCAAGGTCA
618
+ GTCATGTGAC
619
+ TAGAATT
620
+ GGCTGGGA
621
+ CACCTGC
622
+ GGAGGTGAG
623
+ TTAATTAATGCG
624
+ TTCACACCT
625
+ CCATCTG
626
+ TGACCTACTT
627
+ CCCCCGCCCCC
628
+ ATGTATCAATT
629
+ ACG
630
+ CTATTGT
631
+ TACTTTGTA
632
+ TCTCGCGAGA
633
+ CCATATGGT
634
+ TGTAAACA
635
+ ACCGTTA
636
+ GGGGAATCCCC
637
+ ACCGGAAAT
638
+ GCCACGTCAC
639
+ AAATCAATA
640
+ TAACGGT
641
+ TTAAGAGCTCA
642
+ CACAGCAGG
643
+ CGCATTAATTAA
644
+ GCCTCAGGC
645
+ ACCGGAAG
646
+ GGC
647
+ CCTTATCT
648
+ GGGCAGCA
649
+ TTTATTGC
650
+ TCAGGCA
651
+ CACGTGAC
652
+ GCTTTTCCCACA
653
+ ATAATTTGATTA
654
+ CCCCTCCC
655
+ AGGCTGGG
656
+ TCACGCGC
657
+ GGGCCCCC
658
+ GCCCCCTG
659
+ AAC
660
+ CTAGACA
661
+ TCACCCCA
662
+ ACCGTTAACGG
663
+ CATCTG
664
+ GTG
665
+ AACATATG
666
+ AACCTCAA
667
+ AGATAAGA
668
+ AATTAGGTCA
669
+ CGCAGCTGC
670
+ GAC
671
+ TTA
672
+ GCAATAAAA
673
+ GTAAACAGGAAG
674
+ TGATTCAATCA
675
+ AACCGCAA
676
+ GACCACGCCC
677
+ CCCAGGACCC
678
+ TTCCCGCC
679
+ TGATTGAATCA
680
+ GTGACGTGGC
681
+ TTTATTGG
682
+ GCGGGAA
683
+ GACAAATGGT
684
+ GGCGGGAA
685
+ GGGGGCCC
686
+ CTGTCACTCA
687
+ ATGAGTCAT
688
+ TGACCTTGA
689
+ TTTGGCGCCAAA
690
+ CTAAATAAACAA
691
+ TAATTA
692
+ TTGATTGAT
693
+ CTTCCTGTTT
694
+ CAGCTG
695
+ GGGATTGCA
696
+ AAGAGTTAA
697
+ TGGACTTTG
698
+ TTGTTTACTTA
699
+ AAGAAACCT
700
+ TCAACAGGTG
701
+ ACGTGC
702
+ ACATCTGG
703
+ GCAGGGCA
704
+ CTGATTGG
705
+ ATGACGTCATC
706
+ AAAGTTCA
707
+ CGGAAGTG
708
+ CCTGCTG
709
+ CCACTCAA
710
+ ACCGATTAG
711
+ CTG
712
+ ATATTTACATA
713
+ GATGACGTGGC
714
+ ACAAAG
715
+ TGACCTTT
716
+ TTCCCGC
717
+ TGGGTGGTCT
718
+ TGAATAATTAAT
719
+ TTATGCAAC
720
+ GCAATAAA
721
+ ATGATGCAAT
722
+ ACCATATGTT
723
+ AATGGAAA
724
+ GCTATTTATAG
725
+ TAATCC
726
+ GTT
727
+ ACTTCCGGGT
728
+ GCCCCGCCC
729
+ CAGCCTGGGC
730
+ AAAATGCTGAC
731
+ TGTATCA
732
+ GGCGCCA
733
+ ACTTCCGGT
734
+ ATGGTATAT
735
+ AACCTGA
736
+ TGACAG
737
+ AATATTG
738
+ GCAATCA
739
+ GCGGGGCGGG
740
+ CCGCCGCTCC
741
+ CATAAATCA
742
+ TTCCCA
743
+ CTAATTAC
744
+ CATGACTCAT
745
+ TGACAGGTGTCA
746
+ CCCCACCC
747
+ GGGAATTTCC
748
+ G
749
+ ACATTCC
750
+ GCA
751
+ CTATTTATAG
752
+ TTCACACCTT
753
+ CACTCAC
754
+ AGGGTAACAGC
755
+ GGGAGGA
756
+ GGGCGGGG
757
+ TGAGTGACAG
758
+ TTTCCTGGAA
759
+ GAGAAAG
760
+ AGATCAAAG
761
+ CAGCAGG
762
+ CTTCCTGTTTAC
763
+ AGATGGAGAAC
764
+ AAGACGCCTTA
765
+ TGGGGTGA
766
+ GGGCGCCA
767
+ TGAGTGACAGG
768
+ GGCACGTGCCA
769
+ TGAGCTCTTAA
770
+ TTACGTAAC
771
+ TAATGAG
772
+ GACACGTGC
773
+ GTAACCTGA
774
+ GCACGTGTC
775
+ GTGCGCGG
776
+ TTAATTAA
777
+ GCCCCCTGACA
778
+ GTTACGTAA
779
+ GAGATTACAGCA
780
+ CGACCACC
781
+ GGGGGAGGGG
782
+ ATGGAAAA
783
+ TGGAATGT
784
+ GTGGA
785
+ CTAATGG
786
+ TTGTTTAC
787
+ TCCAGGTTTTC
788
+ GGT
789
+ GGTCA
790
+ GGGCTCTGCA
791
+ GGGCCCA
792
+ ATCAGCTGTT
793
+ CTAATTA
794
+ TTATC
795
+ TCACGTG
796
+ ACCCGCAT
797
+ GGGAGGGG
798
+ ACCGTTAT
799
+ ATGAGTCATG
800
+ ATAAACAAT
801
+ AGATAATCC
802
+ ATTCAAA
803
+ ATA
804
+ GTCACGA
805
+ CCTTTGATCTTT
806
+ TTAACTA
807
+ TTAATTA
808
+ AAGCCCAACC
809
+ GTCTGGCAT
810
+ CACTTCCG
811
+ GTGAGTG
812
+ TGAGTCATC
813
+ GTGGGAAAGCCT
814
+ TAATGAGCT
815
+ GTGGGGGGGG
816
+ GTAAACA
817
+ TGCGTGGGCGT
818
+ TCACACCT
819
+ ACATCCGGGT
820
+ GCAGCTGC
821
+ ACAGGAAGTG
822
+ GTCAGCATTTT
823
+ TGACGTCAT
824
+ AAAGATCAAAGG
825
+ TGACC
826
+ GTGGGGGAGG
827
+ CCCCCCCCAC
828
+ CCACGTGC
829
+ AAGCACT
830
+ TCA
831
+ TCAAGTG
832
+ TGAGGCCG
833
+ CGCTGTAAA
834
+ CCTCCC
835
+ TTGTTTATTTAG
836
+ AAACCACAG
837
+ TTTCTGTTTC
838
+ AATCCCCA
839
+ GCC
840
+ AGC
841
+ GCACCTGTC
842
+ GGGCGGGGC
843
+ GCACCTGC
844
+ ATTGTGCAAT
845
+ GCTGACTCAGCA
846
+ TCT
847
+ [CLS]
848
+ TCCCCTGGGGA
849
+ GTCTACACGG
850
+ TTCCCAGAA
851
+ TCAAGTGG
852
+ TATCGCGACATA
853
+ TCAGGTTAC
854
+ CCTGTCACTCA
855
+ TGTCTAG
856
+ CAGGTG
857
+ TAGAGACC
858
+ ACTTCCGGGTT
859
+ AAT
860
+ ATTGTTTAT
861
+ GTTACA
862
+ GGTCACGC
863
+ TTGTGCAA
864
+ ATGCGGGT
865
+ ATGACTCATC
866
+ GGAGCGGCGG
867
+ TCC
868
+ TTGGCA
869
+ GTA
870
+ GTACGTGCG
871
+ GTCACATGAC
872
+ CACTTA
873
+ TGG
874
+ GGGATTTCC
875
+ GAGGCAAGGG
876
+ ACAGGTGC
877
+ CCAGATGT
878
+ TATGTAAATAT
879
+ TGATTGG
880
+ GGGTGGGG
881
+ TTTTATTAC
882
+ AGT
883
+ GCACGTGC
884
+ ATCCAGATGTT
885
+ TGCTGAGTCAT
886
+ CCCCCC
887
+ ATTCTTCTTGG
888
+ TTGTGGTTT
889
+ CTAATAA
890
+ ACAGGTGCA
891
+ AGTTTCGGT
892
+ CGCACGTAC
893
+ TCCCCAGGGGA
894
+ TGCTGTAATCTC
895
+ CTGGAAC
896
+ GAAAACCTGGA
897
+ GTGACGTCAC
898
+ GTTGGCAT
899
+ GTTCTCCATCT
900
+ TGACGTA
901
+ TGACCTTGAT