flopml
/

mamba

flpelerin commited on Oct 1, 2024

Commit

788217c

1 Parent(s): 1d49067

Update file tokenizer.cli.py

Files changed (1) hide show

tokenizer.cli.py CHANGED Viewed

+from argparse import ArgumentParser
+from tokenizer import Tokenizer
+parser = ArgumentParser(
+    prog='Flop Tokenizer Python code',
+    description=''
+)
+if __name__ == '__main__':
+    print('Hello world')
+    parser.add_argument('-i', '--input_file')
+    parser.add_argument('-o', '--output_file', default='tokenizer.bin')
+    parser.add_argument('-n', '--max_vocab_size', default=32000)
+    args = parser.parse_args()
+    tokenizer = Tokenizer()
+    with open(args.input_file, 'r') as f:
+        dataset = f.read()
+    tokenizer.train_rulebased(dataset, max_length=args.max_vocab_size);
+    tokenizer.to_file(args.output_file)
+    print(f"Tokenizer has vocab size: {tokenizer.vocab_size}");