Spaces:

saicharan2804
/

SmilesPeTokenizer

Runtime error

saicharan2804 commited on Feb 26, 2024

Commit

1fc0c38

1 Parent(s): ef06a41

SmilesPE tokenizer

Files changed (5) hide show

SmilesPeTokenizer.py ADDED Viewed

+import codecs
+from SmilesPE.tokenizer import *
+def smilespe_tokenizer(smiles_string):
+    spe_vob = codecs.open('chembl_smiles_tokenizer30000.txt')
+    spe = SPE_Tokenizer(spe_vob)
+    tokenized = spe.tokenize(smiles_string)
+    return tokenized

app.py ADDED Viewed

+import gradio as gr
+from SmilesPeTokenizer import smilespe_tokenizer
+iface = gr.Interface(
+    fn = smilespe_tokenizer,
+    inputs=[
+        gr.Textbox(label="SMILES"),
+    ],
+    outputs="text"
+)
+iface.launch()

chembl_smiles_tokenizer30000.txt ADDED Viewed

+c c
+C C
+O )
+C (
+= O)
+c 1
+c (
+C )
+c 2
+C( =O)
+cc cc
+( C)
+c 3
+cc c(
+) cc
+CC CC
+[C@H] (
+[C@@H] (
+( =O)
+N )
+C(=O) N
+2 )
+N C(=O)
+C 1
+cc (
+C N
+C( C)
+c1 ccc(
+F )
+c1 cccc
+C O
+c2 cccc
+CC N
+O C)
+1 )
+3 )
+c 4
+c n
+c2 )
+c1 )
+c2 ccc(
+= C(
+C 2
+n c(
+c2 c(
+( CC
+n 1
+)cc 1
+C =
+(C) C)
+C( N
+O CC
+Cl )
+c1 c(
+( O)
+= O
+c3 cccc
+C(=O)N [C@@H](
+NC(=O) [C@H](
+c1 cc(
+c1 cc
+CC (=O)
+C /
+C(=O) O)
+( C
+S (=O)
+c( =O)
+cc 1
+CC 1
+O C
+CC CN
+c3cccc c3
+N C(
+n 2
+( F)
+CC C
+[C@H] 1
+c2cccc c2)
+C( O)
+Cl )cc
+[C@@H] 1
+c1cccc c1)
+c1cccc c1
+C(C) C)
+[C@H]( O)
+c3 c(
+c3 ccc(
+S(=O) (=O)
+c2cccc c2
+F )cc
+O) cc
+C( F)
+O =C(
+C( =
+c2 n
+N) =O)
+4 )
+CCCC CCCC
+c2 cc
+CC (
+C(F) (F)
+N 1
+/ C=
+C O)
+[C@@H] (C)
+[C@@H]( O)
+c2 cc(
+c1 n
+CC (C)
+[C@H] 2
+C 3
+[C@@H] 2
+C c1ccc(
+= N
+NC(=O) [C@@H](
+CC )
+c1 (
+c1 2
+[O-] )
+CCN (
+CC (C)C)
+[C@H] (C)
+c 5
+O C(=O)
+N (
+c [nH]
+C(=O) O
+=O) =O)
+CC 2
+CC C(
+c( O)
+O =
+cc 2
+c( -
+c3 )
+C(=O)N [C@H](
+C c1
+C S
+c( OC)
+/C= C/
+CC 2)
+c3ccccc3 )
+c1cccc (
+C(C) (C)
+c4 cccc
+N 2
+cc 2)
+C c1ccccc1)

requirements.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ SmilesPE

trainSmilesPeTokenizer.py ADDED Viewed

+import codecs
+from SmilesPE.learner import *
+import pandas as pd
+import argparse
+parser = argparse.ArgumentParser(description='Train SmilesPE Tokenizer.')
+parser.add_argument('dataset_file_path', type=str, help='Path to the dataset file')
+parser.add_argument('output_file_path', type=str, help='Path to file containing trained tokenizer weights')
+# Parse the arguments
+args = parser.parse_args()
+df = pd.read_csv(args.dataset_file_path)
+# df = df[0:30000]
+output = codecs.open(args.output_file_path, 'w')
+learn_SPE(df['canonical_smiles'].tolist(), output, 30000, min_frequency=2000, augmentation=1, verbose=True, total_symbols=True)