Telugu_Vocab_Evaluation

Sleeping

salmankhanpm commited on Aug 6

Commit

4c72ea7

verified ·

1 Parent(s): 937bfb7

use tiktoken for gpt4o

Files changed (1) hide show

app.py CHANGED Viewed

@@ -50,7 +50,7 @@ test_phrase_set_long_3 = load_test_phrases('multilingualphrases03.txt')
 hf_tokenizers = {}
 for model in models:
     print("Loading tokenizer for", model)
-    if  model == 'gpt-4o':
         hf_tokenizers[model] = AutoTokenizer.from_pretrained(model)
     else:
         hf_tokenizers[model] = tiktoken.encoding_for_model(model)
@@ -60,7 +60,7 @@ def generate_tokens_as_table(text):
     table = []
     for model in models:
         tokenizer = hf_tokenizers[model]
-        if  model == 'gpt-4o':
             tokens = tokenizer.encode(text, add_special_tokens=False)
         else:
             tokens = tokenizer.encode(text)
@@ -87,7 +87,7 @@ def generate_tokenizer_table(text):
     for model in models:
         tokenizer = hf_tokenizers[model]
-        if  model == 'gpt-4o':
             vocab_size[model] = tokenizer.vocab_size
             token_counts[model] = len(tokenizer.encode(text, add_special_tokens=True))
         else:

 hf_tokenizers = {}
 for model in models:
     print("Loading tokenizer for", model)
+    if  model != 'gpt-4o':
         hf_tokenizers[model] = AutoTokenizer.from_pretrained(model)
     else:
         hf_tokenizers[model] = tiktoken.encoding_for_model(model)
     table = []
     for model in models:
         tokenizer = hf_tokenizers[model]
+        if  model != 'gpt-4o':
             tokens = tokenizer.encode(text, add_special_tokens=False)
         else:
             tokens = tokenizer.encode(text)
     for model in models:
         tokenizer = hf_tokenizers[model]
+        if  model != 'gpt-4o':
             vocab_size[model] = tokenizer.vocab_size
             token_counts[model] = len(tokenizer.encode(text, add_special_tokens=True))
         else: