Spaces:

toksuite
/

quick-tokenizer-accuracy

Runtime error

App Files Files Community

Gül Sena Altıntaş commited on Sep 7, 2025

Commit

b3de8c3

1 Parent(s): 431425d

- Save with prefix

Browse files

- Two new models added

Files changed (2) hide show

.gitignore +1 -0
app.py +17 -2

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ summaries/

app.py CHANGED Viewed

@@ -109,6 +109,8 @@ TOKSUITE_MODELS = [
     "mistralai-tekken",
     "tokenmonster-englishcode-32000-consistent-v1",
     "google-byt5-small",
 ]
 # Global cache for loaded models
 model_cache = dict()
@@ -440,6 +442,7 @@ def run_evaluation(
     progress=gr.Progress(),
     save_summary=False,
     normalization_method: str = "token-length",
 ):
     import gc
@@ -558,7 +561,10 @@ def run_evaluation(
     csv_summary = generate_csv_summary(questions, results, summary_stats)
     slurm_id = os.environ.get("SLURM_JOB_ID", "")
     if save_summary and slurm_id:
-        with open(f"{slurm_id}_summary_{time()}.md", "w") as f:
             f.write(markdown_summary)
     return (
@@ -1151,6 +1157,7 @@ What is the capital of France?,Paris,London,Berlin,Paris""",
             )
         with gr.Column(scale=1):
             save_summary_checkbox = False
             slurm_id = os.environ.get("SLURM_JOB_ID", "")
             if slurm_id:
                 save_summary_checkbox = gr.Checkbox(
@@ -1159,12 +1166,19 @@ What is the capital of France?,Paris,London,Berlin,Paris""",
                     value=False,
                     # info="If checked, saves a markdown summary file with SLURM_JOB_ID prefix",
                 )
     with gr.Row():
         with gr.Column(scale=2):
             toksuite_selector = gr.CheckboxGroup(
                 label="Select toksuite models",
                 choices=TOKSUITE_MODELS,
-                value=TOKSUITE_MODELS[-3:],
                 interactive=True,
                 info="These models share the same initialization and training source but differ only in their tokenizers. See [r-three/toksuite](https://huggingface.co/collections/r-three/toksuite-68ae7490c151341d78423295) for details.",
             )
@@ -1277,6 +1291,7 @@ bigscience/bloom-560m""",
             delimiter_selector,
             save_summary_checkbox,
             normalization_method,
         ],
         outputs=[
             summary_output,

     "mistralai-tekken",
     "tokenmonster-englishcode-32000-consistent-v1",
     "google-byt5-small",
+    "google-bert-bert-base-multilingual-cased",
+    "Qwen-Qwen3-8B",
 ]
 # Global cache for loaded models
 model_cache = dict()
     progress=gr.Progress(),
     save_summary=False,
     normalization_method: str = "token-length",
+    prefix: str = "",
 ):
     import gc
     csv_summary = generate_csv_summary(questions, results, summary_stats)
     slurm_id = os.environ.get("SLURM_JOB_ID", "")
     if save_summary and slurm_id:
+        file_name = f"summaries/{slurm_id}_summary_{time()}.md"
+        if prefix:
+            file_name = f"summaries/{slurm_id}_{prefix}_summary_{time()}.md"
+        with open(file_name, "w") as f:
             f.write(markdown_summary)
     return (
             )
         with gr.Column(scale=1):
             save_summary_checkbox = False
+            prefix = ""
             slurm_id = os.environ.get("SLURM_JOB_ID", "")
             if slurm_id:
                 save_summary_checkbox = gr.Checkbox(
                     value=False,
                     # info="If checked, saves a markdown summary file with SLURM_JOB_ID prefix",
                 )
+                prefix = gr.Textbox(
+                    label="Filename Prefix",
+                    placeholder="SLURM_JOB_ID will be used  by default",
+                    value="",
+                    interactive=True,
+                    visible=True,
+                )
     with gr.Row():
         with gr.Column(scale=2):
             toksuite_selector = gr.CheckboxGroup(
                 label="Select toksuite models",
                 choices=TOKSUITE_MODELS,
+                value=TOKSUITE_MODELS,
                 interactive=True,
                 info="These models share the same initialization and training source but differ only in their tokenizers. See [r-three/toksuite](https://huggingface.co/collections/r-three/toksuite-68ae7490c151341d78423295) for details.",
             )
             delimiter_selector,
             save_summary_checkbox,
             normalization_method,
+            prefix,
         ],
         outputs=[
             summary_output,