Spaces:

CatLLM
/

survey-classifier

Running

chrissoria Claude commited on 13 days ago

Commit

7779e40

1 Parent(s): 02239e1

Add max_categories slider for Extract and Extract & Assign tasks

- New "Extraction Settings" group with slider (3-25, default 12)
- Shows for Extract and Extract & Assign tasks, hidden for Assign
- Passes max_categories to catllm.extract() calls
- Updated reset function to include new components

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (1) hide show

app.py +37 -9

app.py CHANGED Viewed

@@ -450,6 +450,7 @@ def update_task_visibility(task):
     if task == "extract":
         return (
             gr.update(visible=False),  # categories_group
             gr.update(visible=True),   # model_group
             gr.update(visible=True, value="Extract Categories"),  # run_btn
             gr.update(visible=True),   # extract_output_group
@@ -459,6 +460,7 @@ def update_task_visibility(task):
     elif task == "assign":
         return (
             gr.update(visible=True),   # categories_group
             gr.update(visible=True),   # model_group
             gr.update(visible=True, value="Classify Data"),  # run_btn
             gr.update(visible=False),  # extract_output_group
@@ -468,6 +470,7 @@ def update_task_visibility(task):
     elif task == "extract_and_assign":
         return (
             gr.update(visible=False),  # categories_group
             gr.update(visible=True),   # model_group
             gr.update(visible=True, value="Extract & Classify"),  # run_btn
             gr.update(visible=True),   # extract_output_group (will show extracted cats)
@@ -481,6 +484,7 @@ def update_task_visibility(task):
             gr.update(visible=False),
             gr.update(visible=False),
             gr.update(visible=False),
             "Select a task to continue."
         )
@@ -488,6 +492,7 @@ def update_task_visibility(task):
 def run_extract_categories(input_type, spreadsheet_file, spreadsheet_column,
                            pdf_file, pdf_folder, pdf_description, pdf_mode,
                            image_file, image_folder, image_description,
                            model_tier, model, model_source_input, api_key_input,
                            progress=gr.Progress(track_tqdm=True)):
     """Extract categories from data and display them in a table."""
@@ -532,7 +537,8 @@ def run_extract_categories(input_type, spreadsheet_file, spreadsheet_column,
                 input_type="text",
                 description=spreadsheet_column,
                 user_model=model,
-                model_source=model_source
             )
         elif input_type == "PDF Documents":
@@ -570,7 +576,8 @@ def run_extract_categories(input_type, spreadsheet_file, spreadsheet_column,
                 mode=actual_mode,
                 user_model=model,
                 model_source=model_source,
-                divisions=divisions
             )
         elif input_type == "Images":
@@ -602,7 +609,8 @@ def run_extract_categories(input_type, spreadsheet_file, spreadsheet_column,
                 user_model=model,
                 model_source=model_source,
                 divisions=divisions,
-                categories_per_chunk=12  # Images often have multiple categories each
             )
         else:
@@ -863,6 +871,7 @@ Provide your work in JSON format where the number belonging to each category is
 def run_extract_and_assign(input_type, spreadsheet_file, spreadsheet_column,
                            pdf_file, pdf_folder, pdf_description, pdf_mode,
                            image_file, image_folder, image_description,
                            model_tier, model, model_source_input, api_key_input,
                            progress=gr.Progress(track_tqdm=True)):
     """Extract categories then classify data with them."""
@@ -990,7 +999,8 @@ def run_extract_and_assign(input_type, spreadsheet_file, spreadsheet_column,
             'user_model': model,
             'model_source': model_source,
             'divisions': divisions,
-            'categories_per_chunk': categories_per_chunk
         }
         if mode_param:
             extract_kwargs['mode'] = mode_param
@@ -1166,6 +1176,8 @@ def reset_all():
         gr.update(visible=True),  # add_category_btn
         INITIAL_CATEGORIES,  # category_count
         gr.update(visible=False),  # categories_group
         gr.update(visible=False),  # model_group
         gr.update(visible=False, value="Run"),  # run_btn
         "Free Models",  # model_tier
@@ -1337,6 +1349,18 @@ Soria, C. (2025). CatLLM: A Python package for LLM-based text classification. DO
                     category_inputs.append(cat_input)
                 add_category_btn = gr.Button("+ Add More Categories", variant="secondary", size="sm")
             # Model selection group
             with gr.Group(visible=False) as model_group:
                 gr.Markdown("### Model")
@@ -1481,25 +1505,26 @@ Soria, C. (2025). CatLLM: A Python package for LLM-based text classification. DO
     extract_btn.click(
         fn=select_extract,
         inputs=[],
-        outputs=[task_mode, categories_group, model_group, run_btn, extract_output_group, classify_output_group, status]
     )
     assign_btn.click(
         fn=select_assign,
         inputs=[],
-        outputs=[task_mode, categories_group, model_group, run_btn, extract_output_group, classify_output_group, status]
     )
     extract_assign_btn.click(
         fn=select_extract_assign,
         inputs=[],
-        outputs=[task_mode, categories_group, model_group, run_btn, extract_output_group, classify_output_group, status]
     )
     # Main run button handler - dispatches based on task_mode
     def dispatch_run(task, input_type, spreadsheet_file, spreadsheet_column,
                      pdf_file, pdf_folder_val, pdf_description, pdf_mode,
                      image_file, image_folder_val, image_description,
                      cat1, cat2, cat3, cat4, cat5, cat6, cat7, cat8, cat9, cat10,
                      model_tier, model, model_source, api_key,
                      progress=gr.Progress(track_tqdm=True)):
@@ -1509,6 +1534,7 @@ Soria, C. (2025). CatLLM: A Python package for LLM-based text classification. DO
                 input_type, spreadsheet_file, spreadsheet_column,
                 pdf_file, pdf_folder_val, pdf_description, pdf_mode,
                 image_file, image_folder_val, image_description,
                 model_tier, model, model_source, api_key,
                 progress
             ):
@@ -1544,6 +1570,7 @@ Soria, C. (2025). CatLLM: A Python package for LLM-based text classification. DO
                 input_type, spreadsheet_file, spreadsheet_column,
                 pdf_file, pdf_folder_val, pdf_description, pdf_mode,
                 image_file, image_folder_val, image_description,
                 model_tier, model, model_source, api_key,
                 progress
             ):
@@ -1562,7 +1589,8 @@ Soria, C. (2025). CatLLM: A Python package for LLM-based text classification. DO
         fn=dispatch_run,
         inputs=[task_mode, input_type, spreadsheet_file, spreadsheet_column,
                 pdf_file, pdf_folder, pdf_description, pdf_mode,
-                image_file, image_folder, image_description] + category_inputs + [model_tier, model, model_source, api_key],
         outputs=[extracted_categories, extract_download, distribution_plot, results, download_file, status]
     )
@@ -1577,7 +1605,7 @@ Soria, C. (2025). CatLLM: A Python package for LLM-based text classification. DO
             task_mode
         ] + category_inputs + [
             add_category_btn, category_count,
-            categories_group, model_group, run_btn,
             model_tier, model, model_source, api_key, api_key, api_key_status,
             status,
             extract_output_group, extracted_categories, extract_download,

     if task == "extract":
         return (
             gr.update(visible=False),  # categories_group
+            gr.update(visible=True),   # extract_settings_group
             gr.update(visible=True),   # model_group
             gr.update(visible=True, value="Extract Categories"),  # run_btn
             gr.update(visible=True),   # extract_output_group
     elif task == "assign":
         return (
             gr.update(visible=True),   # categories_group
+            gr.update(visible=False),  # extract_settings_group
             gr.update(visible=True),   # model_group
             gr.update(visible=True, value="Classify Data"),  # run_btn
             gr.update(visible=False),  # extract_output_group
     elif task == "extract_and_assign":
         return (
             gr.update(visible=False),  # categories_group
+            gr.update(visible=True),   # extract_settings_group
             gr.update(visible=True),   # model_group
             gr.update(visible=True, value="Extract & Classify"),  # run_btn
             gr.update(visible=True),   # extract_output_group (will show extracted cats)
             gr.update(visible=False),
             gr.update(visible=False),
             gr.update(visible=False),
+            gr.update(visible=False),
             "Select a task to continue."
         )
 def run_extract_categories(input_type, spreadsheet_file, spreadsheet_column,
                            pdf_file, pdf_folder, pdf_description, pdf_mode,
                            image_file, image_folder, image_description,
+                           max_categories_val,
                            model_tier, model, model_source_input, api_key_input,
                            progress=gr.Progress(track_tqdm=True)):
     """Extract categories from data and display them in a table."""
                 input_type="text",
                 description=spreadsheet_column,
                 user_model=model,
+                model_source=model_source,
+                max_categories=int(max_categories_val)
             )
         elif input_type == "PDF Documents":
                 mode=actual_mode,
                 user_model=model,
                 model_source=model_source,
+                divisions=divisions,
+                max_categories=int(max_categories_val)
             )
         elif input_type == "Images":
                 user_model=model,
                 model_source=model_source,
                 divisions=divisions,
+                categories_per_chunk=12,  # Images often have multiple categories each
+                max_categories=int(max_categories_val)
             )
         else:
 def run_extract_and_assign(input_type, spreadsheet_file, spreadsheet_column,
                            pdf_file, pdf_folder, pdf_description, pdf_mode,
                            image_file, image_folder, image_description,
+                           max_categories_val,
                            model_tier, model, model_source_input, api_key_input,
                            progress=gr.Progress(track_tqdm=True)):
     """Extract categories then classify data with them."""
             'user_model': model,
             'model_source': model_source,
             'divisions': divisions,
+            'categories_per_chunk': categories_per_chunk,
+            'max_categories': int(max_categories_val)
         }
         if mode_param:
             extract_kwargs['mode'] = mode_param
         gr.update(visible=True),  # add_category_btn
         INITIAL_CATEGORIES,  # category_count
         gr.update(visible=False),  # categories_group
+        gr.update(visible=False),  # extract_settings_group
+        12,  # max_categories (reset to default)
         gr.update(visible=False),  # model_group
         gr.update(visible=False, value="Run"),  # run_btn
         "Free Models",  # model_tier
                     category_inputs.append(cat_input)
                 add_category_btn = gr.Button("+ Add More Categories", variant="secondary", size="sm")
+            # Extraction settings group (only visible for Extract and Extract & Assign)
+            with gr.Group(visible=False) as extract_settings_group:
+                gr.Markdown("### Extraction Settings")
+                max_categories = gr.Slider(
+                    minimum=3,
+                    maximum=25,
+                    value=12,
+                    step=1,
+                    label="Number of Categories to Extract",
+                    info="How many categories should be identified in your data"
+                )
             # Model selection group
             with gr.Group(visible=False) as model_group:
                 gr.Markdown("### Model")
     extract_btn.click(
         fn=select_extract,
         inputs=[],
+        outputs=[task_mode, categories_group, extract_settings_group, model_group, run_btn, extract_output_group, classify_output_group, status]
     )
     assign_btn.click(
         fn=select_assign,
         inputs=[],
+        outputs=[task_mode, categories_group, extract_settings_group, model_group, run_btn, extract_output_group, classify_output_group, status]
     )
     extract_assign_btn.click(
         fn=select_extract_assign,
         inputs=[],
+        outputs=[task_mode, categories_group, extract_settings_group, model_group, run_btn, extract_output_group, classify_output_group, status]
     )
     # Main run button handler - dispatches based on task_mode
     def dispatch_run(task, input_type, spreadsheet_file, spreadsheet_column,
                      pdf_file, pdf_folder_val, pdf_description, pdf_mode,
                      image_file, image_folder_val, image_description,
+                     max_categories_val,
                      cat1, cat2, cat3, cat4, cat5, cat6, cat7, cat8, cat9, cat10,
                      model_tier, model, model_source, api_key,
                      progress=gr.Progress(track_tqdm=True)):
                 input_type, spreadsheet_file, spreadsheet_column,
                 pdf_file, pdf_folder_val, pdf_description, pdf_mode,
                 image_file, image_folder_val, image_description,
+                max_categories_val,
                 model_tier, model, model_source, api_key,
                 progress
             ):
                 input_type, spreadsheet_file, spreadsheet_column,
                 pdf_file, pdf_folder_val, pdf_description, pdf_mode,
                 image_file, image_folder_val, image_description,
+                max_categories_val,
                 model_tier, model, model_source, api_key,
                 progress
             ):
         fn=dispatch_run,
         inputs=[task_mode, input_type, spreadsheet_file, spreadsheet_column,
                 pdf_file, pdf_folder, pdf_description, pdf_mode,
+                image_file, image_folder, image_description,
+                max_categories] + category_inputs + [model_tier, model, model_source, api_key],
         outputs=[extracted_categories, extract_download, distribution_plot, results, download_file, status]
     )
             task_mode
         ] + category_inputs + [
             add_category_btn, category_count,
+            categories_group, extract_settings_group, max_categories, model_group, run_btn,
             model_tier, model, model_source, api_key, api_key, api_key_status,
             status,
             extract_output_group, extracted_categories, extract_download,