Spaces:

CatLLM
/

survey-classifier

Running

App Files Files Community

chrissoria commited on 3 days ago

Commit

4ec96e7

verified ·

1 Parent(s): c04a288

Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

app.py +43 -40
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -259,78 +259,77 @@ print(result["counts_df"])
 '''
-def generate_classify_code(input_type, description, categories, model, model_source, mode=None):
     """Generate Python code for classification."""
     categories_str = ",\n    ".join([f'"{cat}"' for cat in categories])
     if input_type == "text":
-        return f'''import catllm
-import pandas as pd
 # Load your data
 df = pd.read_csv("your_data.csv")
 # Define categories
 categories = [
     {categories_str}
 ]
-# Classify the text data
 result = catllm.classify(
-    input_data=df["{description}"].tolist(),
     categories=categories,
     api_key="YOUR_API_KEY",
-    input_type="text",
     description="{description}",
-    user_model="{model}",
-    model_source="{model_source}"
 )
 # View results
 print(result)
 result.to_csv("classified_results.csv", index=False)
 '''
-    elif input_type == "pdf":
-        mode_line = f',\n    mode="{mode}"' if mode else ''
-        return f'''import catllm
-# Define categories
-categories = [
-    {categories_str}
-]
-# Classify PDF documents
-result = catllm.classify(
-    input_data="path/to/your/pdfs/",
-    categories=categories,
-    api_key="YOUR_API_KEY",
-    input_type="pdf",
-    description="{description}"{mode_line},
-    user_model="{model}",
-    model_source="{model_source}"
-)
-# View results
-print(result)
-result.to_csv("classified_results.csv", index=False)
-'''
-    else:  # image
         return f'''import catllm
 # Define categories
 categories = [
     {categories_str}
 ]
-# Classify images
 result = catllm.classify(
-    input_data="path/to/your/images/",
     categories=categories,
-    api_key="YOUR_API_KEY",
-    input_type="image",
-    description="{description}",
-    user_model="{model}",
-    model_source="{model_source}"
 )
 # View results
@@ -1344,7 +1343,11 @@ with col_input:
                         )
                         # Generate code
-                        code = generate_classify_code(input_type_selected, description, categories_entered, report_model, report_model_source, mode)
                         st.session_state.results = {
                             'df': result_df,

 '''
+def generate_classify_code(input_type, description, categories, model, model_source, mode=None, classify_mode="Single Model", models_list=None):
     """Generate Python code for classification."""
     categories_str = ",\n    ".join([f'"{cat}"' for cat in categories])
+    # Determine input data placeholder based on type
     if input_type == "text":
+        input_placeholder = 'df["your_column"].tolist()'
+        load_data = '''import pandas as pd
 # Load your data
 df = pd.read_csv("your_data.csv")
+'''
+    elif input_type == "pdf":
+        input_placeholder = '"path/to/your/pdfs/"'
+        load_data = ''
+    else:  # image
+        input_placeholder = '"path/to/your/images/"'
+        load_data = ''
+    # Generate code based on classification mode
+    if classify_mode == "Single Model":
+        # Single model mode
+        mode_param = f',\n    mode="{mode}"' if mode and input_type == "pdf" else ''
+        return f'''import catllm
+{load_data}
 # Define categories
 categories = [
     {categories_str}
 ]
+# Classify data (input type is auto-detected)
 result = catllm.classify(
+    input_data={input_placeholder},
     categories=categories,
     api_key="YOUR_API_KEY",
     description="{description}",
+    user_model="{model}"{mode_param}
 )
 # View results
 print(result)
 result.to_csv("classified_results.csv", index=False)
 '''
+    else:
+        # Multi-model mode (Comparison or Ensemble)
+        if models_list:
+            models_str = ",\n        ".join([f'("{m}", "auto", "YOUR_API_KEY")' for m in models_list])
+        else:
+            models_str = '("gpt-4o", "auto", "YOUR_API_KEY"),\n        ("claude-sonnet-4-5-20250929", "auto", "YOUR_API_KEY")'
+        mode_param = f',\n    mode="{mode}"' if mode and input_type == "pdf" else ''
+        consensus_param = ',\n    consensus_threshold=0.5' if classify_mode == "Ensemble" else ''
         return f'''import catllm
+{load_data}
 # Define categories
 categories = [
     {categories_str}
 ]
+# Define models for {"ensemble voting" if classify_mode == "Ensemble" else "comparison"}
+models = [
+        {models_str}
+]
+# Classify with multiple models
 result = catllm.classify(
+    input_data={input_placeholder},
     categories=categories,
+    models=models,
+    description="{description}"{mode_param}{consensus_param}
 )
 # View results
                         )
                         # Generate code
+                        code = generate_classify_code(
+                            input_type_selected, description, categories_entered,
+                            report_model, report_model_source, mode,
+                            classify_mode=classify_mode, models_list=models_list
+                        )
                         st.session_state.results = {
                             'df': result_df,

requirements.txt CHANGED Viewed

@@ -1,5 +1,5 @@
 streamlit>=1.32.0
-cat-llm[pdf]>=0.1.13
 mistralai
 pydantic==2.10.6
 huggingface_hub<0.27.0

 streamlit>=1.32.0
+cat-llm[pdf]>=0.1.14
 mistralai
 pydantic==2.10.6
 huggingface_hub<0.27.0