Spaces:

CatLLM
/

survey-classifier

Running

App Files Files Community

chrissoria commited on 15 days ago

Commit

5ca7833

1 Parent(s): 4a5bb08

Add reproducibility code page to PDF codebook

Browse files

Files changed (1) hide show

app.py +51 -3

app.py CHANGED Viewed

@@ -58,12 +58,12 @@ def is_free_model(model, model_tier):
     return model_tier == "Free Models"
-def generate_codebook_pdf(categories, model, column_name, num_rows):
     """Generate a PDF codebook explaining the output columns."""
     from reportlab.lib.pagesizes import letter
     from reportlab.lib import colors
     from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
-    from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, Table, TableStyle
     # Create temp file for PDF
     pdf_file = tempfile.NamedTemporaryFile(mode='wb', suffix='_codebook.pdf', delete=False)
@@ -146,6 +146,51 @@ def generate_codebook_pdf(categories, model, column_name, num_rows):
     story.append(Spacer(1, 5))
     story.append(Paragraph("Soria, C. (2025). CatLLM: A Python package for LLM-based text classification. https://github.com/chrissoria/cat-llm", normal_style))
     doc.build(story)
     return pdf_file.name
@@ -278,8 +323,11 @@ def classify_data(spreadsheet_file, spreadsheet_column,
             result.to_csv(f.name, index=False)
             csv_path = f.name
         # Generate PDF codebook
-        pdf_path = generate_codebook_pdf(categories, actual_model, spreadsheet_column, len(input_data))
         return result, [csv_path, pdf_path], f"**Success!** Classified {len(input_data)} responses"

     return model_tier == "Free Models"
+def generate_codebook_pdf(categories, model, column_name, num_rows, model_source, filename):
     """Generate a PDF codebook explaining the output columns."""
     from reportlab.lib.pagesizes import letter
     from reportlab.lib import colors
     from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
+    from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, Table, TableStyle, PageBreak, Preformatted
     # Create temp file for PDF
     pdf_file = tempfile.NamedTemporaryFile(mode='wb', suffix='_codebook.pdf', delete=False)
     story.append(Spacer(1, 5))
     story.append(Paragraph("Soria, C. (2025). CatLLM: A Python package for LLM-based text classification. https://github.com/chrissoria/cat-llm", normal_style))
+    # Page break for reproducibility code
+    story.append(PageBreak())
+    story.append(Paragraph("Reproducibility Code", title_style))
+    story.append(Paragraph("Use the following Python code to reproduce this classification:", normal_style))
+    story.append(Spacer(1, 15))
+    # Build categories list string
+    categories_str = ", ".join([f'"{cat}"' for cat in categories])
+    code_text = f'''import catllm
+import pandas as pd
+# Load your survey data
+df = pd.read_csv("{filename}")
+# Define your categories
+categories = [{categories_str}]
+# Classify the responses
+result = catllm.multi_class(
+    survey_input=df["{column_name}"].tolist(),
+    categories=categories,
+    api_key="YOUR_API_KEY",
+    user_model="{model}",
+    model_source="{model_source}"
+)
+# View results
+print(result)
+# Save to CSV
+result.to_csv("classified_results.csv", index=False)'''
+    # Use a monospace style for code
+    code_style = ParagraphStyle('Code', parent=styles['Normal'], fontName='Courier', fontSize=9, leftIndent=20, spaceAfter=10)
+    # Split code into lines and add each as a paragraph
+    for line in code_text.split('\n'):
+        if line.strip() == '':
+            story.append(Spacer(1, 5))
+        else:
+            # Escape special characters for PDF
+            escaped_line = line.replace('&', '&amp;').replace('<', '&lt;').replace('>', '&gt;')
+            story.append(Paragraph(escaped_line, code_style))
     doc.build(story)
     return pdf_file.name
             result.to_csv(f.name, index=False)
             csv_path = f.name
+        # Get original filename for codebook
+        original_filename = file_path.split("/")[-1]
         # Generate PDF codebook
+        pdf_path = generate_codebook_pdf(categories, actual_model, spreadsheet_column, len(input_data), model_source, original_filename)
         return result, [csv_path, pdf_path], f"**Success!** Classified {len(input_data)} responses"