Spaces:

RoyAalekh
/

hackathon_code4change

Sleeping

RoyAalekh commited on Nov 27, 2025

Commit

6d32faf

1 Parent(s): b512b22

refactor: Restructure project with unified CLI and fix RL training gaps

Major Changes:
- Created unified cli/ directory with single entry point (cli.main:app)
- Consolidated court_scheduler/ into cli/ (cli.py → cli/main.py)
- Merged config modules into cli/config.py
- Moved main.py → src/run_eda.py (EDA-specific)
- Moved test files to tests/ directory
- Deleted obsolete root scripts (court_scheduler_rl.py, train_rl_agent.py)
- Updated pyproject.toml entry point: court_scheduler.cli:app → cli.main:app

CLI Commands Available:
- court-scheduler eda # Run EDA pipeline
- court-scheduler generate # Generate test cases
- court-scheduler simulate # Run simulation
- court-scheduler train # Train RL agent
- court-scheduler workflow # Full pipeline
- court-scheduler version # Show version

RL Training Enhancements (Gap Fixes):
- Fixed Gap 1: RL training now uses EDA-derived parameters
- Added ParameterLoader to RLTrainingEnvironment
- Replaced hardcoded hearing outcome probabilities with param_loader
- Uses get_adjournment_prob() and get_stage_transitions_fast()
- Training dynamics now align with production simulation

- Fixed Gap 2: Ripeness feedback loop implemented
- Created scheduler/monitoring/ripeness_metrics.py (RipenessMetrics)
- Created scheduler/monitoring/ripeness_calibrator.py (RipenessCalibrator)
- Added RipenessClassifier.set_thresholds() for dynamic calibration
- Tracks false positive/negative rates, suggests threshold adjustments
- 5 calibration rules for adaptive learning

Test Results:
- Gap 1: Adjournment rate 43.0% vs EDA 42.3% (0.7% diff, within range)
- Gap 2: Calibrator successfully suggests 3 threshold adjustments
- All gap fix tests passing

Project Structure:
- Clean root directory (no Python scripts)
- Clear separation: cli/ (interface), scheduler/ (library), rl/ (training), src/ (EDA)
- All functionality accessible via single entry point: uv run court-scheduler

Files changed (20) hide show

cli/__init__.py +3 -0
cli/commands/__init__.py +1 -0
court_scheduler/config_models.py → cli/config.py +42 -4
court_scheduler/cli.py → cli/main.py +73 -95
court_scheduler/__init__.py +0 -6
court_scheduler/config_loader.py +0 -32
court_scheduler_rl.py +0 -680
main.py +0 -11
pyproject.toml +1 -1
rl/training.py +72 -33
scheduler/core/ripeness.py +32 -1
scheduler/monitoring/__init__.py +11 -0
scheduler/monitoring/ripeness_calibrator.py +279 -0
scheduler/monitoring/ripeness_metrics.py +254 -0
scheduler/optimization/__init__.py +0 -0
src/__init__.py +1 -0
src/run_eda.py +6 -18
test_enhancements.py → tests/test_enhancements.py +0 -0
tests/test_gap_fixes.py +200 -0
train_rl_agent.py +0 -238

cli/__init__.py ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ """Unified CLI for Court Scheduling System."""
2	+
3	+ __version__ = "1.0.0"

cli/commands/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ """CLI command modules."""

court_scheduler/config_models.py → cli/config.py RENAMED Viewed

@@ -1,13 +1,20 @@
 from __future__ import annotations
 from datetime import date
 from pathlib import Path
-from typing import Optional
 from pydantic import BaseModel, Field, field_validator
 class GenerateConfig(BaseModel):
     n_cases: int = Field(10000, ge=1)
     start: date = Field(..., description="Case filing start date")
     end: date = Field(..., description="Case filing end date")
@@ -16,12 +23,12 @@ class GenerateConfig(BaseModel):
     @field_validator("end")
     @classmethod
-    def _check_range(cls, v: date, info):  # noqa: D401
-        # end must be >= start; we can't read start here easily, so skip strict check
         return v
 class SimulateConfig(BaseModel):
     cases: Path = Path("data/generated/cases.csv")
     days: int = Field(384, ge=1)
     start: Optional[date] = None
@@ -34,5 +41,36 @@ class SimulateConfig(BaseModel):
 class WorkflowConfig(BaseModel):
     generate: GenerateConfig
-    simulate: SimulateConfig

+"""Configuration models and loaders for CLI commands."""
 from __future__ import annotations
+import json
+import tomllib
 from datetime import date
 from pathlib import Path
+from typing import Any, Dict, Optional
 from pydantic import BaseModel, Field, field_validator
+# Configuration Models
 class GenerateConfig(BaseModel):
+    """Configuration for case generation command."""
     n_cases: int = Field(10000, ge=1)
     start: date = Field(..., description="Case filing start date")
     end: date = Field(..., description="Case filing end date")
     @field_validator("end")
     @classmethod
+    def _check_range(cls, v: date, info):
         return v
 class SimulateConfig(BaseModel):
+    """Configuration for simulation command."""
     cases: Path = Path("data/generated/cases.csv")
     days: int = Field(384, ge=1)
     start: Optional[date] = None
 class WorkflowConfig(BaseModel):
+    """Configuration for full workflow command."""
     generate: GenerateConfig
+    simulate: SimulateConfig
+# Configuration Loaders
+def _read_config(path: Path) -> Dict[str, Any]:
+    """Read configuration from .toml or .json file."""
+    suf = path.suffix.lower()
+    if suf == ".json":
+        return json.loads(path.read_text(encoding="utf-8"))
+    if suf == ".toml":
+        return tomllib.loads(path.read_text(encoding="utf-8"))
+    raise ValueError(f"Unsupported config format: {path.suffix}. Use .toml or .json")
+def load_generate_config(path: Path) -> GenerateConfig:
+    """Load generation configuration from file."""
+    data = _read_config(path)
+    return GenerateConfig(**data)
+def load_simulate_config(path: Path) -> SimulateConfig:
+    """Load simulation configuration from file."""
+    data = _read_config(path)
+    return SimulateConfig(**data)
+def load_workflow_config(path: Path) -> WorkflowConfig:
+    """Load workflow configuration from file."""
+    data = _read_config(path)
+    return WorkflowConfig(**data)

court_scheduler/cli.py → cli/main.py RENAMED Viewed

@@ -3,7 +3,8 @@
 This module provides a single entry point for all court scheduling operations:
 - EDA pipeline execution
 - Case generation
-- Simulation runs
 - Full workflow orchestration
 """
@@ -17,6 +18,8 @@ import typer
 from rich.console import Console
 from rich.progress import Progress, SpinnerColumn, TextColumn
 # Initialize Typer app and console
 app = typer.Typer(
     name="court-scheduler",
@@ -88,13 +91,11 @@ def generate(
     try:
         from datetime import date as date_cls
         from scheduler.data.case_generator import CaseGenerator
-        from .config_loader import load_generate_config
-        from .config_models import GenerateConfig
         # Resolve parameters: config -> interactive -> flags
         if config:
             cfg = load_generate_config(config)
-            # Note: in this first iteration, flags do not override config for generate
         else:
             if interactive:
                 n_cases = typer.prompt("Number of cases", default=n_cases)
@@ -156,13 +157,12 @@ def simulate(
         from scheduler.data.case_generator import CaseGenerator
         from scheduler.metrics.basic import gini
         from scheduler.simulation.engine import CourtSim, CourtSimConfig
-        from .config_loader import load_simulate_config
-        from .config_models import SimulateConfig
         # Resolve parameters: config -> interactive -> flags
         if config:
             scfg = load_simulate_config(config)
-            # CLI flags override config if provided (best-effort)
             scfg = scfg.model_copy(update={
                 "cases": Path(cases_csv) if cases_csv else scfg.cases,
                 "days": days if days else scfg.days,
@@ -219,90 +219,7 @@ def simulate(
             res = sim.run()
             progress.update(task, completed=True)
-        # Calculate additional metrics for report
-        allocator_stats = sim.allocator.get_utilization_stats()
-        disp_times = [(c.disposal_date - c.filed_date).days for c in cases
-                      if c.disposal_date is not None and c.status == CaseStatus.DISPOSED]
-        gini_disp = gini(disp_times) if disp_times else 0.0
-        # Disposal rates by case type
-        case_type_stats = {}
-        for c in cases:
-            if c.case_type not in case_type_stats:
-                case_type_stats[c.case_type] = {"total": 0, "disposed": 0}
-            case_type_stats[c.case_type]["total"] += 1
-            if c.is_disposed:
-                case_type_stats[c.case_type]["disposed"] += 1
-        # Ripeness distribution
-        active_cases = [c for c in cases if not c.is_disposed]
-        ripeness_dist = {}
-        for c in active_cases:
-            status = c.ripeness_status
-            ripeness_dist[status] = ripeness_dist.get(status, 0) + 1
-        # Generate report.txt if log_dir specified
-        if log_dir:
-            Path(log_dir).mkdir(parents=True, exist_ok=True)
-            report_path = Path(log_dir) / "report.txt"
-            with report_path.open("w", encoding="utf-8") as rf:
-                rf.write("=" * 80 + "\n")
-                rf.write("SIMULATION REPORT\n")
-                rf.write("=" * 80 + "\n\n")
-                rf.write(f"Configuration:\n")
-                rf.write(f"  Cases: {len(cases)}\n")
-                rf.write(f"  Days simulated: {days}\n")
-                rf.write(f"  Policy: {policy}\n")
-                rf.write(f"  Horizon end: {res.end_date}\n\n")
-                rf.write(f"Hearing Metrics:\n")
-                rf.write(f"  Total hearings: {res.hearings_total:,}\n")
-                rf.write(f"  Heard: {res.hearings_heard:,} ({res.hearings_heard/max(1,res.hearings_total):.1%})\n")
-                rf.write(f"  Adjourned: {res.hearings_adjourned:,} ({res.hearings_adjourned/max(1,res.hearings_total):.1%})\n\n")
-                rf.write(f"Disposal Metrics:\n")
-                rf.write(f"  Cases disposed: {res.disposals:,}\n")
-                rf.write(f"  Disposal rate: {res.disposals/len(cases):.1%}\n")
-                rf.write(f"  Gini coefficient: {gini_disp:.3f}\n\n")
-                rf.write(f"Disposal Rates by Case Type:\n")
-                for ct in sorted(case_type_stats.keys()):
-                    stats = case_type_stats[ct]
-                    rate = (stats["disposed"] / stats["total"] * 100) if stats["total"] > 0 else 0
-                    rf.write(f"  {ct:4s}: {stats['disposed']:4d}/{stats['total']:4d} ({rate:5.1f}%)\n")
-                rf.write("\n")
-                rf.write(f"Efficiency Metrics:\n")
-                rf.write(f"  Court utilization: {res.utilization:.1%}\n")
-                rf.write(f"  Avg hearings/day: {res.hearings_total/days:.1f}\n\n")
-                rf.write(f"Ripeness Impact:\n")
-                rf.write(f"  Transitions: {res.ripeness_transitions:,}\n")
-                rf.write(f"  Cases filtered (unripe): {res.unripe_filtered:,}\n")
-                if res.hearings_total + res.unripe_filtered > 0:
-                    rf.write(f"  Filter rate: {res.unripe_filtered/(res.hearings_total + res.unripe_filtered):.1%}\n")
-                rf.write("\nFinal Ripeness Distribution:\n")
-                for status in sorted(ripeness_dist.keys()):
-                    count = ripeness_dist[status]
-                    pct = (count / len(active_cases) * 100) if active_cases else 0
-                    rf.write(f"  {status}: {count} ({pct:.1f}%)\n")
-                # Courtroom allocation metrics
-                if allocator_stats:
-                    rf.write("\nCourtroom Allocation:\n")
-                    rf.write(f"  Strategy: load_balanced\n")
-                    rf.write(f"  Load balance fairness (Gini): {allocator_stats['load_balance_gini']:.3f}\n")
-                    rf.write(f"  Avg daily load: {allocator_stats['avg_daily_load']:.1f} cases\n")
-                    rf.write(f"  Allocation changes: {allocator_stats['allocation_changes']:,}\n")
-                    rf.write(f"  Capacity rejections: {allocator_stats['capacity_rejections']:,}\n\n")
-                    rf.write("  Courtroom-wise totals:\n")
-                    for cid in range(1, sim.cfg.courtrooms + 1):
-                        total = allocator_stats['courtroom_totals'][cid]
-                        avg = allocator_stats['courtroom_averages'][cid]
-                        rf.write(f"    Courtroom {cid}: {total:,} cases ({avg:.1f}/day)\n")
-        # Display results to console
         console.print("\n[bold green]Simulation Complete![/bold green]")
         console.print(f"\nHorizon: {cfg.start} \u2192 {res.end_date} ({days} days)")
         console.print(f"\n[bold]Hearing Metrics:[/bold]")
@@ -310,6 +227,10 @@ def simulate(
         console.print(f"  Heard: {res.hearings_heard:,} ({res.hearings_heard/max(1,res.hearings_total):.1%})")
         console.print(f"  Adjourned: {res.hearings_adjourned:,} ({res.hearings_adjourned/max(1,res.hearings_total):.1%})")
         console.print(f"\n[bold]Disposal Metrics:[/bold]")
         console.print(f"  Cases disposed: {res.disposals:,} ({res.disposals/len(cases):.1%})")
         console.print(f"  Gini coefficient: {gini_disp:.3f}")
@@ -320,15 +241,73 @@ def simulate(
         if log_dir:
             console.print(f"\n[bold cyan]Output Files:[/bold cyan]")
-            console.print(f"  - {log_dir}/report.txt (comprehensive report)")
-            console.print(f"  - {log_dir}/metrics.csv (daily metrics)")
-            console.print(f"  - {log_dir}/events.csv (event log)")
     except Exception as e:
         console.print(f"[bold red]Error:[/bold red] {e}")
         raise typer.Exit(code=1)
 @app.command()
 def workflow(
     n_cases: int = typer.Option(10000, "--cases", "-n", help="Number of cases to generate"),
@@ -394,7 +373,6 @@ def workflow(
 @app.command()
 def version() -> None:
     """Show version information."""
-    from court_scheduler import __version__
     console.print(f"Court Scheduler CLI v{__version__}")
     console.print("Court Scheduling System for Karnataka High Court")

 This module provides a single entry point for all court scheduling operations:
 - EDA pipeline execution
 - Case generation
+- Simulation runs
+- RL training
 - Full workflow orchestration
 """
 from rich.console import Console
 from rich.progress import Progress, SpinnerColumn, TextColumn
+from cli import __version__
 # Initialize Typer app and console
 app = typer.Typer(
     name="court-scheduler",
     try:
         from datetime import date as date_cls
         from scheduler.data.case_generator import CaseGenerator
+        from cli.config import load_generate_config, GenerateConfig
         # Resolve parameters: config -> interactive -> flags
         if config:
             cfg = load_generate_config(config)
         else:
             if interactive:
                 n_cases = typer.prompt("Number of cases", default=n_cases)
         from scheduler.data.case_generator import CaseGenerator
         from scheduler.metrics.basic import gini
         from scheduler.simulation.engine import CourtSim, CourtSimConfig
+        from cli.config import load_simulate_config, SimulateConfig
         # Resolve parameters: config -> interactive -> flags
         if config:
             scfg = load_simulate_config(config)
+            # CLI flags override config if provided
             scfg = scfg.model_copy(update={
                 "cases": Path(cases_csv) if cases_csv else scfg.cases,
                 "days": days if days else scfg.days,
             res = sim.run()
             progress.update(task, completed=True)
+        # Display results
         console.print("\n[bold green]Simulation Complete![/bold green]")
         console.print(f"\nHorizon: {cfg.start} \u2192 {res.end_date} ({days} days)")
         console.print(f"\n[bold]Hearing Metrics:[/bold]")
         console.print(f"  Heard: {res.hearings_heard:,} ({res.hearings_heard/max(1,res.hearings_total):.1%})")
         console.print(f"  Adjourned: {res.hearings_adjourned:,} ({res.hearings_adjourned/max(1,res.hearings_total):.1%})")
+        disp_times = [(c.disposal_date - c.filed_date).days for c in cases
+                      if c.disposal_date is not None and c.status == CaseStatus.DISPOSED]
+        gini_disp = gini(disp_times) if disp_times else 0.0
         console.print(f"\n[bold]Disposal Metrics:[/bold]")
         console.print(f"  Cases disposed: {res.disposals:,} ({res.disposals/len(cases):.1%})")
         console.print(f"  Gini coefficient: {gini_disp:.3f}")
         if log_dir:
             console.print(f"\n[bold cyan]Output Files:[/bold cyan]")
+            console.print(f"  - {log_dir}/report.txt")
+            console.print(f"  - {log_dir}/metrics.csv")
+            console.print(f"  - {log_dir}/events.csv")
     except Exception as e:
         console.print(f"[bold red]Error:[/bold red] {e}")
         raise typer.Exit(code=1)
+@app.command()
+def train(
+    episodes: int = typer.Option(20, "--episodes", "-e", help="Number of training episodes"),
+    cases_per_episode: int = typer.Option(200, "--cases", "-n", help="Cases per episode"),
+    learning_rate: float = typer.Option(0.15, "--lr", help="Learning rate"),
+    epsilon: float = typer.Option(0.4, "--epsilon", help="Initial epsilon for exploration"),
+    output: str = typer.Option("models/rl_agent.pkl", "--output", "-o", help="Output model file"),
+    seed: int = typer.Option(42, "--seed", help="Random seed"),
+) -> None:
+    """Train RL agent for case scheduling."""
+    console.print(f"[bold blue]Training RL Agent ({episodes} episodes)[/bold blue]")
+    try:
+        from rl.simple_agent import TabularQAgent
+        from rl.training import train_agent
+        from rl.config import RLTrainingConfig
+        import pickle
+        # Create agent
+        agent = TabularQAgent(learning_rate=learning_rate, epsilon=epsilon, discount=0.95)
+        # Configure training
+        config = RLTrainingConfig(
+            episodes=episodes,
+            cases_per_episode=cases_per_episode,
+            training_seed=seed,
+            initial_epsilon=epsilon,
+            learning_rate=learning_rate,
+        )
+        with Progress(
+            SpinnerColumn(),
+            TextColumn("[progress.description]{task.description}"),
+            console=console,
+        ) as progress:
+            task = progress.add_task(f"Training {episodes} episodes...", total=None)
+            stats = train_agent(agent, rl_config=config, verbose=False)
+            progress.update(task, completed=True)
+        # Save model
+        output_path = Path(output)
+        output_path.parent.mkdir(parents=True, exist_ok=True)
+        with output_path.open("wb") as f:
+            pickle.dump(agent, f)
+        console.print("\n[bold green]\u2713 Training Complete![/bold green]")
+        console.print(f"\nFinal Statistics:")
+        console.print(f"  Episodes: {len(stats['episodes'])}")
+        console.print(f"  Final disposal rate: {stats['disposal_rates'][-1]:.1%}")
+        console.print(f"  States explored: {stats['states_explored'][-1]:,}")
+        console.print(f"  Q-table size: {len(agent.q_table):,}")
+        console.print(f"\nModel saved to: {output_path}")
+    except Exception as e:
+        console.print(f"[bold red]Error:[/bold red] {e}")
+        raise typer.Exit(code=1)
 @app.command()
 def workflow(
     n_cases: int = typer.Option(10000, "--cases", "-n", help="Number of cases to generate"),
 @app.command()
 def version() -> None:
     """Show version information."""
     console.print(f"Court Scheduler CLI v{__version__}")
     console.print("Court Scheduling System for Karnataka High Court")

court_scheduler/__init__.py DELETED Viewed

@@ -1,6 +0,0 @@
-"""Court Scheduler CLI Package.
-This package provides a unified command-line interface for the Court Scheduling System.
-"""
-__version__ = "0.1.0-dev.1"

court_scheduler/config_loader.py DELETED Viewed

@@ -1,32 +0,0 @@
-from __future__ import annotations
-import json
-import tomllib
-from pathlib import Path
-from typing import Any, Dict, Literal
-from .config_models import GenerateConfig, SimulateConfig, WorkflowConfig
-def _read_config(path: Path) -> Dict[str, Any]:
-    suf = path.suffix.lower()
-    if suf == ".json":
-        return json.loads(path.read_text(encoding="utf-8"))
-    if suf == ".toml":
-        return tomllib.loads(path.read_text(encoding="utf-8"))
-    raise ValueError(f"Unsupported config format: {path.suffix}. Use .toml or .json")
-def load_generate_config(path: Path) -> GenerateConfig:
-    data = _read_config(path)
-    return GenerateConfig(**data)
-def load_simulate_config(path: Path) -> SimulateConfig:
-    data = _read_config(path)
-    return SimulateConfig(**data)
-def load_workflow_config(path: Path) -> WorkflowConfig:
-    data = _read_config(path)
-    return WorkflowConfig(**data)

court_scheduler_rl.py DELETED Viewed

@@ -1,680 +0,0 @@
-#!/usr/bin/env python3
-"""
-Court Scheduling System - Comprehensive RL Pipeline
-Interactive CLI for 2-year simulation with daily cause list generation
-Designed for Karnataka High Court hackathon submission.
-"""
-import sys
-import json
-import time
-from datetime import date, datetime, timedelta
-from pathlib import Path
-from typing import Dict, Any, Optional, List
-import argparse
-from dataclasses import dataclass, asdict, field
-import typer
-from rich.console import Console
-from rich.progress import Progress, SpinnerColumn, TextColumn, BarColumn, TimeElapsedColumn
-from rich.table import Table
-from rich.panel import Panel
-from rich.text import Text
-from rich.prompt import Prompt, Confirm, IntPrompt, FloatPrompt
-from rich import box
-# Initialize
-console = Console()
-app = typer.Typer(name="court-scheduler-rl", help="Interactive RL Court Scheduling Pipeline")
-@dataclass
-class PipelineConfig:
-    """Complete pipeline configuration"""
-    # Data Generation
-    n_cases: int = 50000
-    start_date: str = "2022-01-01"
-    end_date: str = "2023-12-31"
-    stage_mix: str = "auto"
-    seed: int = 42
-    # RL Training - delegate to RLTrainingConfig
-    rl_training: "RLTrainingConfig" = None  # Will be set in __post_init__
-    # Simulation
-    sim_days: int = 730  # 2 years
-    sim_start_date: Optional[str] = None
-    policies: List[str] = None
-    # Output (no longer user-configurable - managed by OutputManager)
-    generate_cause_lists: bool = True
-    generate_visualizations: bool = True
-    def __post_init__(self):
-        if self.policies is None:
-            self.policies = ["readiness", "rl"]
-        # Import here to avoid circular dependency
-        if self.rl_training is None:
-            from rl.config import DEFAULT_RL_TRAINING_CONFIG
-            self.rl_training = DEFAULT_RL_TRAINING_CONFIG
-class InteractivePipeline:
-    """Interactive pipeline orchestrator"""
-    def __init__(self, config: PipelineConfig, run_id: str = None):
-        self.config = config
-        from scheduler.utils.output_manager import OutputManager
-        self.output = OutputManager(run_id=run_id)
-        self.output.create_structure()
-        self.output.save_config(config)
-    def run(self):
-        """Execute complete pipeline"""
-        console.print(Panel.fit(
-            "[bold blue]Court Scheduling System - RL Pipeline[/bold blue]\n"
-            "[yellow]Karnataka High Court Hackathon Submission[/yellow]",
-            box=box.DOUBLE_EDGE
-        ))
-        try:
-            # Pipeline steps
-            self._step_1_eda()
-            self._step_2_data_generation()
-            self._step_3_rl_training()
-            self._step_4_simulation()
-            self._step_5_cause_lists()
-            self._step_6_analysis()
-            self._step_7_summary()
-        except Exception as e:
-            console.print(f"[bold red]Pipeline Error:[/bold red] {e}")
-            sys.exit(1)
-    def _step_1_eda(self):
-        """Step 1: EDA Pipeline"""
-        console.print("\n[bold cyan]Step 1/7: EDA & Parameter Extraction[/bold cyan]")
-        # Check if EDA was run recently
-        from src import eda_config
-        param_dir = Path("reports/figures").glob("v0.4.0_*/params")
-        recent_params = any(p.exists() and
-                          (datetime.now() - datetime.fromtimestamp(p.stat().st_mtime)).days < 1
-                          for p in param_dir)
-        if recent_params and not Confirm.ask("EDA parameters found. Regenerate?", default=False):
-            console.print("  [green]OK[/green] Using existing EDA parameters")
-            self.output.record_eda_metadata(
-                version=eda_config.VERSION,
-                used_cached=True,
-                params_path=self.output.eda_params,
-                figures_path=self.output.eda_figures,
-            )
-            return
-        with Progress(
-            SpinnerColumn(),
-            TextColumn("[progress.description]{task.description}"),
-            console=console) as progress:
-            task = progress.add_task("Running EDA pipeline...", total=None)
-            # Configure EDA output paths
-            from src.eda_config import set_output_paths
-            set_output_paths(
-                eda_dir=self.output.eda_figures,
-                data_dir=self.output.eda_data,
-                params_dir=self.output.eda_params
-            )
-            from src.eda_load_clean import run_load_and_clean
-            from src.eda_exploration import run_exploration
-            from src.eda_parameters import run_parameter_export
-            run_load_and_clean()
-            run_exploration()
-            run_parameter_export()
-            progress.update(task, completed=True)
-        console.print("  [green]OK[/green] EDA pipeline complete")
-        self.output.record_eda_metadata(
-            version=eda_config.VERSION,
-            used_cached=False,
-            params_path=self.output.eda_params,
-            figures_path=self.output.eda_figures,
-        )
-    def _step_2_data_generation(self):
-        """Step 2: Generate Training Data"""
-        console.print(f"\n[bold cyan]Step 2/7: Data Generation[/bold cyan]")
-        console.print(f"  Generating {self.config.n_cases:,} cases ({self.config.start_date} to {self.config.end_date})")
-        cases_file = self.output.training_cases_file
-        with Progress(
-            SpinnerColumn(),
-            TextColumn("[progress.description]{task.description}"),
-            BarColumn(),
-            console=console) as progress:
-            task = progress.add_task("Generating cases...", total=100)
-            from datetime import date as date_cls
-            from scheduler.data.case_generator import CaseGenerator
-            start = date_cls.fromisoformat(self.config.start_date)
-            end = date_cls.fromisoformat(self.config.end_date)
-            gen = CaseGenerator(start=start, end=end, seed=self.config.seed)
-            cases = gen.generate(self.config.n_cases, stage_mix_auto=True)
-            progress.update(task, advance=50)
-            CaseGenerator.to_csv(cases, cases_file)
-            progress.update(task, completed=100)
-        console.print(f"  [green]OK[/green] Generated {len(cases):,} cases -> {cases_file}")
-        return cases
-    def _step_3_rl_training(self):
-        """Step 3: RL Agent Training"""
-        console.print(f"\n[bold cyan]Step 3/7: RL Training[/bold cyan]")
-        console.print(f"  Episodes: {self.config.rl_training.episodes}, Learning Rate: {self.config.rl_training.learning_rate}")
-        model_file = self.output.trained_model_file
-        def _safe_mean(values: List[float]) -> float:
-            return sum(values) / len(values) if values else 0.0
-        with Progress(
-            SpinnerColumn(),
-            TextColumn("[progress.description]{task.description}"),
-            BarColumn(),
-            TimeElapsedColumn(),
-            console=console) as progress:
-            training_task = progress.add_task("Training RL agent...", total=self.config.rl_training.episodes)
-            # Import training components
-            from rl.training import train_agent
-            from rl.simple_agent import TabularQAgent
-            import pickle
-            # Initialize agent with configured hyperparameters
-            rl_cfg = self.config.rl_training
-            agent = TabularQAgent(
-                learning_rate=rl_cfg.learning_rate,
-                epsilon=rl_cfg.initial_epsilon,
-                discount=rl_cfg.discount_factor
-            )
-            # Training with progress updates
-            # Note: train_agent handles its own progress internally
-            rl_cfg = self.config.rl_training
-            training_stats = train_agent(
-                agent=agent,
-                rl_config=rl_cfg,
-                verbose=False  # Disable internal printing
-            )
-            progress.update(training_task, completed=rl_cfg.episodes)
-            # Save trained agent
-            agent.save(model_file)
-            # Persist training stats for downstream consumers
-            self.output.save_training_stats(training_stats)
-            # Run a lightweight evaluation sweep for summary metrics
-            evaluation_stats = None
-            try:
-                from rl.training import evaluate_agent
-                from scheduler.data.case_generator import CaseGenerator
-                eval_gen = CaseGenerator(
-                    start=date.today(),
-                    end=date.today() + timedelta(days=60),
-                    seed=self.config.seed + 99,
-                )
-                eval_cases = eval_gen.generate(min(rl_cfg.cases_per_episode, 500), stage_mix_auto=True)
-                evaluation_stats = evaluate_agent(
-                    agent=agent,
-                    test_cases=eval_cases,
-                    episodes=5,
-                    episode_length=rl_cfg.episode_length_days,
-                    rl_config=rl_cfg,
-                )
-                self.output.save_evaluation_stats(evaluation_stats)
-            except Exception as eval_err:
-                console.print(f"  [yellow]WARNING[/yellow] Evaluation skipped: {eval_err}")
-            training_summary = {
-                "episodes": rl_cfg.episodes,
-                "cases_per_episode": rl_cfg.cases_per_episode,
-                "episode_length_days": rl_cfg.episode_length_days,
-                "learning_rate": rl_cfg.learning_rate,
-                "epsilon": {
-                    "initial": rl_cfg.initial_epsilon,
-                    "final": agent.epsilon,
-                },
-                "reward": {
-                    "mean": _safe_mean(training_stats.get("total_rewards", [])),
-                    "final": training_stats.get("total_rewards", [0])[-1] if training_stats.get("total_rewards") else 0.0,
-                },
-                "disposal_rate": {
-                    "mean": _safe_mean(training_stats.get("disposal_rates", [])),
-                    "final": training_stats.get("disposal_rates", [0])[-1] if training_stats.get("disposal_rates") else 0.0,
-                },
-                "states_explored_final": training_stats.get("states_explored", [len(agent.q_table)])[-1]
-                if training_stats.get("states_explored")
-                else len(agent.q_table),
-                "q_table_size": len(agent.q_table),
-                "total_updates": getattr(agent, "total_updates", 0),
-            }
-            self.output.record_training_summary(training_summary, evaluation_stats)
-            # Create symlink in models/ for backwards compatibility
-            self.output.create_model_symlink()
-        console.print(f"  [green]OK[/green] Training complete -> {model_file}")
-        console.print(f"  [green]OK[/green] Model symlink: models/latest.pkl")
-        console.print(f"  [green]OK[/green] Final epsilon: {agent.epsilon:.4f}, States explored: {len(agent.q_table)}")
-        # Store model path for simulation step
-        self.trained_model_path = model_file
-    def _step_4_simulation(self):
-        """Step 4: 2-Year Simulation"""
-        console.print(f"\n[bold cyan]Step 4/7: 2-Year Simulation[/bold cyan]")
-        console.print(f"  Duration: {self.config.sim_days} days ({self.config.sim_days/365:.1f} years)")
-        # Load cases
-        cases_file = self.output.training_cases_file
-        from scheduler.data.case_generator import CaseGenerator
-        cases = CaseGenerator.from_csv(cases_file)
-        sim_start = date.fromisoformat(self.config.sim_start_date) if self.config.sim_start_date else max(c.filed_date for c in cases)
-        # Run simulations for each policy
-        results = {}
-        for policy in self.config.policies:
-            console.print(f"\n  Running {policy} policy simulation...")
-            policy_dir = self.output.get_policy_dir(policy)
-            policy_dir.mkdir(exist_ok=True)
-            # CRITICAL: Deep copy cases for each simulation to prevent state pollution
-            # Cases are mutated during simulation (status, hearing_count, disposal_date)
-            from copy import deepcopy
-            policy_cases = deepcopy(cases)
-            with Progress(
-                SpinnerColumn(),
-                TextColumn(f"[progress.description]Simulating {policy}..."),
-                BarColumn(),
-                console=console) as progress:
-                task = progress.add_task("Simulating...", total=100)
-                from scheduler.simulation.engine import CourtSim, CourtSimConfig
-                # Prepare config with RL model path if needed
-                cfg_kwargs = {
-                    "start": sim_start,
-                    "days": self.config.sim_days,
-                    "seed": self.config.seed,
-                    "policy": policy,
-                    "duration_percentile": "median",
-                    "log_dir": policy_dir,
-                }
-                # Add RL agent path for RL policy
-                if policy == "rl" and hasattr(self, 'trained_model_path'):
-                    cfg_kwargs["rl_agent_path"] = self.trained_model_path
-                cfg = CourtSimConfig(**cfg_kwargs)
-                sim = CourtSim(cfg, policy_cases)
-                result = sim.run()
-                progress.update(task, completed=100)
-                results[policy] = {
-                    'result': result,
-                    'cases': policy_cases,  # Use the deep-copied cases for this simulation
-                    'sim': sim,
-                    'dir': policy_dir
-                }
-            console.print(f"    [green]OK[/green] {result.disposals:,} disposals ({result.disposals/len(cases):.1%})")
-            allocator_stats = sim.allocator.get_utilization_stats()
-            backlog = sum(1 for c in policy_cases if not c.is_disposed)
-            kpis = {
-                "policy": policy,
-                "disposals": result.disposals,
-                "disposal_rate": result.disposals / len(policy_cases),
-                "utilization": result.utilization,
-                "hearings_total": result.hearings_total,
-                "hearings_heard": result.hearings_heard,
-                "hearings_adjourned": result.hearings_adjourned,
-                "backlog": backlog,
-                "backlog_rate": backlog / len(policy_cases) if policy_cases else 0,
-                "fairness_gini": allocator_stats.get("load_balance_gini"),
-                "avg_daily_load": allocator_stats.get("avg_daily_load"),
-                "capacity_rejections": allocator_stats.get("capacity_rejections"),
-            }
-            self.output.record_simulation_kpis(policy, kpis)
-        self.sim_results = results
-        console.print(f"  [green]OK[/green] All simulations complete")
-    def _step_5_cause_lists(self):
-        """Step 5: Daily Cause List Generation"""
-        if not self.config.generate_cause_lists:
-            console.print("\n[bold cyan]Step 5/7: Cause Lists[/bold cyan] [dim](skipped)[/dim]")
-            return
-        console.print(f"\n[bold cyan]Step 5/7: Daily Cause List Generation[/bold cyan]")
-        for policy, data in self.sim_results.items():
-            console.print(f"  Generating cause lists for {policy} policy...")
-            with Progress(
-                SpinnerColumn(),
-                TextColumn("[progress.description]{task.description}"),
-                console=console) as progress:
-                task = progress.add_task("Generating cause lists...", total=None)
-                from scheduler.output.cause_list import CauseListGenerator
-                events_file = data['dir'] / "events.csv"
-                if events_file.exists():
-                    output_dir = data['dir'] / "cause_lists"
-                    generator = CauseListGenerator(events_file)
-                    cause_list_file = generator.generate_daily_lists(output_dir)
-                    console.print(f"    [green]OK[/green] Generated -> {cause_list_file}")
-                else:
-                    console.print(f"    [yellow]WARNING[/yellow] No events file found for {policy}")
-                progress.update(task, completed=True)
-    def _step_6_analysis(self):
-        """Step 6: Performance Analysis"""
-        console.print(f"\n[bold cyan]Step 6/7: Performance Analysis[/bold cyan]")
-        with Progress(
-            SpinnerColumn(),
-            TextColumn("[progress.description]{task.description}"),
-            console=console) as progress:
-            task = progress.add_task("Analyzing results...", total=None)
-            # Generate comparison report
-            self._generate_comparison_report()
-            # Generate visualizations if requested
-            if self.config.generate_visualizations:
-                self._generate_visualizations()
-            progress.update(task, completed=True)
-        console.print("  [green]OK[/green] Analysis complete")
-    def _step_7_summary(self):
-        """Step 7: Executive Summary"""
-        console.print(f"\n[bold cyan]Step 7/7: Executive Summary[/bold cyan]")
-        summary = self._generate_executive_summary()
-        # Save summary
-        summary_file = self.output.executive_summary_file
-        with open(summary_file, 'w') as f:
-            f.write(summary)
-        # Display key metrics
-        table = Table(title="Hackathon Submission Results", box=box.ROUNDED)
-        table.add_column("Metric", style="bold")
-        table.add_column("RL Agent", style="green")
-        table.add_column("Baseline", style="blue")
-        table.add_column("Improvement", style="magenta")
-        if "rl" in self.sim_results and "readiness" in self.sim_results:
-            rl_result = self.sim_results["rl"]["result"]
-            baseline_result = self.sim_results["readiness"]["result"]
-            rl_disposal_rate = rl_result.disposals / len(self.sim_results["rl"]["cases"])
-            baseline_disposal_rate = baseline_result.disposals / len(self.sim_results["readiness"]["cases"])
-            table.add_row(
-                "Disposal Rate",
-                f"{rl_disposal_rate:.1%}",
-                f"{baseline_disposal_rate:.1%}",
-                f"{((rl_disposal_rate - baseline_disposal_rate) / baseline_disposal_rate * 100):+.2f}%"
-            )
-            table.add_row(
-                "Cases Disposed",
-                f"{rl_result.disposals:,}",
-                f"{baseline_result.disposals:,}",
-                f"{rl_result.disposals - baseline_result.disposals:+,}"
-            )
-            table.add_row(
-                "Utilization",
-                f"{rl_result.utilization:.1%}",
-                f"{baseline_result.utilization:.1%}",
-                f"{((rl_result.utilization - baseline_result.utilization) / baseline_result.utilization * 100):+.2f}%"
-            )
-        console.print(table)
-        console.print(Panel.fit(
-            f"[bold green]Pipeline Complete![/bold green]\n\n"
-            f"Results: {self.output.run_dir}/\n"
-            f"Executive Summary: {summary_file}\n"
-            f"Visualizations: {self.output.visualizations_dir}/\n"
-            f"Cause Lists: {self.output.simulation_dir}/*/cause_lists/\n\n"
-            f"[yellow]Ready for hackathon submission![/yellow]",
-            box=box.DOUBLE_EDGE
-        ))
-    def _generate_comparison_report(self):
-        """Generate detailed comparison report"""
-        report_file = self.output.comparison_report_file
-        with open(report_file, 'w') as f:
-            f.write("# Court Scheduling System - Performance Comparison\n\n")
-            f.write(f"Generated: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n\n")
-            f.write("## Configuration\n\n")
-            f.write(f"- Training Cases: {self.config.n_cases:,}\n")
-            f.write(f"- Simulation Period: {self.config.sim_days} days ({self.config.sim_days/365:.1f} years)\n")
-            f.write(f"- RL Episodes: {self.config.rl_training.episodes}\n")
-            f.write(f"- RL Learning Rate: {self.config.rl_training.learning_rate}\n")
-            f.write(f"- RL Epsilon: {self.config.rl_training.initial_epsilon}\n")
-            f.write(f"- Policies Compared: {', '.join(self.config.policies)}\n\n")
-            f.write("## Results Summary\n\n")
-            f.write("| Policy | Disposals | Disposal Rate | Utilization | Avg Hearings/Day |\n")
-            f.write("|--------|-----------|---------------|-------------|------------------|\n")
-            for policy, data in self.sim_results.items():
-                result = data['result']
-                cases = data['cases']
-                disposal_rate = result.disposals / len(cases)
-                hearings_per_day = result.hearings_total / self.config.sim_days
-                f.write(f"| {policy.title()} | {result.disposals:,} | {disposal_rate:.1%} | {result.utilization:.1%} | {hearings_per_day:.1f} |\n")
-    def _generate_visualizations(self):
-        """Generate performance visualizations"""
-        viz_dir = self.output.visualizations_dir
-        viz_dir.mkdir(exist_ok=True)
-        # This would generate charts comparing policies
-        # For now, we'll create placeholder
-        with open(viz_dir / "performance_charts.md", 'w') as f:
-            f.write("# Performance Visualizations\n\n")
-            f.write("Generated charts showing:\n")
-            f.write("- Daily disposal rates\n")
-            f.write("- Court utilization over time\n")
-            f.write("- Case type performance\n")
-            f.write("- Load balancing effectiveness\n")
-    def _generate_executive_summary(self) -> str:
-        """Generate executive summary for hackathon submission"""
-        if "rl" not in self.sim_results:
-            return "# Executive Summary\n\nSimulation completed successfully."
-        rl_data = self.sim_results["rl"]
-        result = rl_data["result"]
-        cases = rl_data["cases"]
-        disposal_rate = result.disposals / len(cases)
-        summary = f"""# Court Scheduling System - Executive Summary
-## Hackathon Submission: Karnataka High Court
-### System Overview
-This intelligent court scheduling system uses Reinforcement Learning to optimize case allocation and improve judicial efficiency. The system was evaluated using a comprehensive 2-year simulation with {len(cases):,} real cases.
-### Key Achievements
-**{disposal_rate:.1%} Case Disposal Rate** - Significantly improved case clearance
-**{result.utilization:.1%} Court Utilization** - Optimal resource allocation
-**{result.hearings_total:,} Hearings Scheduled** - Over {self.config.sim_days} days
-**AI-Powered Decisions** - Reinforcement learning with {self.config.rl_training.episodes} training episodes
-### Technical Innovation
-- **Reinforcement Learning**: Tabular Q-learning with 6D state space
-- **Real-time Adaptation**: Dynamic policy adjustment based on case characteristics
-- **Multi-objective Optimization**: Balances disposal rate, fairness, and utilization
-- **Production Ready**: Generates daily cause lists for immediate deployment
-### Impact Metrics
-- **Cases Disposed**: {result.disposals:,} out of {len(cases):,}
-- **Average Hearings per Day**: {result.hearings_total/self.config.sim_days:.1f}
-- **System Scalability**: Handles 50,000+ case simulations efficiently
-- **Judicial Time Saved**: Estimated {(result.utilization * self.config.sim_days):.0f} productive court days
-### Deployment Readiness
-**Daily Cause Lists**: Automated generation for {self.config.sim_days} days
-**Performance Monitoring**: Comprehensive metrics and analytics
-**Judicial Override**: Complete control system for judge approval
-**Multi-courtroom Support**: Load-balanced allocation across courtrooms
-### Next Steps
-1. **Pilot Deployment**: Begin with select courtrooms for validation
-2. **Judge Training**: Familiarization with AI-assisted scheduling
-3. **Performance Monitoring**: Track real-world improvement metrics
-4. **System Expansion**: Scale to additional court complexes
----
-**Generated**: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
-**System Version**: 2.0 (Hackathon Submission)
-**Contact**: Karnataka High Court Digital Innovation Team
-"""
-        return summary
-def get_interactive_config() -> PipelineConfig:
-    """Get configuration through interactive prompts"""
-    console.print("[bold blue]Interactive Pipeline Configuration[/bold blue]\n")
-    # Data Generation
-    console.print("[bold]Data Generation[/bold]")
-    n_cases = IntPrompt.ask("Number of cases to generate", default=50000)
-    start_date = Prompt.ask("Start date (YYYY-MM-DD)", default="2022-01-01")
-    end_date = Prompt.ask("End date (YYYY-MM-DD)", default="2023-12-31")
-    # RL Training
-    console.print("\n[bold]RL Training[/bold]")
-    from rl.config import RLTrainingConfig
-    episodes = IntPrompt.ask("Training episodes", default=100)
-    learning_rate = FloatPrompt.ask("Learning rate", default=0.15)
-    rl_training_config = RLTrainingConfig(
-        episodes=episodes,
-        learning_rate=learning_rate)
-    # Simulation
-    console.print("\n[bold]Simulation[/bold]")
-    sim_days = IntPrompt.ask("Simulation days (730 = 2 years)", default=730)
-    policies = ["readiness", "rl"]
-    if Confirm.ask("Include additional policies? (FIFO, Age)", default=False):
-        policies.extend(["fifo", "age"])
-    # Output
-    console.print("\n[bold]Output Options[/bold]")
-    generate_cause_lists = Confirm.ask("Generate daily cause lists?", default=True)
-    generate_visualizations = Confirm.ask("Generate performance visualizations?", default=True)
-    return PipelineConfig(
-        n_cases=n_cases,
-        start_date=start_date,
-        end_date=end_date,
-        rl_training=rl_training_config,
-        sim_days=sim_days,
-        policies=policies,
-        generate_cause_lists=generate_cause_lists,
-        generate_visualizations=generate_visualizations)
-@app.command()
-def interactive():
-    """Run interactive pipeline configuration and execution"""
-    config = get_interactive_config()
-    # Confirm configuration
-    console.print(f"\n[bold yellow]Configuration Summary:[/bold yellow]")
-    console.print(f"  Cases: {config.n_cases:,}")
-    console.print(f"  Period: {config.start_date} to {config.end_date}")
-    console.print(f"  RL Episodes: {config.rl_training.episodes}")
-    console.print(f"  RL Learning Rate: {config.rl_training.learning_rate}")
-    console.print(f"  Simulation: {config.sim_days} days")
-    console.print(f"  Policies: {', '.join(config.policies)}")
-    console.print(f"  Output: outputs/runs/run_<timestamp>/")
-    if not Confirm.ask("\nProceed with this configuration?", default=True):
-        console.print("Cancelled.")
-        return
-    # Execute pipeline (OutputManager handles output structure)
-    pipeline = InteractivePipeline(config)
-    start_time = time.time()
-    console.print(f"\n[dim]Run directory: {pipeline.output.run_dir}[/dim]\n")
-    pipeline.run()
-    elapsed = time.time() - start_time
-    console.print(f"\n[green]Pipeline completed in {elapsed/60:.1f} minutes[/green]")
-@app.command()
-def quick():
-    """Run quick demo with default parameters"""
-    console.print("[bold blue]Quick Demo Pipeline[/bold blue]\n")
-    from rl.config import QUICK_DEMO_RL_CONFIG
-    config = PipelineConfig(
-        n_cases=10000,
-        rl_training=QUICK_DEMO_RL_CONFIG,
-        sim_days=90)
-    pipeline = InteractivePipeline(config)
-    pipeline.run()
-if __name__ == "__main__":
-    app()

main.py DELETED Viewed

@@ -1,11 +0,0 @@
-#!/usr/bin/env python
-"""Main entry point for Court Scheduling System.
-This file provides the primary entry point for the project.
-It invokes the CLI which provides all scheduling system operations.
-"""
-from court_scheduler.cli import main
-if __name__ == "__main__":
-    main()

pyproject.toml CHANGED Viewed

@@ -35,7 +35,7 @@ dev = [
 ]
 [project.scripts]
-court-scheduler = "court_scheduler.cli:app"
 [build-system]
 requires = ["hatchling"]

 ]
 [project.scripts]
+court-scheduler = "cli.main:app"
 [build-system]
 requires = ["hatchling"]

rl/training.py CHANGED Viewed

@@ -11,6 +11,7 @@ from datetime import date, datetime, timedelta
 import random
 from scheduler.data.case_generator import CaseGenerator
 from scheduler.core.case import Case, CaseStatus
 from scheduler.core.algorithm import SchedulingAlgorithm
 from scheduler.core.courtroom import Courtroom
@@ -38,6 +39,7 @@ class RLTrainingEnvironment:
         horizon_days: int = 90,
         rl_config: RLTrainingConfig | None = None,
         policy_config: PolicyConfig | None = None,
     ):
         """Initialize training environment.
@@ -47,6 +49,7 @@ class RLTrainingEnvironment:
             horizon_days: Training episode length in days
             rl_config: RL-specific training constraints
             policy_config: Policy knobs for ripeness/gap rules
         """
         self.cases = cases
         self.start_date = start_date
@@ -56,6 +59,7 @@ class RLTrainingEnvironment:
         self.rl_config = rl_config or DEFAULT_RL_TRAINING_CONFIG
         self.policy_config = policy_config or DEFAULT_POLICY_CONFIG
         self.reward_helper = EpisodeRewardHelper(total_cases=len(cases))
         # Resources mirroring production defaults
         self.courtrooms = [
@@ -193,49 +197,71 @@ class RLTrainingEnvironment:
         return self.cases, rewards, episode_done
     def _simulate_hearing_outcome(self, case: Case) -> str:
-        """Simulate hearing outcome based on stage and case characteristics."""
-        # Simplified outcome simulation
         current_stage = case.current_stage
-        # Terminal stages - high disposal probability
         if current_stage in ["ORDERS / JUDGMENT", "FINAL DISPOSAL"]:
-            if random.random() < 0.7:  # 70% chance of disposal
-                return "FINAL DISPOSAL"
-            else:
-                return "ADJOURNED"
-        # Early stages more likely to adjourn
-        if current_stage in ["PRE-ADMISSION", "ADMISSION"]:
-            if random.random() < 0.6:  # 60% adjournment rate
-                return "ADJOURNED"
-            else:
-                # Progress to next logical stage
-                if current_stage == "PRE-ADMISSION":
-                    return "ADMISSION"
-                else:
-                    return "EVIDENCE"
-        # Mid-stages
-        if current_stage in ["EVIDENCE", "ARGUMENTS"]:
-            if random.random() < 0.4:  # 40% adjournment rate
-                return "ADJOURNED"
-            else:
-                if current_stage == "EVIDENCE":
-                    return "ARGUMENTS"
-                else:
-                    return "ORDERS / JUDGMENT"
-        # Default progression
-        return "ARGUMENTS"
 def train_agent(
     agent: TabularQAgent,
     rl_config: RLTrainingConfig = DEFAULT_RL_TRAINING_CONFIG,
     policy_config: PolicyConfig = DEFAULT_POLICY_CONFIG,
     verbose: bool = True,
 ) -> Dict:
-    """Train RL agent using episodic simulation with courtroom constraints."""
     config = rl_config or DEFAULT_RL_TRAINING_CONFIG
     policy_cfg = policy_config or DEFAULT_POLICY_CONFIG
@@ -274,6 +300,7 @@ def train_agent(
             config.episode_length_days,
             rl_config=config,
             policy_config=policy_cfg,
         )
         # Reset environment
@@ -373,8 +400,19 @@ def evaluate_agent(
     episode_length: Optional[int] = None,
     rl_config: RLTrainingConfig = DEFAULT_RL_TRAINING_CONFIG,
     policy_config: PolicyConfig = DEFAULT_POLICY_CONFIG,
 ) -> Dict:
-    """Evaluate trained agent performance."""
     # Set agent to evaluation mode (no exploration)
     original_epsilon = agent.epsilon
     agent.epsilon = 0.0
@@ -404,6 +442,7 @@ def evaluate_agent(
             eval_length,
             rl_config=config,
             policy_config=policy_cfg,
         )
         episode_cases = env.reset()

 import random
 from scheduler.data.case_generator import CaseGenerator
+from scheduler.data.param_loader import ParameterLoader
 from scheduler.core.case import Case, CaseStatus
 from scheduler.core.algorithm import SchedulingAlgorithm
 from scheduler.core.courtroom import Courtroom
         horizon_days: int = 90,
         rl_config: RLTrainingConfig | None = None,
         policy_config: PolicyConfig | None = None,
+        params_dir: Optional[Path] = None,
     ):
         """Initialize training environment.
             horizon_days: Training episode length in days
             rl_config: RL-specific training constraints
             policy_config: Policy knobs for ripeness/gap rules
+            params_dir: Directory with EDA parameters (uses latest if None)
         """
         self.cases = cases
         self.start_date = start_date
         self.rl_config = rl_config or DEFAULT_RL_TRAINING_CONFIG
         self.policy_config = policy_config or DEFAULT_POLICY_CONFIG
         self.reward_helper = EpisodeRewardHelper(total_cases=len(cases))
+        self.param_loader = ParameterLoader(params_dir)
         # Resources mirroring production defaults
         self.courtrooms = [
         return self.cases, rewards, episode_done
     def _simulate_hearing_outcome(self, case: Case) -> str:
+        """Simulate hearing outcome using EDA-derived parameters.
+        Uses param_loader for adjournment probabilities and stage transitions
+        instead of hardcoded values, ensuring training aligns with production.
+        """
         current_stage = case.current_stage
+        case_type = case.case_type
+        # Query EDA-derived adjournment probability
+        p_adjourn = self.param_loader.get_adjournment_prob(current_stage, case_type)
+        # Sample adjournment
+        if random.random() < p_adjourn:
+            return "ADJOURNED"
+        # Case progresses - determine next stage using EDA-derived transitions
+        # Terminal stages lead to disposal
         if current_stage in ["ORDERS / JUDGMENT", "FINAL DISPOSAL"]:
+            return "FINAL DISPOSAL"
+        # Sample next stage using cumulative transition probabilities
+        transitions = self.param_loader.get_stage_transitions_fast(current_stage)
+        if not transitions:
+            # No transition data - use fallback progression
+            return self._fallback_stage_progression(current_stage)
+        # Sample from cumulative probabilities
+        rand_val = random.random()
+        for next_stage, cum_prob in transitions:
+            if rand_val <= cum_prob:
+                return next_stage
+        # Fallback if sampling fails (shouldn't happen with normalized probs)
+        return transitions[-1][0] if transitions else current_stage
+    def _fallback_stage_progression(self, current_stage: str) -> str:
+        """Fallback stage progression when no transition data available."""
+        progression_map = {
+            "PRE-ADMISSION": "ADMISSION",
+            "ADMISSION": "EVIDENCE",
+            "FRAMING OF CHARGES": "EVIDENCE",
+            "EVIDENCE": "ARGUMENTS",
+            "ARGUMENTS": "ORDERS / JUDGMENT",
+            "INTERLOCUTORY APPLICATION": "ARGUMENTS",
+            "SETTLEMENT": "FINAL DISPOSAL",
+        }
+        return progression_map.get(current_stage, "ARGUMENTS")
 def train_agent(
     agent: TabularQAgent,
     rl_config: RLTrainingConfig = DEFAULT_RL_TRAINING_CONFIG,
     policy_config: PolicyConfig = DEFAULT_POLICY_CONFIG,
+    params_dir: Optional[Path] = None,
     verbose: bool = True,
 ) -> Dict:
+    """Train RL agent using episodic simulation with courtroom constraints.
+    Args:
+        agent: TabularQAgent to train
+        rl_config: RL training configuration
+        policy_config: Policy configuration
+        params_dir: Directory with EDA parameters (uses latest if None)
+        verbose: Print training progress
+    """
     config = rl_config or DEFAULT_RL_TRAINING_CONFIG
     policy_cfg = policy_config or DEFAULT_POLICY_CONFIG
             config.episode_length_days,
             rl_config=config,
             policy_config=policy_cfg,
+            params_dir=params_dir,
         )
         # Reset environment
     episode_length: Optional[int] = None,
     rl_config: RLTrainingConfig = DEFAULT_RL_TRAINING_CONFIG,
     policy_config: PolicyConfig = DEFAULT_POLICY_CONFIG,
+    params_dir: Optional[Path] = None,
 ) -> Dict:
+    """Evaluate trained agent performance.
+    Args:
+        agent: Trained TabularQAgent to evaluate
+        test_cases: Cases to evaluate on
+        episodes: Number of evaluation episodes (default 10)
+        episode_length: Length of each episode in days
+        rl_config: RL configuration
+        policy_config: Policy configuration
+        params_dir: Directory with EDA parameters (uses latest if None)
+    """
     # Set agent to evaluation mode (no exploration)
     original_epsilon = agent.epsilon
     agent.epsilon = 0.0
             eval_length,
             rl_config=config,
             policy_config=policy_cfg,
+            params_dir=params_dir,
         )
         episode_cases = env.reset()

scheduler/core/ripeness.py CHANGED Viewed

@@ -53,7 +53,10 @@ RIPE_KEYWORDS = ["ARGUMENTS", "HEARING", "FINAL", "JUDGMENT", "ORDERS", "DISPOSA
 class RipenessClassifier:
-    """Classify cases as RIPE or UNRIPE for scheduling optimization."""
     # Stages that indicate case is ready for substantive hearing
     RIPE_STAGES = [
@@ -72,6 +75,7 @@ class RipenessClassifier:
     ]
     # Minimum evidence thresholds before declaring a case RIPE
     MIN_SERVICE_HEARINGS = 1  # At least one hearing to confirm service/compliance
     MIN_STAGE_DAYS = 7  # Time spent in current stage to show compliance efforts
     MIN_CASE_AGE_DAYS = 14  # Minimum maturity before assuming readiness
@@ -262,3 +266,30 @@ class RipenessClassifier:
         }
         return estimates.get(ripeness, None)

 class RipenessClassifier:
+    """Classify cases as RIPE or UNRIPE for scheduling optimization.
+    Thresholds can be adjusted dynamically based on accuracy feedback.
+    """
     # Stages that indicate case is ready for substantive hearing
     RIPE_STAGES = [
     ]
     # Minimum evidence thresholds before declaring a case RIPE
+    # These can be adjusted via set_thresholds() for calibration
     MIN_SERVICE_HEARINGS = 1  # At least one hearing to confirm service/compliance
     MIN_STAGE_DAYS = 7  # Time spent in current stage to show compliance efforts
     MIN_CASE_AGE_DAYS = 14  # Minimum maturity before assuming readiness
         }
         return estimates.get(ripeness, None)
+    @classmethod
+    def set_thresholds(cls, new_thresholds: dict[str, int | float]) -> None:
+        """Update classification thresholds for calibration.
+        Args:
+            new_thresholds: Dictionary with threshold names and values
+                           e.g., {"MIN_SERVICE_HEARINGS": 2, "MIN_STAGE_DAYS": 5}
+        """
+        for threshold_name, value in new_thresholds.items():
+            if hasattr(cls, threshold_name):
+                setattr(cls, threshold_name, int(value))
+            else:
+                raise ValueError(f"Unknown threshold: {threshold_name}")
+    @classmethod
+    def get_current_thresholds(cls) -> dict[str, int]:
+        """Get current threshold values.
+        Returns:
+            Dictionary of threshold names and values
+        """
+        return {
+            "MIN_SERVICE_HEARINGS": cls.MIN_SERVICE_HEARINGS,
+            "MIN_STAGE_DAYS": cls.MIN_STAGE_DAYS,
+            "MIN_CASE_AGE_DAYS": cls.MIN_CASE_AGE_DAYS,
+        }

scheduler/monitoring/__init__.py ADDED Viewed

	@@ -0,0 +1,11 @@

+"""Monitoring and feedback loop components."""
+from scheduler.monitoring.ripeness_metrics import RipenessMetrics, RipenessPrediction
+from scheduler.monitoring.ripeness_calibrator import RipenessCalibrator, ThresholdAdjustment
+__all__ = [
+    "RipenessMetrics",
+    "RipenessPrediction",
+    "RipenessCalibrator",
+    "ThresholdAdjustment",
+]

scheduler/monitoring/ripeness_calibrator.py ADDED Viewed

	@@ -0,0 +1,279 @@

+"""Ripeness classifier calibration based on accuracy metrics.
+Analyzes classification performance and suggests threshold adjustments
+to improve accuracy over time.
+"""
+from __future__ import annotations
+from dataclasses import dataclass
+from typing import Optional
+from scheduler.monitoring.ripeness_metrics import RipenessMetrics
+@dataclass
+class ThresholdAdjustment:
+    """Suggested threshold adjustment with reasoning."""
+    threshold_name: str
+    current_value: int | float
+    suggested_value: int | float
+    reason: str
+    confidence: str  # "high", "medium", "low"
+class RipenessCalibrator:
+    """Analyzes ripeness metrics and suggests threshold calibration."""
+    # Calibration rules thresholds
+    HIGH_FALSE_POSITIVE_THRESHOLD = 0.20
+    HIGH_FALSE_NEGATIVE_THRESHOLD = 0.15
+    LOW_UNKNOWN_THRESHOLD = 0.05
+    LOW_RIPE_PRECISION_THRESHOLD = 0.70
+    LOW_UNRIPE_RECALL_THRESHOLD = 0.60
+    @classmethod
+    def analyze_metrics(
+        cls,
+        metrics: RipenessMetrics,
+        current_thresholds: Optional[dict[str, int | float]] = None,
+    ) -> list[ThresholdAdjustment]:
+        """Analyze metrics and suggest threshold adjustments.
+        Args:
+            metrics: RipenessMetrics with classification history
+            current_thresholds: Current threshold values (optional)
+        Returns:
+            List of suggested adjustments with reasoning
+        """
+        accuracy = metrics.get_accuracy_metrics()
+        adjustments: list[ThresholdAdjustment] = []
+        # Default current thresholds if not provided
+        if current_thresholds is None:
+            from scheduler.core.ripeness import RipenessClassifier
+            current_thresholds = {
+                "MIN_SERVICE_HEARINGS": RipenessClassifier.MIN_SERVICE_HEARINGS,
+                "MIN_STAGE_DAYS": RipenessClassifier.MIN_STAGE_DAYS,
+                "MIN_CASE_AGE_DAYS": RipenessClassifier.MIN_CASE_AGE_DAYS,
+            }
+        # Check if we have enough data
+        if accuracy["completed_predictions"] < 50:
+            print("Warning: Insufficient data for calibration (need at least 50 predictions)")
+            return adjustments
+        # Rule 1: High false positive rate → increase MIN_SERVICE_HEARINGS
+        if accuracy["false_positive_rate"] > cls.HIGH_FALSE_POSITIVE_THRESHOLD:
+            current_hearings = current_thresholds.get("MIN_SERVICE_HEARINGS", 1)
+            suggested_hearings = current_hearings + 1
+            adjustments.append(ThresholdAdjustment(
+                threshold_name="MIN_SERVICE_HEARINGS",
+                current_value=current_hearings,
+                suggested_value=suggested_hearings,
+                reason=(
+                    f"False positive rate {accuracy['false_positive_rate']:.1%} exceeds "
+                    f"{cls.HIGH_FALSE_POSITIVE_THRESHOLD:.0%}. Cases marked RIPE are adjourning. "
+                    f"Require more hearings as evidence of readiness."
+                ),
+                confidence="high",
+            ))
+        # Rule 2: High false negative rate → decrease MIN_STAGE_DAYS
+        if accuracy["false_negative_rate"] > cls.HIGH_FALSE_NEGATIVE_THRESHOLD:
+            current_days = current_thresholds.get("MIN_STAGE_DAYS", 7)
+            suggested_days = max(3, current_days - 2)  # Don't go below 3 days
+            adjustments.append(ThresholdAdjustment(
+                threshold_name="MIN_STAGE_DAYS",
+                current_value=current_days,
+                suggested_value=suggested_days,
+                reason=(
+                    f"False negative rate {accuracy['false_negative_rate']:.1%} exceeds "
+                    f"{cls.HIGH_FALSE_NEGATIVE_THRESHOLD:.0%}. UNRIPE cases are progressing. "
+                    f"Relax stage maturity requirement."
+                ),
+                confidence="medium",
+            ))
+        # Rule 3: Low UNKNOWN rate → system too confident, add uncertainty
+        if accuracy["unknown_rate"] < cls.LOW_UNKNOWN_THRESHOLD:
+            current_age = current_thresholds.get("MIN_CASE_AGE_DAYS", 14)
+            suggested_age = current_age + 7
+            adjustments.append(ThresholdAdjustment(
+                threshold_name="MIN_CASE_AGE_DAYS",
+                current_value=current_age,
+                suggested_value=suggested_age,
+                reason=(
+                    f"UNKNOWN rate {accuracy['unknown_rate']:.1%} below "
+                    f"{cls.LOW_UNKNOWN_THRESHOLD:.0%}. System is overconfident. "
+                    f"Increase case age requirement to add uncertainty for immature cases."
+                ),
+                confidence="medium",
+            ))
+        # Rule 4: Low RIPE precision → more conservative RIPE classification
+        if accuracy["ripe_precision"] < cls.LOW_RIPE_PRECISION_THRESHOLD:
+            current_hearings = current_thresholds.get("MIN_SERVICE_HEARINGS", 1)
+            suggested_hearings = current_hearings + 1
+            adjustments.append(ThresholdAdjustment(
+                threshold_name="MIN_SERVICE_HEARINGS",
+                current_value=current_hearings,
+                suggested_value=suggested_hearings,
+                reason=(
+                    f"RIPE precision {accuracy['ripe_precision']:.1%} below "
+                    f"{cls.LOW_RIPE_PRECISION_THRESHOLD:.0%}. Too many RIPE predictions fail. "
+                    f"Be more conservative in marking cases RIPE."
+                ),
+                confidence="high",
+            ))
+        # Rule 5: Low UNRIPE recall → missing bottlenecks
+        if accuracy["unripe_recall"] < cls.LOW_UNRIPE_RECALL_THRESHOLD:
+            current_days = current_thresholds.get("MIN_STAGE_DAYS", 7)
+            suggested_days = current_days + 3
+            adjustments.append(ThresholdAdjustment(
+                threshold_name="MIN_STAGE_DAYS",
+                current_value=current_days,
+                suggested_value=suggested_days,
+                reason=(
+                    f"UNRIPE recall {accuracy['unripe_recall']:.1%} below "
+                    f"{cls.LOW_UNRIPE_RECALL_THRESHOLD:.0%}. Missing many bottlenecks. "
+                    f"Increase stage maturity requirement to catch more unripe cases."
+                ),
+                confidence="medium",
+            ))
+        # Deduplicate adjustments (same threshold suggested multiple times)
+        deduplicated = cls._deduplicate_adjustments(adjustments)
+        return deduplicated
+    @classmethod
+    def _deduplicate_adjustments(
+        cls, adjustments: list[ThresholdAdjustment]
+    ) -> list[ThresholdAdjustment]:
+        """Deduplicate adjustments for same threshold, prefer high confidence."""
+        threshold_map: dict[str, ThresholdAdjustment] = {}
+        for adj in adjustments:
+            if adj.threshold_name not in threshold_map:
+                threshold_map[adj.threshold_name] = adj
+            else:
+                # Keep adjustment with higher confidence or larger change
+                existing = threshold_map[adj.threshold_name]
+                confidence_order = {"high": 3, "medium": 2, "low": 1}
+                if confidence_order[adj.confidence] > confidence_order[existing.confidence]:
+                    threshold_map[adj.threshold_name] = adj
+                elif confidence_order[adj.confidence] == confidence_order[existing.confidence]:
+                    # Same confidence - keep larger adjustment magnitude
+                    existing_delta = abs(existing.suggested_value - existing.current_value)
+                    new_delta = abs(adj.suggested_value - adj.current_value)
+                    if new_delta > existing_delta:
+                        threshold_map[adj.threshold_name] = adj
+        return list(threshold_map.values())
+    @classmethod
+    def generate_calibration_report(
+        cls,
+        metrics: RipenessMetrics,
+        adjustments: list[ThresholdAdjustment],
+        output_path: str | None = None,
+    ) -> str:
+        """Generate human-readable calibration report.
+        Args:
+            metrics: RipenessMetrics with classification history
+            adjustments: List of suggested adjustments
+            output_path: Optional file path to save report
+        Returns:
+            Report text
+        """
+        accuracy = metrics.get_accuracy_metrics()
+        lines = [
+            "Ripeness Classifier Calibration Report",
+            "=" * 70,
+            "",
+            "Current Performance:",
+            f"  Total predictions: {accuracy['total_predictions']}",
+            f"  Completed: {accuracy['completed_predictions']}",
+            f"  False positive rate: {accuracy['false_positive_rate']:.1%}",
+            f"  False negative rate: {accuracy['false_negative_rate']:.1%}",
+            f"  UNKNOWN rate: {accuracy['unknown_rate']:.1%}",
+            f"  RIPE precision: {accuracy['ripe_precision']:.1%}",
+            f"  UNRIPE recall: {accuracy['unripe_recall']:.1%}",
+            "",
+        ]
+        if not adjustments:
+            lines.extend([
+                "Recommended Adjustments:",
+                "  No adjustments needed - performance is within acceptable ranges.",
+                "",
+                "Current thresholds are performing well. Continue monitoring.",
+            ])
+        else:
+            lines.extend([
+                "Recommended Adjustments:",
+                "",
+            ])
+            for i, adj in enumerate(adjustments, 1):
+                lines.extend([
+                    f"{i}. {adj.threshold_name}",
+                    f"   Current: {adj.current_value}",
+                    f"   Suggested: {adj.suggested_value}",
+                    f"   Confidence: {adj.confidence.upper()}",
+                    f"   Reason: {adj.reason}",
+                    "",
+                ])
+            lines.extend([
+                "Implementation:",
+                "  1. Review suggested adjustments",
+                "  2. Apply using: RipenessClassifier.set_thresholds(new_values)",
+                "  3. Re-run simulation to validate improvements",
+                "  4. Compare new metrics with baseline",
+                "",
+            ])
+        report = "\n".join(lines)
+        if output_path:
+            with open(output_path, "w") as f:
+                f.write(report)
+            print(f"Calibration report saved to {output_path}")
+        return report
+    @classmethod
+    def apply_adjustments(
+        cls,
+        adjustments: list[ThresholdAdjustment],
+        auto_apply: bool = False,
+    ) -> dict[str, int | float]:
+        """Apply threshold adjustments to RipenessClassifier.
+        Args:
+            adjustments: List of adjustments to apply
+            auto_apply: If True, apply immediately; if False, return dict only
+        Returns:
+            Dictionary of new threshold values
+        """
+        new_thresholds: dict[str, int | float] = {}
+        for adj in adjustments:
+            new_thresholds[adj.threshold_name] = adj.suggested_value
+        if auto_apply:
+            from scheduler.core.ripeness import RipenessClassifier
+            RipenessClassifier.set_thresholds(new_thresholds)
+            print(f"Applied {len(adjustments)} threshold adjustments")
+        return new_thresholds

scheduler/monitoring/ripeness_metrics.py ADDED Viewed

	@@ -0,0 +1,254 @@

+"""Ripeness classification accuracy tracking and reporting.
+Tracks predictions and actual outcomes to measure false positive/negative rates
+and enable data-driven threshold calibration.
+"""
+from __future__ import annotations
+from dataclasses import dataclass, field
+from datetime import datetime
+from pathlib import Path
+from typing import Optional
+import pandas as pd
+from scheduler.core.ripeness import RipenessStatus
+@dataclass
+class RipenessPrediction:
+    """Single ripeness classification prediction and outcome."""
+    case_id: str
+    predicted_status: RipenessStatus
+    prediction_date: datetime
+    # Actual outcome (filled in after hearing)
+    actual_outcome: Optional[str] = None
+    was_adjourned: Optional[bool] = None
+    outcome_date: Optional[datetime] = None
+class RipenessMetrics:
+    """Tracks ripeness classification accuracy for feedback loop calibration."""
+    def __init__(self):
+        """Initialize metrics tracker."""
+        self.predictions: dict[str, RipenessPrediction] = {}
+        self.completed_predictions: list[RipenessPrediction] = []
+    def record_prediction(
+        self,
+        case_id: str,
+        predicted_status: RipenessStatus,
+        prediction_date: datetime,
+    ) -> None:
+        """Record a ripeness classification prediction.
+        Args:
+            case_id: Case identifier
+            predicted_status: Predicted ripeness status
+            prediction_date: When prediction was made
+        """
+        self.predictions[case_id] = RipenessPrediction(
+            case_id=case_id,
+            predicted_status=predicted_status,
+            prediction_date=prediction_date,
+        )
+    def record_outcome(
+        self,
+        case_id: str,
+        actual_outcome: str,
+        was_adjourned: bool,
+        outcome_date: datetime,
+    ) -> None:
+        """Record actual hearing outcome for a predicted case.
+        Args:
+            case_id: Case identifier
+            actual_outcome: Actual hearing outcome (e.g., "ADJOURNED", "ARGUMENTS")
+            was_adjourned: Whether hearing was adjourned
+            outcome_date: When outcome occurred
+        """
+        if case_id in self.predictions:
+            pred = self.predictions[case_id]
+            pred.actual_outcome = actual_outcome
+            pred.was_adjourned = was_adjourned
+            pred.outcome_date = outcome_date
+            # Move to completed
+            self.completed_predictions.append(pred)
+            del self.predictions[case_id]
+    def get_accuracy_metrics(self) -> dict[str, float]:
+        """Compute classification accuracy metrics.
+        Returns:
+            Dictionary with accuracy metrics:
+            - total_predictions: Total predictions made
+            - completed_predictions: Predictions with outcomes
+            - false_positive_rate: RIPE cases that adjourned
+            - false_negative_rate: UNRIPE cases that progressed
+            - unknown_rate: Cases classified as UNKNOWN
+            - ripe_precision: P(progressed | predicted RIPE)
+            - unripe_recall: P(predicted UNRIPE | adjourned)
+        """
+        if not self.completed_predictions:
+            return {
+                "total_predictions": 0,
+                "completed_predictions": 0,
+                "false_positive_rate": 0.0,
+                "false_negative_rate": 0.0,
+                "unknown_rate": 0.0,
+                "ripe_precision": 0.0,
+                "unripe_recall": 0.0,
+            }
+        total = len(self.completed_predictions)
+        # Count predictions by status
+        ripe_predictions = [p for p in self.completed_predictions if p.predicted_status == RipenessStatus.RIPE]
+        unripe_predictions = [p for p in self.completed_predictions if p.predicted_status.is_unripe()]
+        unknown_predictions = [p for p in self.completed_predictions if p.predicted_status == RipenessStatus.UNKNOWN]
+        # Count actual outcomes
+        adjourned_cases = [p for p in self.completed_predictions if p.was_adjourned]
+        progressed_cases = [p for p in self.completed_predictions if not p.was_adjourned]
+        # False positives: predicted RIPE but adjourned
+        false_positives = [p for p in ripe_predictions if p.was_adjourned]
+        false_positive_rate = len(false_positives) / len(ripe_predictions) if ripe_predictions else 0.0
+        # False negatives: predicted UNRIPE but progressed
+        false_negatives = [p for p in unripe_predictions if not p.was_adjourned]
+        false_negative_rate = len(false_negatives) / len(unripe_predictions) if unripe_predictions else 0.0
+        # Precision: of predicted RIPE, how many progressed?
+        ripe_correct = [p for p in ripe_predictions if not p.was_adjourned]
+        ripe_precision = len(ripe_correct) / len(ripe_predictions) if ripe_predictions else 0.0
+        # Recall: of actually adjourned cases, how many did we predict UNRIPE?
+        unripe_correct = [p for p in unripe_predictions if p.was_adjourned]
+        unripe_recall = len(unripe_correct) / len(adjourned_cases) if adjourned_cases else 0.0
+        return {
+            "total_predictions": total + len(self.predictions),
+            "completed_predictions": total,
+            "false_positive_rate": false_positive_rate,
+            "false_negative_rate": false_negative_rate,
+            "unknown_rate": len(unknown_predictions) / total,
+            "ripe_precision": ripe_precision,
+            "unripe_recall": unripe_recall,
+        }
+    def get_confusion_matrix(self) -> dict[str, dict[str, int]]:
+        """Generate confusion matrix of predictions vs outcomes.
+        Returns:
+            Nested dict: predicted_status -> actual_outcome -> count
+        """
+        matrix: dict[str, dict[str, int]] = {
+            "RIPE": {"progressed": 0, "adjourned": 0},
+            "UNRIPE": {"progressed": 0, "adjourned": 0},
+            "UNKNOWN": {"progressed": 0, "adjourned": 0},
+        }
+        for pred in self.completed_predictions:
+            if pred.predicted_status == RipenessStatus.RIPE:
+                key = "RIPE"
+            elif pred.predicted_status.is_unripe():
+                key = "UNRIPE"
+            else:
+                key = "UNKNOWN"
+            outcome_key = "adjourned" if pred.was_adjourned else "progressed"
+            matrix[key][outcome_key] += 1
+        return matrix
+    def to_dataframe(self) -> pd.DataFrame:
+        """Export predictions to DataFrame for analysis.
+        Returns:
+            DataFrame with columns: case_id, predicted_status, prediction_date,
+                                   actual_outcome, was_adjourned, outcome_date
+        """
+        records = []
+        for pred in self.completed_predictions:
+            records.append({
+                "case_id": pred.case_id,
+                "predicted_status": pred.predicted_status.value,
+                "prediction_date": pred.prediction_date,
+                "actual_outcome": pred.actual_outcome,
+                "was_adjourned": pred.was_adjourned,
+                "outcome_date": pred.outcome_date,
+                "correct_prediction": (
+                    (pred.predicted_status == RipenessStatus.RIPE and not pred.was_adjourned)
+                    or (pred.predicted_status.is_unripe() and pred.was_adjourned)
+                ),
+            })
+        return pd.DataFrame(records)
+    def save_report(self, output_path: Path) -> None:
+        """Save accuracy report and predictions to files.
+        Args:
+            output_path: Path to output directory
+        """
+        output_path.mkdir(parents=True, exist_ok=True)
+        # Save metrics summary
+        metrics = self.get_accuracy_metrics()
+        metrics_df = pd.DataFrame([metrics])
+        metrics_df.to_csv(output_path / "ripeness_accuracy.csv", index=False)
+        # Save confusion matrix
+        matrix = self.get_confusion_matrix()
+        matrix_df = pd.DataFrame(matrix).T
+        matrix_df.to_csv(output_path / "ripeness_confusion_matrix.csv")
+        # Save detailed predictions
+        if self.completed_predictions:
+            predictions_df = self.to_dataframe()
+            predictions_df.to_csv(output_path / "ripeness_predictions.csv", index=False)
+        # Generate human-readable report
+        report_lines = [
+            "Ripeness Classification Accuracy Report",
+            "=" * 60,
+            f"Total predictions: {metrics['total_predictions']}",
+            f"Completed predictions: {metrics['completed_predictions']}",
+            "",
+            "Accuracy Metrics:",
+            f"  False positive rate (RIPE but adjourned): {metrics['false_positive_rate']:.1%}",
+            f"  False negative rate (UNRIPE but progressed): {metrics['false_negative_rate']:.1%}",
+            f"  UNKNOWN rate: {metrics['unknown_rate']:.1%}",
+            f"  RIPE precision (progressed | predicted RIPE): {metrics['ripe_precision']:.1%}",
+            f"  UNRIPE recall (predicted UNRIPE | adjourned): {metrics['unripe_recall']:.1%}",
+            "",
+            "Confusion Matrix:",
+            f"  RIPE -> Progressed: {matrix['RIPE']['progressed']}, Adjourned: {matrix['RIPE']['adjourned']}",
+            f"  UNRIPE -> Progressed: {matrix['UNRIPE']['progressed']}, Adjourned: {matrix['UNRIPE']['adjourned']}",
+            f"  UNKNOWN -> Progressed: {matrix['UNKNOWN']['progressed']}, Adjourned: {matrix['UNKNOWN']['adjourned']}",
+            "",
+            "Interpretation:",
+        ]
+        # Add interpretation
+        if metrics['false_positive_rate'] > 0.20:
+            report_lines.append("  - HIGH false positive rate: Consider increasing MIN_SERVICE_HEARINGS")
+        if metrics['false_negative_rate'] > 0.15:
+            report_lines.append("  - HIGH false negative rate: Consider decreasing MIN_STAGE_DAYS")
+        if metrics['unknown_rate'] < 0.05:
+            report_lines.append("  - LOW UNKNOWN rate: System may be overconfident, add uncertainty")
+        if metrics['ripe_precision'] > 0.85:
+            report_lines.append("  - GOOD RIPE precision: Most RIPE predictions are correct")
+        if metrics['unripe_recall'] < 0.60:
+            report_lines.append("  - LOW UNRIPE recall: Missing many bottlenecks, refine detection")
+        report_text = "\n".join(report_lines)
+        (output_path / "ripeness_report.txt").write_text(report_text)
+        print(f"Ripeness accuracy report saved to {output_path}")

scheduler/optimization/__init__.py DELETED Viewed

File without changes

src/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ """EDA pipeline modules."""

src/run_eda.py CHANGED Viewed

@@ -1,23 +1,11 @@
-"""Entrypoint to run the full EDA + parameter pipeline.
-Order:
-1. Load & clean (save Parquet + metadata)
-2. Visual EDA (plots + CSV summaries)
-3. Parameter extraction (JSON/CSV priors + features)
 """
-from src.eda_exploration import run_exploration
-from src.eda_load_clean import run_load_and_clean
-from src.eda_parameters import run_parameter_export
 if __name__ == "__main__":
-    print("Step 1/3: Load and clean")
-    run_load_and_clean()
-    print("\nStep 2/3: Exploratory analysis and plots")
-    run_exploration()
-    print("\nStep 3/3: Parameter extraction for simulation/scheduler")
-    run_parameter_export()
-    print("\nAll steps complete.")

+#!/usr/bin/env python
+"""Main entry point for Court Scheduling System.
+This file provides the primary entry point for the project.
+It invokes the CLI which provides all scheduling system operations.
 """
+from court_scheduler.cli import main
 if __name__ == "__main__":
+    main()

test_enhancements.py → tests/test_enhancements.py RENAMED Viewed

File without changes

tests/test_gap_fixes.py ADDED Viewed

	@@ -0,0 +1,200 @@

+"""Test script to validate both gap fixes.
+Tests:
+1. Gap 1: RL training uses EDA-derived parameters
+2. Gap 2: Ripeness feedback loop works
+"""
+from datetime import date, datetime
+from pathlib import Path
+from scheduler.data.case_generator import CaseGenerator
+from scheduler.data.param_loader import ParameterLoader
+from scheduler.core.ripeness import RipenessClassifier, RipenessStatus
+from scheduler.monitoring.ripeness_metrics import RipenessMetrics
+from scheduler.monitoring.ripeness_calibrator import RipenessCalibrator
+from rl.training import RLTrainingEnvironment, train_agent
+from rl.simple_agent import TabularQAgent
+from rl.config import RLTrainingConfig
+def test_gap1_eda_alignment():
+    """Test that RL training uses EDA-derived parameters."""
+    print("\n" + "=" * 70)
+    print("GAP 1: Testing EDA Alignment in RL Training")
+    print("=" * 70)
+    # Generate test cases
+    generator = CaseGenerator(
+        start=date(2024, 1, 1),
+        end=date(2024, 1, 31),
+        seed=42,
+    )
+    cases = generator.generate(100, stage_mix_auto=True)
+    # Create environment with param_loader
+    env = RLTrainingEnvironment(
+        cases=cases,
+        start_date=date(2024, 1, 1),
+        horizon_days=30,
+    )
+    # Verify param_loader exists
+    assert hasattr(env, 'param_loader'), "Environment should have param_loader"
+    assert isinstance(env.param_loader, ParameterLoader), "param_loader should be ParameterLoader instance"
+    print("✓ ParameterLoader successfully integrated into RLTrainingEnvironment")
+    # Test hearing outcome simulation uses EDA parameters
+    test_case = cases[0]
+    test_case.current_stage = "ADMISSION"
+    test_case.case_type = "RSA"
+    # Get EDA-derived adjournment probability
+    p_adj_eda = env.param_loader.get_adjournment_prob("ADMISSION", "RSA")
+    print(f"✓ EDA adjournment probability for ADMISSION/RSA: {p_adj_eda:.2%}")
+    # Simulate outcomes multiple times and check alignment
+    outcomes = []
+    for _ in range(100):
+        outcome = env._simulate_hearing_outcome(test_case)
+        outcomes.append(outcome)
+    adjourn_rate = sum(1 for o in outcomes if o == "ADJOURNED") / len(outcomes)
+    print(f"✓ Simulated adjournment rate: {adjourn_rate:.2%}")
+    print(f"  Difference from EDA: {abs(adjourn_rate - p_adj_eda):.2%}")
+    # Should be within 15% of EDA value (stochastic sampling)
+    assert abs(adjourn_rate - p_adj_eda) < 0.15, f"Adjournment rate {adjourn_rate:.2%} too far from EDA {p_adj_eda:.2%}"
+    print("\n✅ GAP 1 FIXED: RL training now uses EDA-derived parameters\n")
+def test_gap2_ripeness_feedback():
+    """Test that ripeness feedback loop works."""
+    print("\n" + "=" * 70)
+    print("GAP 2: Testing Ripeness Feedback Loop")
+    print("=" * 70)
+    # Create metrics tracker
+    metrics = RipenessMetrics()
+    # Simulate predictions and outcomes (need 50+ for calibrator)
+    test_cases = []
+    # Pattern: 50% false positives (RIPE but adjourned), 50% false negatives
+    for i in range(50):
+        if i % 4 == 0:
+            test_cases.append((f"case{i}", RipenessStatus.RIPE, False))  # Correct RIPE
+        elif i % 4 == 1:
+            test_cases.append((f"case{i}", RipenessStatus.RIPE, True))  # False positive
+        elif i % 4 == 2:
+            test_cases.append((f"case{i}", RipenessStatus.UNRIPE_SUMMONS, True))  # Correct UNRIPE
+        else:
+            test_cases.append((f"case{i}", RipenessStatus.UNRIPE_SUMMONS, False))  # False negative
+    prediction_date = datetime(2024, 1, 1)
+    outcome_date = datetime(2024, 1, 2)
+    for case_id, predicted_status, was_adjourned in test_cases:
+        metrics.record_prediction(case_id, predicted_status, prediction_date)
+        actual_outcome = "ADJOURNED" if was_adjourned else "ARGUMENTS"
+        metrics.record_outcome(case_id, actual_outcome, was_adjourned, outcome_date)
+    print(f"✓ Recorded {len(test_cases)} predictions and outcomes")
+    # Get accuracy metrics
+    accuracy = metrics.get_accuracy_metrics()
+    print(f"\n  Accuracy Metrics:")
+    print(f"    False positive rate: {accuracy['false_positive_rate']:.1%}")
+    print(f"    False negative rate: {accuracy['false_negative_rate']:.1%}")
+    print(f"    RIPE precision: {accuracy['ripe_precision']:.1%}")
+    print(f"    UNRIPE recall: {accuracy['unripe_recall']:.1%}")
+    # Expected: 2/4 false positives (50%), 1/2 false negatives (50%)
+    assert accuracy['false_positive_rate'] > 0.4, "Should detect false positives"
+    assert accuracy['false_negative_rate'] > 0.4, "Should detect false negatives"
+    print("\n✓ RipenessMetrics successfully tracks classification accuracy")
+    # Test calibrator
+    adjustments = RipenessCalibrator.analyze_metrics(metrics)
+    print(f"\n✓ RipenessCalibrator generated {len(adjustments)} adjustment suggestions:")
+    for adj in adjustments:
+        print(f"    - {adj.threshold_name}: {adj.current_value} → {adj.suggested_value}")
+        print(f"      Reason: {adj.reason[:80]}...")
+    assert len(adjustments) > 0, "Should suggest at least one adjustment"
+    # Test threshold configuration
+    original_thresholds = RipenessClassifier.get_current_thresholds()
+    print(f"\n✓ Current thresholds: {original_thresholds}")
+    # Apply test adjustment
+    test_thresholds = {"MIN_SERVICE_HEARINGS": 2}
+    RipenessClassifier.set_thresholds(test_thresholds)
+    new_thresholds = RipenessClassifier.get_current_thresholds()
+    assert new_thresholds["MIN_SERVICE_HEARINGS"] == 2, "Threshold should be updated"
+    print(f"✓ Thresholds successfully updated: {new_thresholds}")
+    # Restore original
+    RipenessClassifier.set_thresholds(original_thresholds)
+    print("\n✅ GAP 2 FIXED: Ripeness feedback loop fully operational\n")
+def test_end_to_end():
+    """Quick end-to-end test with small training run."""
+    print("\n" + "=" * 70)
+    print("END-TO-END: Testing Both Gaps Together")
+    print("=" * 70)
+    # Create agent
+    agent = TabularQAgent(learning_rate=0.15, epsilon=0.4, discount=0.95)
+    # Minimal training config
+    config = RLTrainingConfig(
+        episodes=2,
+        episode_length_days=10,
+        cases_per_episode=50,
+        training_seed=42,
+    )
+    print("Running mini training (2 episodes, 50 cases, 10 days)...")
+    stats = train_agent(agent, rl_config=config, verbose=False)
+    assert len(stats["episodes"]) == 2, "Should complete 2 episodes"
+    assert stats["episodes"][-1] == 1, "Last episode should be episode 1"
+    print(f"✓ Training completed: {len(stats['episodes'])} episodes")
+    print(f"  Final disposal rate: {stats['disposal_rates'][-1]:.1%}")
+    print(f"  States explored: {stats['states_explored'][-1]}")
+    print("\n✅ END-TO-END: Both gaps working together successfully\n")
+if __name__ == "__main__":
+    print("\n" + "=" * 70)
+    print("TESTING GAP FIXES")
+    print("=" * 70)
+    try:
+        test_gap1_eda_alignment()
+        test_gap2_ripeness_feedback()
+        test_end_to_end()
+        print("\n" + "=" * 70)
+        print("ALL TESTS PASSED")
+        print("=" * 70)
+        print("\nSummary:")
+        print("  ✅ Gap 1: RL training aligned with EDA parameters")
+        print("  ✅ Gap 2: Ripeness feedback loop operational")
+        print("  ✅ End-to-end: Both gaps working together")
+        print("\nBoth confirmed gaps are now FIXED!")
+        print("=" * 70 + "\n")
+    except Exception as e:
+        print(f"\n❌ TEST FAILED: {e}")
+        raise

train_rl_agent.py DELETED Viewed

@@ -1,238 +0,0 @@
-"""Configuration-driven RL agent training and evaluation.
-Modular training pipeline for reinforcement learning in court scheduling.
-"""
-import argparse
-import json
-import numpy as np
-from pathlib import Path
-from datetime import date
-from dataclasses import dataclass
-from typing import Dict, Any
-from rl.simple_agent import TabularQAgent
-from rl.training import train_agent, evaluate_agent
-from scheduler.data.case_generator import CaseGenerator
-@dataclass
-class TrainingConfig:
-    """Training configuration parameters."""
-    episodes: int = 50
-    cases_per_episode: int = 500
-    episode_length: int = 30
-    learning_rate: float = 0.1
-    initial_epsilon: float = 0.3
-    discount: float = 0.95
-    model_name: str = "trained_rl_agent.pkl"
-    @classmethod
-    def from_dict(cls, config_dict: Dict[str, Any]) -> 'TrainingConfig':
-        """Create config from dictionary."""
-        return cls(**{k: v for k, v in config_dict.items() if k in cls.__annotations__})
-    @classmethod
-    def from_file(cls, config_path: Path) -> 'TrainingConfig':
-        """Load config from JSON file."""
-        with open(config_path) as f:
-            return cls.from_dict(json.load(f))
-def run_training_experiment(config: TrainingConfig = None):
-    """Run configurable RL training experiment.
-    Args:
-        config: Training configuration. If None, uses defaults.
-    """
-    if config is None:
-        config = TrainingConfig()
-    print("=" * 70)
-    print("RL AGENT TRAINING EXPERIMENT")
-    print("=" * 70)
-    print(f"Training Parameters:")
-    print(f"  Episodes: {config.episodes}")
-    print(f"  Cases per episode: {config.cases_per_episode}")
-    print(f"  Episode length: {config.episode_length} days")
-    print(f"  Learning rate: {config.learning_rate}")
-    print(f"  Initial exploration: {config.initial_epsilon}")
-    # Initialize agent
-    agent = TabularQAgent(
-        learning_rate=config.learning_rate,
-        epsilon=config.initial_epsilon,
-        discount=config.discount
-    )
-    print(f"\nInitial agent state: {agent.get_stats()}")
-    # Training phase
-    print("\n" + "=" * 50)
-    print("TRAINING PHASE")
-    print("=" * 50)
-    training_stats = train_agent(
-        agent=agent,
-        episodes=config.episodes,
-        cases_per_episode=config.cases_per_episode,
-        episode_length=config.episode_length,
-        verbose=True
-    )
-    # Save trained agent
-    model_path = Path("models")
-    model_path.mkdir(exist_ok=True)
-    agent_file = model_path / config.model_name
-    agent.save(agent_file)
-    print(f"\nTrained agent saved to: {agent_file}")
-    # Generate test cases for evaluation
-    print("\n" + "=" * 50)
-    print("EVALUATION PHASE")
-    print("=" * 50)
-    test_start = date(2024, 7, 1)
-    test_end = date(2024, 8, 1)
-    test_generator = CaseGenerator(start=test_start, end=test_end, seed=999)
-    test_cases = test_generator.generate(1000, stage_mix_auto=True)
-    print(f"Generated {len(test_cases)} test cases")
-    # Evaluate trained agent
-    evaluation_results = evaluate_agent(
-        agent=agent,
-        test_cases=test_cases,
-        episodes=5,
-        episode_length=60
-    )
-    # Print final analysis
-    print("\n" + "=" * 50)
-    print("TRAINING ANALYSIS")
-    print("=" * 50)
-    final_stats = agent.get_stats()
-    print(f"Final agent statistics:")
-    print(f"  States explored: {final_stats['states_visited']:,}")
-    print(f"  Q-table size: {final_stats['q_table_size']:,}")
-    print(f"  Total Q-updates: {final_stats['total_updates']:,}")
-    print(f"  Final epsilon: {final_stats['epsilon']:.3f}")
-    # Training progression analysis
-    if len(training_stats["disposal_rates"]) >= 10:
-        early_performance = np.mean(training_stats["disposal_rates"][:10])
-        late_performance = np.mean(training_stats["disposal_rates"][-10:])
-        improvement = late_performance - early_performance
-        print(f"\nLearning progression:")
-        print(f"  Early episodes (1-10): {early_performance:.1%} disposal rate")
-        print(f"  Late episodes (-10 to end): {late_performance:.1%} disposal rate")
-        print(f"  Improvement: {improvement:.1%}")
-        if improvement > 0.01:  # 1% improvement threshold
-            print("  STATUS: Agent showed learning progress")
-        else:
-            print("  STATUS: Limited learning detected")
-    # State space coverage analysis
-    theoretical_states = 11 * 10 * 10 * 2 * 2 * 10  # 6D discretized state space
-    coverage = final_stats['states_visited'] / theoretical_states
-    print(f"\nState space analysis:")
-    print(f"  Theoretical max states: {theoretical_states:,}")
-    print(f"  States actually visited: {final_stats['states_visited']:,}")
-    print(f"  Coverage: {coverage:.1%}")
-    if coverage < 0.01:
-        print("  WARNING: Very low state space exploration")
-    elif coverage < 0.1:
-        print("  NOTE: Limited state space exploration (expected)")
-    else:
-        print("  GOOD: Reasonable state space exploration")
-    print("\n" + "=" * 50)
-    print("PERFORMANCE SUMMARY")
-    print("=" * 50)
-    print(f"Trained RL Agent Performance:")
-    print(f"  Mean disposal rate: {evaluation_results['mean_disposal_rate']:.1%}")
-    print(f"  Standard deviation: {evaluation_results['std_disposal_rate']:.1%}")
-    print(f"  Mean utilization: {evaluation_results['mean_utilization']:.1%}")
-    print(f"  Avg hearings to disposal: {evaluation_results['mean_hearings_to_disposal']:.1f}")
-    # Compare with baseline from previous runs (known values)
-    baseline_disposal = 0.107  # 10.7% from readiness policy
-    rl_disposal = evaluation_results['mean_disposal_rate']
-    print(f"\nComparison with Baseline:")
-    print(f"  Baseline (Readiness): {baseline_disposal:.1%}")
-    print(f"  RL Agent: {rl_disposal:.1%}")
-    print(f"  Difference: {(rl_disposal - baseline_disposal):.1%}")
-    if rl_disposal > baseline_disposal + 0.01:  # 1% improvement threshold
-        print("  RESULT: RL agent outperforms baseline")
-    elif rl_disposal > baseline_disposal - 0.01:
-        print("  RESULT: RL agent performs comparably to baseline")
-    else:
-        print("  RESULT: RL agent underperforms baseline")
-    # Recommendations
-    print("\n" + "=" * 50)
-    print("RECOMMENDATIONS")
-    print("=" * 50)
-    if coverage < 0.01:
-        print("1. Increase training episodes for better state exploration")
-        print("2. Consider state space dimensionality reduction")
-    if final_stats['total_updates'] < 10000:
-        print("3. Extend training duration for more Q-value updates")
-    if evaluation_results['std_disposal_rate'] > 0.05:
-        print("4. High variance detected - consider ensemble methods")
-    if rl_disposal <= baseline_disposal:
-        print("5. Reward function may need tuning")
-        print("6. Consider different exploration strategies")
-        print("7. Baseline policy is already quite effective")
-    print("\nExperiment complete.")
-    return agent, training_stats, evaluation_results
-def main():
-    """CLI interface for RL training."""
-    parser = argparse.ArgumentParser(description="Train RL agent for court scheduling")
-    parser.add_argument("--config", type=Path, help="Training configuration file (JSON)")
-    parser.add_argument("--episodes", type=int, help="Number of training episodes")
-    parser.add_argument("--learning-rate", type=float, help="Learning rate")
-    parser.add_argument("--epsilon", type=float, help="Initial exploration rate")
-    parser.add_argument("--model-name", help="Output model filename")
-    args = parser.parse_args()
-    # Load config
-    if args.config and args.config.exists():
-        config = TrainingConfig.from_file(args.config)
-        print(f"Loaded configuration from {args.config}")
-    else:
-        config = TrainingConfig()
-        print("Using default configuration")
-    # Override config with CLI args
-    if args.episodes:
-        config.episodes = args.episodes
-    if args.learning_rate:
-        config.learning_rate = args.learning_rate
-    if args.epsilon:
-        config.initial_epsilon = args.epsilon
-    if args.model_name:
-        config.model_name = args.model_name
-    # Run training
-    return run_training_experiment(config)
-if __name__ == "__main__":
-    main()