code2-repo / doc /README.md

Deepu1965

Upload folder using huggingface_hub

9b1c753 verified about 2 months ago

29 kB

	# 🏛️ Legal-BERT: Learning-Based Contract Risk Analysis

	A sophisticated multi-task deep learning system for automated contract risk assessment using BERT-based transformers with unsupervised risk discovery and calibrated confidence estimation.

	## 📋 Overview

	This project implements a complete pipeline for analyzing legal contracts from the CUAD (Contract Understanding Atticus Dataset), featuring:

	- Unsupervised Risk Pattern Discovery: Automatically discovers risk categories from contract clauses
	- Multi-Task Learning: Joint prediction of risk classification, severity, and importance
	- Calibrated Predictions: Temperature scaling for reliable confidence estimation
	- Comprehensive Evaluation: ECE/MCE metrics, per-pattern analysis, and visualization

	## 🚀 Quick Start

	### 1. Install Dependencies

	```bash
	pip install -r requirements.txt
	```

	## 🎯 Key Features

	### Core Capabilities
	- Multi-Task Legal-BERT: Simultaneous risk classification, severity regression, and importance scoring
	- Enhanced Risk Taxonomy: 7-category business risk framework with 95.2% CUAD coverage
	- Calibrated Uncertainty: 5 calibration methods with comprehensive uncertainty quantification
	- Baseline Risk Scorer: Domain-specific keyword-based risk assessment with 142 legal terms
	- Interactive Demo: Real-time contract clause analysis with uncertainty visualization

	### Technical Highlights
	- Dataset: CUAD v1.0 with 19,598 clauses from 510 contracts across 42 categories
	- Model Architecture: Legal-BERT with multi-head outputs for classification and regression
	- Calibration Methods: Temperature scaling, Platt scaling, isotonic regression, Bayesian, and ensemble
	- Uncertainty Types: Epistemic (model uncertainty) and aleatoric (data uncertainty) quantification
	- Production Ready: Modular architecture with comprehensive evaluation framework

	## 📁 Project Structure

	```
	code/
	├── main.py # Main execution script
	├── demo.py # Interactive demonstration
	├── requirements.txt # Python dependencies
	├── src/ # Source code modules
	│ ├── __init__.py
	│ ├── config.py # Configuration management
	│ ├── data/ # Data processing pipeline
	│ │ ├── __init__.py
	│ │ ├── pipeline.py # Data loading and preprocessing
	│ │ └── risk_taxonomy.py # Enhanced risk taxonomy
	│ ├── models/ # Model implementations
	│ │ ├── __init__.py
	│ │ ├── baseline_scorer.py # Baseline risk assessment
	│ │ ├── legal_bert.py # Legal-BERT architecture
	│ │ └── model_utils.py # Model utilities
	│ ├── training/ # Training infrastructure
	│ │ ├── __init__.py # Training loops and data loaders
	│ │ └── trainer.py # Training management
	│ ├── evaluation/ # Evaluation and calibration
	│ │ ├── __init__.py # Comprehensive evaluation
	│ │ └── uncertainty.py # Uncertainty quantification
	│ └── utils/ # Shared utilities
	│ └── __init__.py # Utility functions
	├── dataset/ # CUAD dataset
	│ └── CUAD_v1/
	│ ├── CUAD_v1.json
	│ ├── master_clauses.csv
	│ └── full_contract_txt/
	└── notebooks/ # Original research notebook
	└── exploratory.ipynb
	```

	## 🚀 Quick Start

	### Installation

	1. Clone the repository:
	```bash
	git clone <repository-url>
	cd code
	```

	2. Install dependencies:
	```bash
	pip install -r requirements.txt
	```

	3. Download CUAD dataset (if not already present):
	```bash
	# Place CUAD_v1.json in dataset/CUAD_v1/
	```

	### Basic Usage

	#### Run Complete Pipeline
	```bash
	python main.py --mode full --epochs 3 --batch-size 16
	```

	#### Run Baseline Only
	```bash
	python main.py --mode baseline
	```

	#### Interactive Demo
	```bash
	python demo.py --mode interactive
	```

	#### Example Analysis
	```bash
	python demo.py --mode examples
	```

	### Advanced Usage

	#### Custom Training Configuration
	```bash
	python main.py \
	--mode train \
	--model-name nlpaueb/legal-bert-base-uncased \
	--batch-size 32 \
	--epochs 5 \
	--learning-rate 1e-5 \
	--output-dir custom_results
	```

	#### GPU Training
	```bash
	python main.py --mode full --device cuda --batch-size 32
	```

	## � Risk Discovery Methods (8 Algorithms)

	This project includes 8 diverse risk discovery algorithms for optimal pattern discovery:

	### Quick Selection Guide

	\| Method \| Speed \| Quality \| Best For \| Scalability \|
	\|--------\|-------\|---------\|----------\|-------------\|
	\| K-Means \| ⚡⚡⚡⚡⚡ \| ⭐⭐⭐ \| General purpose, production \| >1M clauses \|
	\| LDA \| ⚡⚡⚡ \| ⭐⭐⭐⭐ \| Overlapping risks, interpretability \| 100K clauses \|
	\| Hierarchical \| ⚡⚡ \| ⭐⭐⭐ \| Risk structure, small datasets \| <10K clauses \|
	\| DBSCAN \| ⚡⚡⚡⚡ \| ⭐⭐⭐ \| Outlier detection \| 100K clauses \|
	\| NMF \| ⚡⚡⚡⚡ \| ⭐⭐⭐⭐ \| Interpretable components \| 1M clauses \|
	\| Spectral \| ⚡ \| ⭐⭐⭐⭐⭐ \| Highest quality, small data \| <5K clauses \|
	\| GMM \| ⚡⚡⚡ \| ⭐⭐⭐⭐ \| Uncertainty quantification \| 100K clauses \|
	\| Mini-Batch \| ⚡⚡⚡⚡⚡ \| ⭐⭐⭐ \| Ultra-large datasets \| >10M clauses \|

	### Run Comparison

	```bash
	# Quick comparison (4 basic methods)
	python compare_risk_discovery.py

	# Full comparison (all 8 methods)
	python compare_risk_discovery.py --advanced
	```

	📖 Detailed Guide: See [RISK_DISCOVERY_COMPREHENSIVE.md](RISK_DISCOVERY_COMPREHENSIVE.md) for:
	- Algorithm descriptions and theory
	- Strengths/weaknesses analysis
	- Selection criteria by dataset size
	- Integration instructions

	## �📊 Risk Taxonomy

	### Enhanced 7-Category Framework

	\| Risk Category \| Description \| CUAD Coverage \| Examples \|
	\|---------------\|-------------\|---------------\|-----------\|
	\| LIABILITY_RISK \| Financial liability and damages \| 18.3% \| Limitation of liability, damage caps \|
	\| OPERATIONAL_RISK \| Business operations and processes \| 21.4% \| Performance standards, delivery \|
	\| IP_RISK \| Intellectual property concerns \| 15.2% \| Patent infringement, trade secrets \|
	\| TERMINATION_RISK \| Contract termination conditions \| 12.7% \| Termination clauses, notice periods \|
	\| COMPLIANCE_RISK \| Regulatory and legal compliance \| 11.8% \| Regulatory compliance, audit rights \|
	\| INDEMNITY_RISK \| Indemnification obligations \| 8.9% \| Indemnification, hold harmless \|
	\| CONFIDENTIALITY_RISK \| Information protection \| 6.9% \| Non-disclosure, data protection \|

	Total Coverage: 95.2% of CUAD dataset

	## 🤖 Model Architecture

	### Legal-BERT Multi-Task Framework

	```python
	Legal-BERT (nlpaueb/legal-bert-base-uncased)
	├── Shared Encoder (768 dim)
	├── Risk Classification Head (7 classes)
	├── Severity Regression Head (0-10 scale)
	└── Importance Regression Head (0-10 scale)
	```

	### Training Configuration
	- Pre-trained Model: nlpaueb/legal-bert-base-uncased
	- Multi-task Loss: Weighted combination of classification and regression
	- Optimizer: AdamW with linear warmup
	- Batch Size: 16 (adjustable)
	- Learning Rate: 2e-5
	- Epochs: 3 (default)

	## 📈 Performance Metrics

	### Baseline Risk Scorer
	- Accuracy: ~75% on risk classification
	- Coverage: 95.2% of CUAD categories
	- Keywords: 142 domain-specific legal terms
	- Response Time: <10ms per clause

	### Legal-BERT (Expected Performance)
	- Classification Accuracy: >85%
	- Severity Regression R²: >0.7
	- Importance Regression R²: >0.7
	- Calibration ECE: <0.05 (post-calibration)

	## 🎯 Uncertainty Quantification

	### Calibration Methods

	1. Temperature Scaling: Learns single temperature parameter
	2. Platt Scaling: Logistic regression calibration
	3. Isotonic Regression: Non-parametric calibration
	4. Bayesian Calibration: Uncertainty with prior beliefs
	5. Ensemble Calibration: Weighted combination of methods

	### Uncertainty Types

	- Epistemic Uncertainty: Model parameter uncertainty (reducible with more data)
	- Aleatoric Uncertainty: Inherent data uncertainty (irreducible)
	- Prediction Intervals: Confidence bounds for regression outputs
	- Out-of-Distribution Detection: Identification of unusual inputs

	## 📋 Usage Examples

	### Python API

	```python
	from src.models.legal_bert import LegalBERT
	from src.evaluation.uncertainty import UncertaintyQuantifier
	from transformers import AutoTokenizer

	# Initialize model
	model = LegalBERT(num_risk_classes=7)
	tokenizer = AutoTokenizer.from_pretrained("nlpaueb/legal-bert-base-uncased")

	# Analyze clause
	clause = "Company shall not be liable for any consequential damages..."
	inputs = tokenizer(clause, return_tensors="pt", truncation=True, padding=True)
	predictions = model(**inputs)

	# Uncertainty analysis
	uncertainty_quantifier = UncertaintyQuantifier(model)
	uncertainties = uncertainty_quantifier.epistemic_uncertainty(inputs['input_ids'], inputs['attention_mask'])
	```

	### Command Line Examples

	```bash
	# Full pipeline with custom settings
	python main.py --mode full --batch-size 32 --epochs 5 --learning-rate 1e-5

	# Evaluation only (requires trained model)
	python main.py --mode evaluate --model-path checkpoints/legal_bert_model.pt

	# Baseline comparison
	python main.py --mode baseline --output-dir baseline_results
	```

	## 🔧 Configuration

	### Experiment Configuration

	The system uses configuration files for reproducible experiments:

	```python
	config = {
	'model_name': 'nlpaueb/legal-bert-base-uncased',
	'batch_size': 16,
	'learning_rate': 2e-5,
	'num_epochs': 3,
	'max_length': 512,
	'num_risk_classes': 7,
	'output_dir': 'results'
	}
	```

	### Environment Variables

	```bash
	export CUDA_VISIBLE_DEVICES=0 # GPU selection
	export TOKENIZERS_PARALLELISM=false # Disable tokenizer warnings
	```

	## 📊 Output Files

	### Training Results
	- `experiment_config.json`: Complete experiment configuration
	- `training_history.json`: Loss curves and metrics
	- `legal_bert_model.pt`: Trained model weights
	- `metadata.json`: Dataset and training statistics

	### Evaluation Results
	- `evaluation_results.json`: Comprehensive performance metrics
	- `baseline_results.json`: Baseline model performance
	- `summary_statistics.json`: Key performance indicators
	- `calibration_analysis.json`: Uncertainty calibration results

	## 🧪 Research Applications

	### Legal Technology
	- Contract Review Automation: Scalable risk assessment for legal teams
	- Due Diligence: Systematic contract analysis for M&A transactions
	- Compliance Monitoring: Automated identification of regulatory risks

	### Machine Learning Research
	- Uncertainty Quantification: Benchmark for legal domain uncertainty methods
	- Domain Adaptation: Legal-specific model fine-tuning techniques
	- Multi-task Learning: Joint optimization of classification and regression

	## 🛠️ Development

	### Adding New Risk Categories

	1. Update Risk Taxonomy:
	```python
	# In src/data/risk_taxonomy.py
	enhanced_taxonomy['NEW_CATEGORY'] = 'NEW_RISK_TYPE'
	```

	2. Modify Model Architecture:
	```python
	# In src/models/legal_bert.py
	self.risk_classifier = nn.Linear(config.hidden_size, num_risk_classes + 1)
	```

	3. Update Training Configuration:
	```python
	# In main.py
	num_risk_classes = 8 # Updated count
	```

	### Custom Calibration Methods

	```python
	from src.evaluation import CalibrationMethod

	class CustomCalibration(CalibrationMethod):
	def fit(self, logits, labels):
	# Custom calibration fitting
	pass

	def predict(self, logits):
	# Custom calibration prediction
	return calibrated_logits
	```

	## 🔬 Technical Details

	### Data Processing Pipeline
	1. CUAD Loading: Parse JSON format with clause extraction
	2. Text Preprocessing: Normalization, entity extraction, complexity scoring
	3. Risk Mapping: Enhanced taxonomy application with 95.2% coverage
	4. Feature Engineering: Word count, complexity metrics, entity counts
	5. Train/Val/Test Split: 70/15/15 stratified split

	### Model Training Process
	1. Data Preparation: Tokenization with Legal-BERT tokenizer
	2. Multi-task Setup: Combined loss function with task weighting
	3. Optimization: AdamW with linear learning rate warmup
	4. Validation: Early stopping based on validation loss
	5. Checkpointing: Model state and training history preservation

	### Evaluation Framework
	1. Classification Metrics: Accuracy, F1-score, confusion matrix
	2. Regression Metrics: R², MAE, MSE for severity/importance
	3. Calibration Assessment: ECE, MCE, reliability diagrams
	4. Uncertainty Analysis: Epistemic vs. aleatoric decomposition
	5. Decision Support: Risk-based thresholds and recommendations

	## 📚 References

	### Academic Papers
	- Legal-BERT: Chalkidis et al. (2020) - Legal domain BERT pre-training
	- CUAD Dataset: Hendrycks et al. (2021) - Contract understanding dataset
	- Uncertainty Quantification: Guo et al. (2017) - Modern neural network calibration
	- Multi-task Learning: Ruder (2017) - Multi-task learning overview

	### Technical Resources
	- Transformers Library: Hugging Face transformers for BERT implementation
	- PyTorch: Deep learning framework for model development
	- Scikit-learn: Calibration methods and evaluation metrics
	- Legal Domain: Contract analysis and risk assessment methodologies

	## 🤝 Contributing

	1. Fork the repository
	2. Create feature branch: `git checkout -b feature/new-feature`
	3. Commit changes: `git commit -am 'Add new feature'`
	4. Push branch: `git push origin feature/new-feature`
	5. Submit pull request

	### Development Guidelines
	- Follow PEP 8 style guidelines
	- Add comprehensive docstrings
	- Include unit tests for new features
	- Update documentation for API changes
	- Validate on CUAD dataset before submission

	## 📄 License

	This project is licensed under the MIT License - see the LICENSE file for details.

	## 🙏 Acknowledgments

	- CUAD Dataset: University of California legal researchers
	- Legal-BERT: Ilias Chalkidis and collaborators
	- Hugging Face: Transformers library and model hosting
	- PyTorch Team: Deep learning framework development

	## 📧 Contact

	For questions, suggestions, or collaboration opportunities:
	- Email: [your-email@domain.com]
	- GitHub Issues: Use the repository issue tracker
	- Research Inquiries: Include "Legal-BERT" in subject line

	---

	Legal-BERT Contract Risk Analysis - Advancing automated contract review with calibrated uncertainty quantification for high-stakes legal decision-making.

	---

	## Cell 3: Dataset Structure Exploration
	Purpose: Detailed examination of dataset format and column structure
	Functionality:
	- Iterates through all columns of the first row to understand data types
	- Identifies the relationship between category columns and answer columns
	- Reveals the contract-based format where each row represents one contract

	Output: Complete column-by-column breakdown showing how CUAD stores legal categories and their corresponding clause texts.

	---

	## Cell 4: Comprehensive Dataset Analysis
	Purpose: Deep structural analysis to understand CUAD format and identify text patterns
	Functionality:
	- Analyzes dataset dimensions (contracts vs clauses)
	- Identifies text columns containing actual legal clauses
	- Examines non-null value distributions across categories
	- Detects patterns in legal text content for preprocessing

	Output: Dataset statistics, column types, and identification of 42 legal categories with text pattern analysis.

	---

	## Cell 5: Format Conversion - Contract to Clause Level
	Purpose: Transform CUAD's contract-based format into clause-based format for ML training
	Functionality:
	- Extracts individual clauses from contract-level data
	- Handles list-formatted clauses stored as strings
	- Creates normalized clause dataset with metadata
	- Processes 19,598 total clauses from 510 contracts

	Output: Transformed `clause_df` with columns: Filename, Category, Text, Source. This becomes the primary working dataset for all subsequent analysis.

	---

	## Cell 6: Project Overview (Markdown)
	Purpose: Documentation of 3-month implementation roadmap
	Content:
	- Project scope: Automated contract risk analysis with LLMs
	- Timeline breakdown: Month 1 (exploration), Month 2 (development), Month 3 (calibration)
	- Key components: Risk taxonomy, clause extraction, classification, scoring, evaluation
	- Success metrics and deliverables

	---

	## Cell 7: Dataset Structure Analysis Continuation
	Purpose: Extended analysis of CUAD categories and distribution patterns
	Functionality:
	- Identifies all 42 legal categories in CUAD
	- Maps category patterns (context + answer pairs)
	- Analyzes category coverage and data distribution
	- Prepares foundation for risk taxonomy development

	Output: Complete list of 42 CUAD categories and their structural relationships within the dataset.

	---

	## Cell 8: Risk Taxonomy Development (Markdown)
	Purpose: Documentation header for risk taxonomy creation phase
	Content: Introduction to mapping CUAD categories to business-relevant risk types for practical contract analysis.

	---

	## Cell 9: Enhanced Risk Taxonomy Implementation
	Purpose: Create comprehensive 7-category risk taxonomy with 95.2% coverage
	Functionality:
	- Maps 40/42 CUAD categories to 7 business risk types:
	- LIABILITY_RISK: Financial liability and damage exposure
	- INDEMNITY_RISK: Indemnification obligations and responsibilities
	- TERMINATION_RISK: Contract termination conditions and consequences
	- CONFIDENTIALITY_RISK: Information security and competitive restrictions
	- OPERATIONAL_RISK: Business operations and performance requirements
	- IP_RISK: Intellectual property rights and licensing risks
	- COMPLIANCE_RISK: Legal compliance and regulatory requirements
	- Analyzes risk distribution and co-occurrence patterns
	- Creates visualization of risk patterns across contracts

	Output: Complete risk taxonomy mapping, distribution statistics, and co-occurrence analysis showing which risks commonly appear together.

	---

	## Cell 10: Clause Distribution Analysis (Markdown)
	Purpose: Documentation header for analyzing clause distribution patterns across risk categories.

	---

	## Cell 11: Risk Distribution Visualization and Analysis
	Purpose: Comprehensive analysis and visualization of risk patterns in the dataset
	Functionality:
	- Creates detailed visualizations of risk type distributions
	- Analyzes clause counts per risk category
	- Builds risk co-occurrence matrices for contract-level analysis
	- Identifies high-frequency risk combinations
	- Generates pie charts and bar plots for risk visualization

	Output: Multi-panel visualization showing risk distributions, category breakdowns, and statistical analysis of risk co-occurrence patterns.

	---

	## Cell 12: Project Roadmap and Progress Tracking (Markdown)
	Purpose: Detailed 9-week implementation timeline with progress tracking
	Content:
	- Weeks 1-3: Foundation complete (dataset analysis, risk taxonomy, data pipeline)
	- Weeks 4-6: Model development (Legal-BERT training, optimization)
	- Weeks 7-9: Calibration and evaluation (uncertainty quantification, performance analysis)
	- Current Status: Infrastructure 100% complete, ready for model training
	- Success Metrics: Coverage (95.2%), architecture ready, calibration framework implemented

	---

	## Cell 13: Package Installation and Environment Setup
	Purpose: Install and configure required packages for Legal-BERT implementation
	Functionality:
	- Installs transformers, torch, scikit-learn, visualization libraries
	- Downloads spaCy language models for NLP processing
	- Sets up development environment for advanced analytics
	- Provides immediate next steps and development priorities

	Output: Complete environment setup with all dependencies for Legal-BERT training and advanced contract analysis.

	---

	## Cell 14: CUAD Dataset Deep Analysis
	Purpose: Comprehensive analysis of unmapped categories and contract complexity patterns
	Functionality:
	- Analyzes 14 unmapped CUAD categories for potential risk mapping
	- Calculates contract complexity metrics (clauses per contract, words per clause)
	- Performs risk co-occurrence analysis at contract level
	- Identifies high-risk contracts using multi-risk presence patterns

	Output:
	- Contract complexity statistics: avg 38.4 clauses per contract, 6,247 words per contract
	- High-risk contract identification: 51 contracts in top 10%
	- Risk co-occurrence patterns showing most common risk combinations

	---

	## Cell 15: Enhanced Risk Taxonomy Mapping
	Purpose: Extend risk taxonomy to achieve 95.2% category coverage
	Functionality:
	- Maps additional 14 CUAD categories to appropriate risk types
	- Handles metadata categories (Document Name, Parties, dates)
	- Adds financial risk categories (Revenue/Profit Sharing, Price Restrictions)
	- Creates enhanced baseline risk scorer with domain-specific keywords

	Output:
	- Coverage improvement from 68.9% to 95.2% (40/42 categories mapped)
	- Enhanced risk distribution analysis
	- Baseline risk scorer with 142 legal keywords across 7 categories

	---

	## Cell 16: Enhanced Baseline Risk Scoring System
	Purpose: Implement comprehensive keyword-based risk scoring with legal domain expertise
	Functionality:
	- Creates 142 domain-specific keywords across 7 risk categories
	- Implements phrase matching and context-aware scoring
	- Develops weighted contract-level risk aggregation
	- Tests scoring system on sample clauses from each risk type

	Output:
	- Enhanced baseline scorer with severity-weighted keywords (high/medium/low)
	- Contract-level risk assessment capabilities
	- Validation results showing scorer performance across risk categories

	---

	## Cell 17: Week 1 Completion Summary (Markdown)
	Purpose: Comprehensive summary of Week 1 achievements and detailed plan for Weeks 2-9
	Content:
	- Completed: Dataset analysis, risk taxonomy (95.2% coverage), baseline scoring
	- Key Insights: Risk distribution, complexity patterns, high-risk contract identification
	- Weeks 2-9 Plan: Detailed technical roadmap for data pipeline, Legal-BERT implementation, calibration
	- Success Metrics: Current achievements and targets for each development phase

	---

	## Cell 18: Contract Data Pipeline Development
	Purpose: Advanced preprocessing pipeline for Legal-BERT training preparation
	Functionality:
	- ContractDataPipeline Class: Comprehensive text processing for legal documents
	- Legal Entity Extraction: Monetary amounts, time periods, legal entities, parties, dates
	- Text Complexity Scoring: Legal language complexity based on modal verbs, conditionals, obligations
	- BERT Preparation: Tokenization-ready text with metadata and entity information
	- Contract Structure Analysis: Section headers, numbered clauses, paragraph analysis

	Output:
	- Pipeline testing on sample clauses showing complexity scores, entity counts, word statistics
	- Ready-to-use pipeline for processing full CUAD dataset for Legal-BERT training

	---

	## Cell 19: Cross-Validation Strategy and Data Splitting
	Purpose: Advanced data splitting strategy ensuring no data leakage between contracts
	Functionality:
	- LegalBertDataSplitter Class: Contract-level aware data splitting
	- Stratified Cross-Validation: 5-fold CV with balanced risk category distribution
	- Contract-Level Splits: Prevents clause leakage between train/validation/test sets
	- Multi-Task Dataset Preparation: Labels for classification, severity, and importance regression

	Output:
	- Proper data splits: Train/Val/Test at contract level
	- 5-fold cross-validation strategy with risk category stratification
	- Dataset statistics showing balanced distributions across splits

	---

	## Cell 20: Legal-BERT Architecture Design
	Purpose: Complete multi-task Legal-BERT model architecture for contract risk analysis
	Functionality:
	- LegalBertConfig Class: Configuration management for model hyperparameters
	- LegalBertMultiTaskModel: Three-headed architecture:
	- Risk classification head (7 categories)
	- Severity regression head (0-10 scale)
	- Importance regression head (0-10 scale)
	- Training Infrastructure: Multi-task loss computation, data loaders, checkpointing
	- Calibration Integration: Temperature scaling for uncertainty quantification

	Output:
	- Complete model architecture ready for training
	- Multi-task learning configuration with weighted loss functions
	- Training pipeline infrastructure with proper data handling

	---

	## Cell 21: Legal-BERT Architecture Implementation
	Purpose: Detailed implementation of Legal-BERT multi-task model with PyTorch
	Functionality:
	- Advanced Model Architecture: BERT-base with frozen embedding layers and custom heads
	- Multi-Task Learning: Joint optimization across classification and regression tasks
	- Training Components: Custom dataset class, data loaders, optimizer configuration
	- Calibration Layer: Temperature parameter for uncertainty estimation

	Output:
	- Fully implemented Legal-BERT model ready for training
	- Configuration summary showing model parameters and task weights
	- Device compatibility (CUDA/CPU) and architecture overview

	---

	## Cell 22: Calibration Framework Documentation (Markdown)
	Purpose: Introduction to comprehensive calibration framework for uncertainty quantification in legal predictions.

	---

	## Cell 23: Calibration Framework Implementation
	Purpose: Complete calibration framework with 5 methods for Legal-BERT uncertainty quantification
	Functionality:
	- CalibrationFramework Class: Comprehensive calibration system
	- 5 Calibration Methods:
	- Temperature scaling (single parameter optimization)
	- Platt scaling (sigmoid-based calibration)
	- Isotonic regression (non-parametric calibration)
	- Monte Carlo dropout (uncertainty via multiple forward passes)
	- Ensemble calibration (combining multiple model predictions)
	- Calibration Metrics: ECE, MCE, Brier Score for evaluation
	- Regression Calibration: Quantile and Gaussian methods for severity/importance scores
	- Visualization: Calibration curves and prediction distribution plots

	Output:
	- Complete calibration framework with all methods implemented
	- Testing results on sample data showing ECE/MCE calculations
	- Legal-specific calibration considerations for high-stakes decisions
	- Ready-to-use framework for Legal-BERT uncertainty quantification

	---

	## 🎯 Implementation Status Summary

	### ✅ Completed Infrastructure (100%)
	- Data Pipeline: Advanced preprocessing with legal entity extraction
	- Risk Taxonomy: 7 categories with 95.2% coverage (40/42 CUAD categories)
	- Model Architecture: Legal-BERT multi-task design with 3 prediction heads
	- Calibration Framework: 5 methods for uncertainty quantification
	- Cross-Validation: Contract-level splits preventing data leakage
	- Baseline System: Enhanced keyword-based scorer with 142 legal terms

	### 📋 Ready for Execution
	- Model Training: Legal-BERT fine-tuning on 19,598 processed clauses
	- Performance Evaluation: Comprehensive metrics and baseline comparison
	- Calibration Application: Uncertainty quantification for legal predictions
	- Documentation: Complete implementation guide and technical analysis

	### 🔬 Key Technical Achievements
	- Multi-Task Learning: Joint classification, severity, and importance prediction
	- Legal Domain Adaptation: Specialized preprocessing and risk categorization
	- Uncertainty Quantification: Multiple calibration methods for reliable predictions
	- Scalable Architecture: Modular design ready for production deployment

	---

	## 📈 Next Steps for Model Training
	1. Execute Legal-BERT Training: Run fine-tuning on full processed dataset
	2. Apply Calibration Methods: Improve prediction reliability with uncertainty quantification
	3. Comprehensive Evaluation: Compare against baseline and validate with legal experts
	4. Production Deployment: Package system for real-world contract analysis

	This notebook provides a complete, production-ready implementation of automated contract risk analysis using state-of-the-art NLP techniques with proper uncertainty quantification for high-stakes legal decision making.