Spaces:

Thadillo
/

participatory-planner

Sleeping

thadillo Claude commited on Oct 6

Commit

19ce9e8

1 Parent(s): 7b3a4a2

Add fine-tuning infrastructure with custom hyperparameters and dataset import

Database Models:
- Created TrainingExample model to store admin corrections
- Created FineTuningRun model to track training runs and results

Training Dashboard:
- New admin/training page with statistics and controls
- Custom hyperparameter inputs (LoRA rank, learning rate, epochs, batch size, alpha, dropout)
- Category distribution chart
- Training history table
- Import training dataset functionality
- Progress tracking modals

API Endpoints:
- GET /admin/training - Training dashboard
- GET /admin/api/training-stats - Training statistics
- GET /admin/api/training-examples - List training examples
- DELETE /admin/api/training-example/<id> - Delete training example
- POST /admin/import-training-dataset - Import standalone training dataset

Export/Import:
- Updated export_json to include trainingExamples
- Updated import_data to restore training examples
- Added standalone training dataset import for pre-labeled data

Update Category Tracking:
- Modified update_category endpoint to automatically capture training examples
- Tracks original predictions and admin corrections
- Creates/updates TrainingExample records on every category change

Dependencies:
- Added peft, datasets, scikit-learn, matplotlib, seaborn, accelerate, evaluate

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (6) hide show

app/fine_tuning/__init__.py +14 -0
app/models/models.py +88 -0
app/routes/admin.py +273 -2
app/templates/admin/base.html +6 -0
app/templates/admin/training.html +652 -0
requirements.txt +9 -0

app/fine_tuning/__init__.py ADDED Viewed

	@@ -0,0 +1,14 @@

+"""
+Fine-tuning module for training custom classification models.
+This module provides tools for:
+- Preparing training datasets from admin corrections
+- Fine-tuning BART models using LoRA (Low-Rank Adaptation)
+- Evaluating model performance
+- Managing model versions and deployment
+"""
+from .trainer import BARTFineTuner
+from .model_manager import ModelManager
+__all__ = ['BARTFineTuner', 'ModelManager']

app/models/models.py CHANGED Viewed

@@ -1,5 +1,6 @@
 from app import db
 from datetime import datetime
 class Token(db.Model):
     __tablename__ = 'tokens'
@@ -66,3 +67,90 @@ class Settings(db.Model):
             setting = Settings(key=key, value=value)
             db.session.add(setting)
         db.session.commit()

 from app import db
 from datetime import datetime
+import json
 class Token(db.Model):
     __tablename__ = 'tokens'
             setting = Settings(key=key, value=value)
             db.session.add(setting)
         db.session.commit()
+class TrainingExample(db.Model):
+    """Stores admin corrections for model fine-tuning"""
+    __tablename__ = 'training_examples'
+    id = db.Column(db.Integer, primary_key=True)
+    submission_id = db.Column(db.Integer, db.ForeignKey('submissions.id'), nullable=False)
+    message = db.Column(db.Text, nullable=False)  # Snapshot of submission text
+    original_category = db.Column(db.String(50), nullable=True)  # AI's prediction
+    corrected_category = db.Column(db.String(50), nullable=False)  # Admin's correction
+    contributor_type = db.Column(db.String(20), nullable=False)
+    correction_timestamp = db.Column(db.DateTime, default=datetime.utcnow)
+    confidence_score = db.Column(db.Float, nullable=True)  # Original prediction confidence
+    used_in_training = db.Column(db.Boolean, default=False)
+    training_run_id = db.Column(db.Integer, db.ForeignKey('fine_tuning_runs.id'), nullable=True)
+    # Relationships
+    submission = db.relationship('Submission', backref='training_examples')
+    training_run = db.relationship('FineTuningRun', backref='training_examples')
+    def to_dict(self):
+        return {
+            'id': self.id,
+            'submission_id': self.submission_id,
+            'message': self.message,
+            'original_category': self.original_category,
+            'corrected_category': self.corrected_category,
+            'contributor_type': self.contributor_type,
+            'correction_timestamp': self.correction_timestamp.isoformat() if self.correction_timestamp else None,
+            'confidence_score': self.confidence_score,
+            'used_in_training': self.used_in_training,
+            'training_run_id': self.training_run_id,
+            'is_correction': self.original_category != self.corrected_category if self.original_category else False
+        }
+class FineTuningRun(db.Model):
+    """Tracks fine-tuning training runs and their results"""
+    __tablename__ = 'fine_tuning_runs'
+    id = db.Column(db.Integer, primary_key=True)
+    created_at = db.Column(db.DateTime, default=datetime.utcnow)
+    status = db.Column(db.String(20), default='preparing')  # preparing, training, evaluating, completed, failed
+    num_training_examples = db.Column(db.Integer, nullable=True)
+    num_validation_examples = db.Column(db.Integer, nullable=True)
+    num_test_examples = db.Column(db.Integer, nullable=True)
+    training_config = db.Column(db.Text, nullable=True)  # JSON string
+    results = db.Column(db.Text, nullable=True)  # JSON string with metrics
+    model_path = db.Column(db.String(255), nullable=True)
+    is_active_model = db.Column(db.Boolean, default=False)
+    improvement_over_baseline = db.Column(db.Float, nullable=True)
+    completed_at = db.Column(db.DateTime, nullable=True)
+    error_message = db.Column(db.Text, nullable=True)
+    def to_dict(self):
+        return {
+            'id': self.id,
+            'created_at': self.created_at.isoformat() if self.created_at else None,
+            'status': self.status,
+            'num_training_examples': self.num_training_examples,
+            'num_validation_examples': self.num_validation_examples,
+            'num_test_examples': self.num_test_examples,
+            'training_config': json.loads(self.training_config) if self.training_config else None,
+            'results': json.loads(self.results) if self.results else None,
+            'model_path': self.model_path,
+            'is_active_model': self.is_active_model,
+            'improvement_over_baseline': self.improvement_over_baseline,
+            'completed_at': self.completed_at.isoformat() if self.completed_at else None,
+            'error_message': self.error_message
+        }
+    def set_config(self, config_dict):
+        """Set training config from dict"""
+        self.training_config = json.dumps(config_dict)
+    def get_config(self):
+        """Get training config as dict"""
+        return json.loads(self.training_config) if self.training_config else {}
+    def set_results(self, results_dict):
+        """Set results from dict"""
+        self.results = json.dumps(results_dict)
+    def get_results(self):
+        """Get results as dict"""
+        return json.loads(self.results) if self.results else {}

app/routes/admin.py CHANGED Viewed

@@ -1,5 +1,5 @@
 from flask import Blueprint, render_template, request, redirect, url_for, session, flash, jsonify, send_file
-from app.models.models import Token, Submission, Settings
 from app import db
 from app.analyzer import get_analyzer
 from functools import wraps
@@ -226,6 +226,10 @@ def update_category(submission_id):
         submission = Submission.query.get_or_404(submission_id)
         data = request.json
         category = data.get('category')
         # Convert empty string to None
         if category == '' or category == 'null':
@@ -235,8 +239,33 @@ def update_category(submission_id):
         if category and category not in CATEGORIES:
             return jsonify({'success': False, 'error': f'Invalid category: {category}'}), 400
         submission.category = category
         db.session.commit()
         return jsonify({'success': True, 'category': category})
     except Exception as e:
@@ -307,6 +336,7 @@ def export_json():
     data = {
         'tokens': [t.to_dict() for t in Token.query.all()],
         'submissions': [s.to_dict() for s in Submission.query.all()],
         'submissionOpen': Settings.get_setting('submission_open', 'true') == 'true',
         'tokenGenerationEnabled': Settings.get_setting('token_generation_enabled', 'true') == 'true',
         'exportDate': datetime.utcnow().isoformat()
@@ -401,13 +431,35 @@ def import_data():
             )
             db.session.add(submission)
         # Import settings
         Settings.set_setting('submission_open', 'true' if data.get('submissionOpen', True) else 'false')
         Settings.set_setting('token_generation_enabled', 'true' if data.get('tokenGenerationEnabled', True) else 'false')
         db.session.commit()
-        return jsonify({'success': True})
     except Exception as e:
         db.session.rollback()
@@ -435,3 +487,222 @@ def clear_all_data():
     except Exception as e:
         db.session.rollback()
         return jsonify({'success': False, 'error': str(e)}), 500

 from flask import Blueprint, render_template, request, redirect, url_for, session, flash, jsonify, send_file
+from app.models.models import Token, Submission, Settings, TrainingExample, FineTuningRun
 from app import db
 from app.analyzer import get_analyzer
 from functools import wraps
         submission = Submission.query.get_or_404(submission_id)
         data = request.json
         category = data.get('category')
+        confidence = data.get('confidence')  # Optional: frontend can pass prediction confidence
+        # Store original category before change
+        original_category = submission.category
         # Convert empty string to None
         if category == '' or category == 'null':
         if category and category not in CATEGORIES:
             return jsonify({'success': False, 'error': f'Invalid category: {category}'}), 400
+        # Create training example if admin is making a correction or confirmation
+        if category is not None:  # Only track when assigning a category
+            # Check if training example already exists for this submission
+            existing_example = TrainingExample.query.filter_by(submission_id=submission_id).first()
+            if existing_example:
+                # Update existing example
+                existing_example.original_category = original_category
+                existing_example.corrected_category = category
+                existing_example.correction_timestamp = datetime.utcnow()
+                existing_example.confidence_score = confidence
+            else:
+                # Create new training example
+                training_example = TrainingExample(
+                    submission_id=submission_id,
+                    message=submission.message,
+                    original_category=original_category,
+                    corrected_category=category,
+                    contributor_type=submission.contributor_type,
+                    confidence_score=confidence
+                )
+                db.session.add(training_example)
+        # Update submission category
         submission.category = category
         db.session.commit()
         return jsonify({'success': True, 'category': category})
     except Exception as e:
     data = {
         'tokens': [t.to_dict() for t in Token.query.all()],
         'submissions': [s.to_dict() for s in Submission.query.all()],
+        'trainingExamples': [ex.to_dict() for ex in TrainingExample.query.all()],
         'submissionOpen': Settings.get_setting('submission_open', 'true') == 'true',
         'tokenGenerationEnabled': Settings.get_setting('token_generation_enabled', 'true') == 'true',
         'exportDate': datetime.utcnow().isoformat()
             )
             db.session.add(submission)
+        # Import training examples if present
+        training_examples_imported = 0
+        for ex_data in data.get('trainingExamples', []):
+            # Find corresponding submission by message (or create placeholder)
+            submission = Submission.query.filter_by(message=ex_data['message']).first()
+            if submission:
+                training_example = TrainingExample(
+                    submission_id=submission.id,
+                    message=ex_data['message'],
+                    original_category=ex_data.get('original_category'),
+                    corrected_category=ex_data['corrected_category'],
+                    contributor_type=ex_data['contributor_type'],
+                    correction_timestamp=datetime.fromisoformat(ex_data['correction_timestamp']) if ex_data.get('correction_timestamp') else datetime.utcnow(),
+                    confidence_score=ex_data.get('confidence_score'),
+                    used_in_training=ex_data.get('used_in_training', False)
+                )
+                db.session.add(training_example)
+                training_examples_imported += 1
         # Import settings
         Settings.set_setting('submission_open', 'true' if data.get('submissionOpen', True) else 'false')
         Settings.set_setting('token_generation_enabled', 'true' if data.get('tokenGenerationEnabled', True) else 'false')
         db.session.commit()
+        return jsonify({
+            'success': True,
+            'training_examples_imported': training_examples_imported
+        })
     except Exception as e:
         db.session.rollback()
     except Exception as e:
         db.session.rollback()
         return jsonify({'success': False, 'error': str(e)}), 500
+# ============================================================================
+# FINE-TUNING & TRAINING DATA ENDPOINTS
+# ============================================================================
+@bp.route('/training')
+@admin_required
+def training_dashboard():
+    """Display the fine-tuning training dashboard"""
+    # Get training statistics
+    total_examples = TrainingExample.query.count()
+    corrections_count = TrainingExample.query.filter(
+        TrainingExample.original_category != TrainingExample.corrected_category
+    ).count()
+    confirmations_count = total_examples - corrections_count
+    # Category distribution
+    from sqlalchemy import func
+    category_distribution = db.session.query(
+        TrainingExample.corrected_category,
+        func.count(TrainingExample.id)
+    ).group_by(TrainingExample.corrected_category).all()
+    category_stats = {cat: 0 for cat in CATEGORIES}
+    for cat, count in category_distribution:
+        if cat in category_stats:
+            category_stats[cat] = count
+    # Get all training runs
+    training_runs = FineTuningRun.query.order_by(FineTuningRun.created_at.desc()).all()
+    # Get active model
+    active_model = FineTuningRun.query.filter_by(is_active_model=True).first()
+    # Fine-tuning settings
+    min_training_examples = int(Settings.get_setting('min_training_examples', '20'))
+    fine_tuning_enabled = Settings.get_setting('fine_tuning_enabled', 'true') == 'true'
+    return render_template('admin/training.html',
+                         total_examples=total_examples,
+                         corrections_count=corrections_count,
+                         confirmations_count=confirmations_count,
+                         category_stats=category_stats,
+                         categories=CATEGORIES,
+                         training_runs=training_runs,
+                         active_model=active_model,
+                         min_training_examples=min_training_examples,
+                         fine_tuning_enabled=fine_tuning_enabled,
+                         ready_to_train=total_examples >= min_training_examples)
+@bp.route('/api/training-stats', methods=['GET'])
+@admin_required
+def get_training_stats():
+    """Get training data statistics (API endpoint)"""
+    total_examples = TrainingExample.query.count()
+    corrections_count = TrainingExample.query.filter(
+        TrainingExample.original_category != TrainingExample.corrected_category
+    ).count()
+    # Category distribution
+    from sqlalchemy import func
+    category_distribution = db.session.query(
+        TrainingExample.corrected_category,
+        func.count(TrainingExample.id)
+    ).group_by(TrainingExample.corrected_category).all()
+    category_stats = {cat: 0 for cat in CATEGORIES}
+    for cat, count in category_distribution:
+        if cat in category_stats:
+            category_stats[cat] = count
+    # Check for data quality issues
+    duplicates = db.session.query(
+        TrainingExample.message,
+        func.count(TrainingExample.id)
+    ).group_by(TrainingExample.message).having(func.count(TrainingExample.id) > 1).count()
+    min_examples = int(Settings.get_setting('min_training_examples', '20'))
+    min_per_category = min(category_stats.values()) if category_stats.values() else 0
+    return jsonify({
+        'total_examples': total_examples,
+        'corrections_count': corrections_count,
+        'confirmations_count': total_examples - corrections_count,
+        'category_stats': category_stats,
+        'duplicates_count': duplicates,
+        'min_examples_threshold': min_examples,
+        'min_examples_per_category': min_per_category,
+        'ready_to_train': total_examples >= min_examples and min_per_category >= 2
+    })
+@bp.route('/api/training-examples', methods=['GET'])
+@admin_required
+def get_training_examples():
+    """Get all training examples"""
+    page = request.args.get('page', 1, type=int)
+    per_page = request.args.get('per_page', 50, type=int)
+    category_filter = request.args.get('category', 'all')
+    corrections_only = request.args.get('corrections_only', 'false') == 'true'
+    query = TrainingExample.query
+    if category_filter != 'all':
+        query = query.filter_by(corrected_category=category_filter)
+    if corrections_only:
+        query = query.filter(TrainingExample.original_category != TrainingExample.corrected_category)
+    query = query.order_by(TrainingExample.correction_timestamp.desc())
+    pagination = query.paginate(page=page, per_page=per_page, error_out=False)
+    return jsonify({
+        'examples': [ex.to_dict() for ex in pagination.items],
+        'total': pagination.total,
+        'pages': pagination.pages,
+        'current_page': page
+    })
+@bp.route('/api/training-example/<int:example_id>', methods=['DELETE'])
+@admin_required
+def delete_training_example(example_id):
+    """Delete a training example"""
+    try:
+        example = TrainingExample.query.get_or_404(example_id)
+        # Don't allow deleting if already used in training
+        if example.used_in_training:
+            return jsonify({
+                'success': False,
+                'error': 'Cannot delete example already used in training run'
+            }), 400
+        db.session.delete(example)
+        db.session.commit()
+        return jsonify({'success': True})
+    except Exception as e:
+        db.session.rollback()
+        return jsonify({'success': False, 'error': str(e)}), 500
+@bp.route('/import-training-dataset', methods=['POST'])
+@admin_required
+def import_training_dataset():
+    """Import standalone training dataset (just training examples, not full session)"""
+    if 'file' not in request.files:
+        return jsonify({'success': False, 'error': 'No file uploaded'}), 400
+    file = request.files['file']
+    if file.filename == '':
+        return jsonify({'success': False, 'error': 'No file selected'}), 400
+    try:
+        data = json.load(file)
+        # Support both formats: array of examples or object with 'trainingExamples' key
+        training_data = data if isinstance(data, list) else data.get('trainingExamples', [])
+        imported_count = 0
+        for ex_data in training_data:
+            # Check if training example already exists (by message)
+            existing = TrainingExample.query.filter_by(message=ex_data['message']).first()
+            if existing:
+                # Update existing example
+                existing.original_category = ex_data.get('original_category')
+                existing.corrected_category = ex_data['corrected_category']
+                existing.contributor_type = ex_data.get('contributor_type', 'other')
+                existing.correction_timestamp = datetime.utcnow()
+                existing.confidence_score = ex_data.get('confidence_score')
+            else:
+                # Create placeholder submission if needed
+                submission = Submission.query.filter_by(message=ex_data['message']).first()
+                if not submission:
+                    # Create placeholder submission for this training example
+                    submission = Submission(
+                        message=ex_data['message'],
+                        contributor_type=ex_data.get('contributor_type', 'other'),
+                        category=ex_data.get('corrected_category'),
+                        timestamp=datetime.utcnow()
+                    )
+                    db.session.add(submission)
+                    db.session.flush()  # Get submission ID
+                # Create new training example
+                training_example = TrainingExample(
+                    submission_id=submission.id,
+                    message=ex_data['message'],
+                    original_category=ex_data.get('original_category'),
+                    corrected_category=ex_data['corrected_category'],
+                    contributor_type=ex_data.get('contributor_type', 'other'),
+                    confidence_score=ex_data.get('confidence_score')
+                )
+                db.session.add(training_example)
+            imported_count += 1
+        db.session.commit()
+        return jsonify({
+            'success': True,
+            'imported_count': imported_count
+        })
+    except KeyError as e:
+        db.session.rollback()
+        return jsonify({'success': False, 'error': f'Missing required field: {str(e)}'}), 400
+    except Exception as e:
+        db.session.rollback()
+        return jsonify({'success': False, 'error': str(e)}), 500

app/templates/admin/base.html CHANGED Viewed

@@ -42,6 +42,12 @@
                             <i class="bi bi-graph-up"></i> Analytics
                         </a>
                     </li>
                 </ul>
                 <div class="d-flex gap-2">
                     <a href="{{ url_for('admin.export_json') }}" class="btn btn-success btn-sm">

                             <i class="bi bi-graph-up"></i> Analytics
                         </a>
                     </li>
+                    <li class="nav-item">
+                        <a class="nav-link {% if request.endpoint == 'admin.training_dashboard' %}active{% endif %}"
+                           href="{{ url_for('admin.training_dashboard') }}">
+                            <i class="bi bi-robot"></i> Training
+                        </a>
+                    </li>
                 </ul>
                 <div class="d-flex gap-2">
                     <a href="{{ url_for('admin.export_json') }}" class="btn btn-success btn-sm">

app/templates/admin/training.html ADDED Viewed

	@@ -0,0 +1,652 @@

+{% extends "admin/base.html" %}
+{% block title %}Model Training - Admin Dashboard{% endblock %}
+{% block admin_content %}
+<div class="mb-4">
+    <h2><i class="bi bi-robot"></i> Model Fine-Tuning</h2>
+    <p class="text-muted">Train the AI model with admin corrections to improve classification accuracy</p>
+</div>
+<!-- Training Data Statistics -->
+<div class="row g-4 mb-4">
+    <div class="col-md-3">
+        <div class="card shadow-sm">
+            <div class="card-body text-center">
+                <h3 class="text-primary">{{ total_examples }}</h3>
+                <p class="text-muted mb-0">Total Training Examples</p>
+            </div>
+        </div>
+    </div>
+    <div class="col-md-3">
+        <div class="card shadow-sm">
+            <div class="card-body text-center">
+                <h3 class="text-warning">{{ corrections_count }}</h3>
+                <p class="text-muted mb-0">AI Corrections</p>
+            </div>
+        </div>
+    </div>
+    <div class="col-md-3">
+        <div class="card shadow-sm">
+            <div class="card-body text-center">
+                <h3 class="text-success">{{ confirmations_count }}</h3>
+                <p class="text-muted mb-0">AI Confirmations</p>
+            </div>
+        </div>
+    </div>
+    <div class="col-md-3">
+        <div class="card shadow-sm {% if ready_to_train %}border-success{% endif %}">
+            <div class="card-body text-center">
+                <h3 class="{% if ready_to_train %}text-success{% else %}text-secondary{% endif %}">
+                    {{ min_training_examples }}
+                </h3>
+                <p class="text-muted mb-0">
+                    Minimum Required
+                    {% if ready_to_train %}
+                    <i class="bi bi-check-circle-fill text-success"></i>
+                    {% endif %}
+                </p>
+            </div>
+        </div>
+    </div>
+</div>
+<!-- Category Distribution Chart -->
+<div class="card shadow-sm mb-4">
+    <div class="card-header">
+        <h5 class="mb-0"><i class="bi bi-bar-chart-fill"></i> Category Distribution</h5>
+    </div>
+    <div class="card-body">
+        <canvas id="categoryDistChart" height="80"></canvas>
+    </div>
+</div>
+<!-- Fine-Tuning Controls -->
+<div class="card shadow-sm mb-4">
+    <div class="card-header d-flex justify-content-between align-items-center">
+        <h5 class="mb-0"><i class="bi bi-gear-fill"></i> Training Controls</h5>
+        {% if active_model %}
+        <span class="badge bg-success">
+            <i class="bi bi-cpu-fill"></i> Fine-tuned model active
+        </span>
+        {% else %}
+        <span class="badge bg-secondary">
+            <i class="bi bi-cpu"></i> Base model active
+        </span>
+        {% endif %}
+    </div>
+    <div class="card-body">
+        <!-- Import Training Dataset Section -->
+        <div class="mb-4">
+            <h6><i class="bi bi-upload"></i> Import Training Dataset</h6>
+            <p class="text-muted small">Upload a JSON file with pre-labeled training examples</p>
+            <div class="input-group">
+                <input type="file" class="form-control" id="trainingDatasetFile" accept=".json">
+                <button class="btn btn-outline-secondary" type="button" onclick="importTrainingDataset()">
+                    <i class="bi bi-cloud-upload"></i> Import
+                </button>
+            </div>
+        </div>
+        <hr>
+        {% if not fine_tuning_enabled %}
+        <div class="alert alert-warning">
+            <i class="bi bi-exclamation-triangle-fill"></i>
+            Fine-tuning is currently disabled in settings.
+        </div>
+        {% elif not ready_to_train %}
+        <div class="alert alert-info">
+            <i class="bi bi-info-circle-fill"></i>
+            Collect at least {{ min_training_examples }} training examples before starting fine-tuning.
+            Current: {{ total_examples }}
+        </div>
+        {% else %}
+        <div class="alert alert-success">
+            <i class="bi bi-check-circle-fill"></i>
+            Ready to train! You have {{ total_examples }} training examples collected.
+        </div>
+        <form id="trainingConfigForm">
+            <div class="row mb-3">
+                <div class="col-md-4">
+                    <label class="form-label">Training Split (%)</label>
+                    <input type="number" class="form-control" id="trainSplit" value="70" min="50" max="80">
+                </div>
+                <div class="col-md-4">
+                    <label class="form-label">Validation Split (%)</label>
+                    <input type="number" class="form-control" id="valSplit" value="15" min="10" max="30">
+                </div>
+                <div class="col-md-4">
+                    <label class="form-label">Test Split (%)</label>
+                    <input type="number" class="form-control" id="testSplit" value="15" min="10" max="30" readonly>
+                </div>
+            </div>
+            <div class="row mb-3">
+                <div class="col-md-4">
+                    <label class="form-label">
+                        LoRA Rank
+                        <button type="button" class="btn btn-sm btn-link p-0" onclick="toggleCustomLoraRank()">
+                            <i class="bi bi-pencil-square"></i>
+                        </button>
+                    </label>
+                    <select class="form-select" id="loraRank" onchange="checkCustomLoraRank()">
+                        <option value="8">8 (Fast, less capacity)</option>
+                        <option value="16" selected>16 (Balanced)</option>
+                        <option value="32">32 (Slow, more capacity)</option>
+                        <option value="custom">Custom...</option>
+                    </select>
+                    <input type="number" class="form-control mt-2" id="customLoraRank"
+                           style="display: none;" placeholder="Enter custom rank (4-64)"
+                           min="4" max="64" step="4" value="16">
+                </div>
+                <div class="col-md-4">
+                    <label class="form-label">
+                        Learning Rate
+                        <button type="button" class="btn btn-sm btn-link p-0" onclick="toggleCustomLearningRate()">
+                            <i class="bi bi-pencil-square"></i>
+                        </button>
+                    </label>
+                    <select class="form-select" id="learningRate" onchange="checkCustomLearningRate()">
+                        <option value="1e-4">1e-4 (Conservative)</option>
+                        <option value="3e-4" selected>3e-4 (Recommended)</option>
+                        <option value="5e-4">5e-4 (Aggressive)</option>
+                        <option value="custom">Custom...</option>
+                    </select>
+                    <input type="text" class="form-control mt-2" id="customLearningRate"
+                           style="display: none;" placeholder="e.g., 2e-4"
+                           pattern="[0-9]+\.?[0-9]*e-[0-9]+" value="3e-4">
+                </div>
+                <div class="col-md-4">
+                    <label class="form-label">
+                        Epochs
+                        <button type="button" class="btn btn-sm btn-link p-0" onclick="toggleCustomEpochs()">
+                            <i class="bi bi-pencil-square"></i>
+                        </button>
+                    </label>
+                    <select class="form-select" id="numEpochs" onchange="checkCustomEpochs()">
+                        <option value="3" selected>3 (Fast)</option>
+                        <option value="5">5 (Balanced)</option>
+                        <option value="8">8 (Thorough)</option>
+                        <option value="custom">Custom...</option>
+                    </select>
+                    <input type="number" class="form-control mt-2" id="customEpochs"
+                           style="display: none;" placeholder="Enter custom epochs (1-20)"
+                           min="1" max="20" value="3">
+                </div>
+            </div>
+            <div class="row mb-3">
+                <div class="col-md-4">
+                    <label class="form-label">Batch Size</label>
+                    <select class="form-select" id="batchSize">
+                        <option value="4">4 (Low memory)</option>
+                        <option value="8" selected>8 (Recommended)</option>
+                        <option value="16">16 (High memory)</option>
+                    </select>
+                </div>
+                <div class="col-md-4">
+                    <label class="form-label">LoRA Alpha</label>
+                    <input type="number" class="form-control" id="loraAlpha" value="32" min="8" max="128" step="8">
+                    <small class="text-muted">Scaling factor (typically 2x rank)</small>
+                </div>
+                <div class="col-md-4">
+                    <label class="form-label">LoRA Dropout</label>
+                    <input type="number" class="form-control" id="loraDropout" value="0.1" min="0" max="0.5" step="0.05">
+                    <small class="text-muted">Regularization (0.0-0.5)</small>
+                </div>
+            </div>
+            <div class="d-grid gap-2">
+                <button type="button" class="btn btn-primary btn-lg" onclick="startTraining()">
+                    <i class="bi bi-play-circle-fill"></i> Start Fine-Tuning
+                </button>
+            </div>
+        </form>
+        {% endif %}
+        {% if active_model %}
+        <hr>
+        <div class="d-grid gap-2">
+            <button class="btn btn-warning" onclick="rollbackModel()">
+                <i class="bi bi-arrow-counterclockwise"></i> Rollback to Base Model
+            </button>
+        </div>
+        {% endif %}
+    </div>
+</div>
+<!-- Training History -->
+<div class="card shadow-sm mb-4">
+    <div class="card-header">
+        <h5 class="mb-0"><i class="bi bi-clock-history"></i> Training History</h5>
+    </div>
+    <div class="card-body">
+        {% if training_runs %}
+        <div class="table-responsive">
+            <table class="table table-hover">
+                <thead>
+                    <tr>
+                        <th>Run ID</th>
+                        <th>Date</th>
+                        <th>Status</th>
+                        <th>Examples</th>
+                        <th>Accuracy</th>
+                        <th>Improvement</th>
+                        <th>Actions</th>
+                    </tr>
+                </thead>
+                <tbody>
+                    {% for run in training_runs %}
+                    <tr {% if run.is_active_model %}class="table-success"{% endif %}>
+                        <td>
+                            #{{ run.id }}
+                            {% if run.is_active_model %}
+                            <span class="badge bg-success ms-2">Active</span>
+                            {% endif %}
+                        </td>
+                        <td>{{ run.created_at.strftime('%Y-%m-%d %H:%M') if run.created_at else 'N/A' }}</td>
+                        <td>
+                            {% if run.status == 'completed' %}
+                            <span class="badge bg-success">Completed</span>
+                            {% elif run.status == 'failed' %}
+                            <span class="badge bg-danger">Failed</span>
+                            {% elif run.status == 'training' %}
+                            <span class="badge bg-primary">Training...</span>
+                            {% else %}
+                            <span class="badge bg-secondary">{{ run.status.title() }}</span>
+                            {% endif %}
+                        </td>
+                        <td>{{ run.num_training_examples or 'N/A' }}</td>
+                        <td>
+                            {% if run.results %}
+                            {{ "%.1f"|format((run.get_results().get('test_accuracy', 0) * 100)) }}%
+                            {% else %}
+                            N/A
+                            {% endif %}
+                        </td>
+                        <td>
+                            {% if run.improvement_over_baseline %}
+                            <span class="{% if run.improvement_over_baseline > 0 %}text-success{% else %}text-danger{% endif %}">
+                                {{ "%+.1f"|format(run.improvement_over_baseline * 100) }}%
+                            </span>
+                            {% else %}
+                            N/A
+                            {% endif %}
+                        </td>
+                        <td>
+                            {% if run.status == 'completed' and not run.is_active_model %}
+                            <button class="btn btn-sm btn-primary" onclick="deployModel({{ run.id }})">
+                                <i class="bi bi-cloud-upload"></i> Deploy
+                            </button>
+                            {% endif %}
+                            <button class="btn btn-sm btn-info" onclick="viewRunDetails({{ run.id }})">
+                                <i class="bi bi-eye"></i> Details
+                            </button>
+                        </td>
+                    </tr>
+                    {% endfor %}
+                </tbody>
+            </table>
+        </div>
+        {% else %}
+        <div class="text-center py-4 text-muted">
+            <i class="bi bi-inbox" style="font-size: 3rem;"></i>
+            <p class="mt-3">No training runs yet. Start your first fine-tuning session above!</p>
+        </div>
+        {% endif %}
+    </div>
+</div>
+<!-- Training Progress Modal -->
+<div class="modal fade" id="trainingProgressModal" data-bs-backdrop="static" data-bs-keyboard="false" tabindex="-1">
+    <div class="modal-dialog modal-dialog-centered">
+        <div class="modal-content">
+            <div class="modal-header">
+                <h5 class="modal-title"><i class="bi bi-hourglass-split"></i> Training in Progress</h5>
+            </div>
+            <div class="modal-body text-center">
+                <div class="spinner-border text-primary mb-3" style="width: 3rem; height: 3rem;" role="status">
+                    <span class="visually-hidden">Training...</span>
+                </div>
+                <h5 id="trainingStatus">Preparing data...</h5>
+                <p class="text-muted" id="trainingDetails">This may take several minutes</p>
+                <div class="progress mt-3">
+                    <div class="progress-bar progress-bar-striped progress-bar-animated"
+                         role="progressbar"
+                         style="width: 0%"
+                         id="trainingProgress"></div>
+                </div>
+            </div>
+        </div>
+    </div>
+</div>
+<!-- Run Details Modal -->
+<div class="modal fade" id="runDetailsModal" tabindex="-1">
+    <div class="modal-dialog modal-lg">
+        <div class="modal-content">
+            <div class="modal-header">
+                <h5 class="modal-title"><i class="bi bi-info-circle"></i> Training Run Details</h5>
+                <button type="button" class="btn-close" data-bs-dismiss="modal"></button>
+            </div>
+            <div class="modal-body" id="runDetailsContent">
+                <!-- Content loaded dynamically -->
+            </div>
+        </div>
+    </div>
+</div>
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4.4.0/dist/chart.umd.min.js"></script>
+<script>
+// Category distribution chart
+const categoryStats = {{ category_stats|tojson }};
+const categories = {{ categories|tojson }};
+const ctx = document.getElementById('categoryDistChart').getContext('2d');
+new Chart(ctx, {
+    type: 'bar',
+    data: {
+        labels: categories,
+        datasets: [{
+            label: 'Training Examples',
+            data: categories.map(cat => categoryStats[cat] || 0),
+            backgroundColor: [
+                'rgba(59, 130, 246, 0.7)',   // Vision - blue
+                'rgba(239, 68, 68, 0.7)',     // Problem - red
+                'rgba(16, 185, 129, 0.7)',    // Objectives - green
+                'rgba(245, 158, 11, 0.7)',    // Directives - orange
+                'rgba(139, 92, 246, 0.7)',    // Values - purple
+                'rgba(236, 72, 153, 0.7)'     // Actions - pink
+            ],
+            borderColor: [
+                'rgba(59, 130, 246, 1)',
+                'rgba(239, 68, 68, 1)',
+                'rgba(16, 185, 129, 1)',
+                'rgba(245, 158, 11, 1)',
+                'rgba(139, 92, 246, 1)',
+                'rgba(236, 72, 153, 1)'
+            ],
+            borderWidth: 2
+        }]
+    },
+    options: {
+        responsive: true,
+        plugins: {
+            legend: {
+                display: false
+            }
+        },
+        scales: {
+            y: {
+                beginAtZero: true,
+                ticks: {
+                    stepSize: 1
+                }
+            }
+        }
+    }
+});
+// Update test split automatically
+document.getElementById('trainSplit').addEventListener('input', updateTestSplit);
+document.getElementById('valSplit').addEventListener('input', updateTestSplit);
+function updateTestSplit() {
+    const train = parseInt(document.getElementById('trainSplit').value);
+    const val = parseInt(document.getElementById('valSplit').value);
+    const test = 100 - train - val;
+    document.getElementById('testSplit').value = test;
+}
+// Custom hyperparameter toggle functions
+function checkCustomLoraRank() {
+    const select = document.getElementById('loraRank');
+    const customInput = document.getElementById('customLoraRank');
+    customInput.style.display = select.value === 'custom' ? 'block' : 'none';
+}
+function toggleCustomLoraRank() {
+    document.getElementById('loraRank').value = 'custom';
+    checkCustomLoraRank();
+    document.getElementById('customLoraRank').focus();
+}
+function checkCustomLearningRate() {
+    const select = document.getElementById('learningRate');
+    const customInput = document.getElementById('customLearningRate');
+    customInput.style.display = select.value === 'custom' ? 'block' : 'none';
+}
+function toggleCustomLearningRate() {
+    document.getElementById('learningRate').value = 'custom';
+    checkCustomLearningRate();
+    document.getElementById('customLearningRate').focus();
+}
+function checkCustomEpochs() {
+    const select = document.getElementById('numEpochs');
+    const customInput = document.getElementById('customEpochs');
+    customInput.style.display = select.value === 'custom' ? 'block' : 'none';
+}
+function toggleCustomEpochs() {
+    document.getElementById('numEpochs').value = 'custom';
+    checkCustomEpochs();
+    document.getElementById('customEpochs').focus();
+}
+// Get hyperparameter values (custom or preset)
+function getLoraRank() {
+    const select = document.getElementById('loraRank');
+    if (select.value === 'custom') {
+        return parseInt(document.getElementById('customLoraRank').value);
+    }
+    return parseInt(select.value);
+}
+function getLearningRate() {
+    const select = document.getElementById('learningRate');
+    if (select.value === 'custom') {
+        return parseFloat(document.getElementById('customLearningRate').value);
+    }
+    return parseFloat(select.value);
+}
+function getNumEpochs() {
+    const select = document.getElementById('numEpochs');
+    if (select.value === 'custom') {
+        return parseInt(document.getElementById('customEpochs').value);
+    }
+    return parseInt(select.value);
+}
+// Import training dataset function
+function importTrainingDataset() {
+    const fileInput = document.getElementById('trainingDatasetFile');
+    const file = fileInput.files[0];
+    if (!file) {
+        alert('Please select a JSON file to import');
+        return;
+    }
+    if (!confirm('Import training dataset? This will add new training examples to the existing collection.')) {
+        return;
+    }
+    const formData = new FormData();
+    formData.append('file', file);
+    fetch('{{ url_for("admin.import_training_dataset") }}', {
+        method: 'POST',
+        body: formData
+    })
+    .then(response => response.json())
+    .then(data => {
+        if (data.success) {
+            alert(`Successfully imported ${data.imported_count} training examples!`);
+            location.reload();
+        } else {
+            alert('Error importing dataset: ' + data.error);
+        }
+    })
+    .catch(err => {
+        alert('Error: ' + err.message);
+    });
+}
+// Start training function
+function startTraining() {
+    if (!confirm('Start fine-tuning the model? This will take several minutes.')) {
+        return;
+    }
+    const config = {
+        train_split: parseInt(document.getElementById('trainSplit').value) / 100,
+        val_split: parseInt(document.getElementById('valSplit').value) / 100,
+        test_split: parseInt(document.getElementById('testSplit').value) / 100,
+        lora_rank: getLoraRank(),
+        lora_alpha: parseInt(document.getElementById('loraAlpha').value),
+        lora_dropout: parseFloat(document.getElementById('loraDropout').value),
+        learning_rate: getLearningRate(),
+        num_epochs: getNumEpochs(),
+        batch_size: parseInt(document.getElementById('batchSize').value)
+    };
+    // Show progress modal
+    const progressModal = new bootstrap.Modal(document.getElementById('trainingProgressModal'));
+    progressModal.show();
+    fetch('{{ url_for("admin.start_fine_tuning") }}', {
+        method: 'POST',
+        headers: {'Content-Type': 'application/json'},
+        body: JSON.stringify(config)
+    })
+    .then(response => response.json())
+    .then(data => {
+        if (data.success) {
+            // Poll for training status
+            pollTrainingStatus(data.run_id, progressModal);
+        } else {
+            progressModal.hide();
+            alert('Error starting training: ' + data.error);
+        }
+    })
+    .catch(err => {
+        progressModal.hide();
+        alert('Error: ' + err.message);
+    });
+}
+// Poll training status
+let pollInterval;
+function pollTrainingStatus(runId, modal) {
+    pollInterval = setInterval(() => {
+        fetch(`{{ url_for("admin.get_training_status", run_id=0) }}`.replace('/0', `/${runId}`))
+        .then(response => response.json())
+        .then(data => {
+            document.getElementById('trainingStatus').textContent = data.status_message || data.status;
+            document.getElementById('trainingDetails').textContent = data.details || '';
+            // Update progress bar
+            const progress = data.progress || 0;
+            document.getElementById('trainingProgress').style.width = progress + '%';
+            if (data.status === 'completed' || data.status === 'failed') {
+                clearInterval(pollInterval);
+                modal.hide();
+                if (data.status === 'completed') {
+                    alert('Training completed! Accuracy: ' + (data.results.test_accuracy * 100).toFixed(1) + '%');
+                } else {
+                    alert('Training failed: ' + data.error_message);
+                }
+                location.reload();
+            }
+        });
+    }, 2000);  // Poll every 2 seconds
+}
+// Deploy model
+function deployModel(runId) {
+    if (!confirm('Deploy this model? It will replace the currently active model.')) {
+        return;
+    }
+    fetch(`{{ url_for("admin.deploy_model", run_id=0) }}`.replace('/0', `/${runId}`), {
+        method: 'POST'
+    })
+    .then(response => response.json())
+    .then(data => {
+        if (data.success) {
+            alert('Model deployed successfully!');
+            location.reload();
+        } else {
+            alert('Error deploying model: ' + data.error);
+        }
+    });
+}
+// Rollback model
+function rollbackModel() {
+    if (!confirm('Rollback to the base model? The fine-tuned model will be deactivated.')) {
+        return;
+    }
+    fetch('{{ url_for("admin.rollback_model") }}', {
+        method: 'POST'
+    })
+    .then(response => response.json())
+    .then(data => {
+        if (data.success) {
+            alert('Rolled back to base model');
+            location.reload();
+        } else {
+            alert('Error: ' + data.error);
+        }
+    });
+}
+// View run details
+function viewRunDetails(runId) {
+    fetch(`{{ url_for("admin.get_run_details", run_id=0) }}`.replace('/0', `/${runId}`))
+    .then(response => response.json())
+    .then(data => {
+        const content = `
+            <div class="row">
+                <div class="col-md-6">
+                    <h6>Training Configuration</h6>
+                    <ul class="list-group">
+                        <li class="list-group-item"><strong>LoRA Rank:</strong> ${data.config.lora_rank}</li>
+                        <li class="list-group-item"><strong>Learning Rate:</strong> ${data.config.learning_rate}</li>
+                        <li class="list-group-item"><strong>Epochs:</strong> ${data.config.num_epochs}</li>
+                        <li class="list-group-item"><strong>Training Examples:</strong> ${data.num_training_examples}</li>
+                        <li class="list-group-item"><strong>Validation Examples:</strong> ${data.num_validation_examples}</li>
+                        <li class="list-group-item"><strong>Test Examples:</strong> ${data.num_test_examples}</li>
+                    </ul>
+                </div>
+                <div class="col-md-6">
+                    <h6>Results</h6>
+                    ${data.results ? `
+                    <ul class="list-group">
+                        <li class="list-group-item"><strong>Test Accuracy:</strong> ${(data.results.test_accuracy * 100).toFixed(1)}%</li>
+                        <li class="list-group-item"><strong>Training Loss:</strong> ${data.results.train_loss ? data.results.train_loss.toFixed(4) : 'N/A'}</li>
+                        <li class="list-group-item"><strong>Validation Loss:</strong> ${data.results.val_loss ? data.results.val_loss.toFixed(4) : 'N/A'}</li>
+                        <li class="list-group-item"><strong>Improvement:</strong> <span class="${data.improvement_over_baseline > 0 ? 'text-success' : 'text-danger'}">${(data.improvement_over_baseline * 100).toFixed(1)}%</span></li>
+                    </ul>
+                    ` : '<p class="text-muted">No results available</p>'}
+                </div>
+            </div>
+            ${data.error_message ? `<div class="alert alert-danger mt-3">${data.error_message}</div>` : ''}
+        `;
+        document.getElementById('runDetailsContent').innerHTML = content;
+        const modal = new bootstrap.Modal(document.getElementById('runDetailsModal'));
+        modal.show();
+    });
+}
+</script>
+{% endblock %}

requirements.txt CHANGED Viewed

@@ -5,3 +5,12 @@ transformers==4.36.0
 torch==2.5.0
 sentencepiece>=0.2.0
 gunicorn==21.2.0

 torch==2.5.0
 sentencepiece>=0.2.0
 gunicorn==21.2.0
+# Fine-tuning dependencies
+peft>=0.7.0
+datasets>=2.14.0
+scikit-learn>=1.3.0
+matplotlib>=3.7.0
+seaborn>=0.12.0
+accelerate>=0.24.0
+evaluate>=0.4.0