Spaces:

azan888
/

3d_model

Sleeping

App Files Files Community

3d_model / docs /API_CLI_WIRING_COMPLETE.md

Azan

Clean deployment build (Squashed)

7a87926 7 days ago

preview code

raw

history blame contribute delete

6.19 kB

API & CLI Wiring - Complete Verification

All optimizations are now fully wired through the API and CLI.

✅ Complete Parameter List

Phase 4 Optimizations

BF16 Support
- API: use_bf16: bool
- CLI: --use-bf16
- Service: ✅ Integrated
Gradient Clipping
- API: gradient_clip_norm: Optional[float]
- CLI: --gradient-clip-norm
- Service: ✅ Integrated
Learning Rate Finder
- API: find_lr: bool
- CLI: --find-lr
- Service: ✅ Integrated
Batch Size Finder
- API: find_batch_size: bool
- CLI: --find-batch-size
- Service: ✅ Integrated

FSDP Options

FSDP
- API: use_fsdp: bool
- CLI: --use-fsdp
- Service: ✅ Integrated
FSDP Sharding Strategy
- API: fsdp_sharding_strategy: str
- CLI: --fsdp-sharding-strategy
- Service: ✅ Integrated
FSDP Mixed Precision
- API: fsdp_mixed_precision: Optional[str]
- CLI: --fsdp-mixed-precision
- Service: ✅ Integrated

Advanced Optimizations

QAT
- API: use_qat: bool
- CLI: --use-qat
- Service: ✅ Integrated
QAT Backend
- API: qat_backend: str
- CLI: --qat-backend
- Service: ✅ Integrated
Sequence Parallelism
- API: use_sequence_parallel: bool
- CLI: --use-sequence-parallel
- Service: ✅ Integrated
Sequence Parallel GPUs
- API: sequence_parallel_gpus: int
- CLI: --sequence-parallel-gpus
- Service: ✅ Integrated
Activation Recomputation
- API: activation_recompute_strategy: Optional[str]
- CLI: --activation-recompute-strategy
- Service: ✅ Integrated

Checkpoint Options

Async Checkpoint
- API: async_checkpoint: bool
- CLI: --async-checkpoint
- Service: ✅ Integrated
Compress Checkpoint
- API: compress_checkpoint: bool
- CLI: --compress-checkpoint
- Service: ✅ Integrated

🔄 Data Flow Verification

API Request Flow

POST /api/v1/train/start
    ↓
TrainRequest (Pydantic validation)
    ↓
Router: /train/start endpoint
    ↓
fine_tune_da3() service function
    ↓
All optimizations applied

CLI Command Flow

ylff train start ...
    ↓
CLI function parameters
    ↓
fine_tune_da3() service function
    ↓
All optimizations applied

✅ Verification Checklist

API Models (`ylff/models/api_models.py`)

TrainRequest has all Phase 4 parameters
TrainRequest has all FSDP parameters
TrainRequest has all advanced optimization parameters
TrainRequest has checkpoint optimization parameters
PretrainRequest has all Phase 4 parameters
PretrainRequest has all FSDP parameters
PretrainRequest has all advanced optimization parameters
PretrainRequest has checkpoint optimization parameters

Router (`ylff/routers/training.py`)

/train/start passes all parameters to fine_tune_da3()
/train/pretrain passes all parameters to pretrain_da3_on_arkit()

CLI (`ylff/cli.py`)

train start command accepts all parameters
train start passes all parameters to fine_tune_da3()
train pretrain command accepts all parameters
train pretrain passes all parameters to pretrain_da3_on_arkit()

Service Functions

fine_tune_da3() accepts all parameters
fine_tune_da3() implements all optimizations
pretrain_da3_on_arkit() accepts all parameters
pretrain_da3_on_arkit() implements all optimizations

📋 Complete Parameter Mapping

Parameter	API Model	Router	CLI	Service
`use_bf16`	✅	✅	✅	✅
`gradient_clip_norm`	✅	✅	✅	✅
`find_lr`	✅	✅	✅	✅
`find_batch_size`	✅	✅	✅	✅
`use_fsdp`	✅	✅	✅	✅
`fsdp_sharding_strategy`	✅	✅	✅	✅
`fsdp_mixed_precision`	✅	✅	✅	✅
`use_qat`	✅	✅	✅	✅
`qat_backend`	✅	✅	✅	✅
`use_sequence_parallel`	✅	✅	✅	✅
`sequence_parallel_gpus`	✅	✅	✅	✅
`activation_recompute_strategy`	✅	✅	✅	✅
`async_checkpoint`	✅	✅	✅	✅
`compress_checkpoint`	✅	✅	✅	✅

Status: 100% Complete ✅

🎯 Usage Examples

Complete API Request

{
  "training_data_dir": "data/training",
  "epochs": 10,
  "lr": 1e-5,
  "batch_size": 1,
  "use_bf16": true,
  "gradient_clip_norm": 1.0,
  "find_lr": true,
  "find_batch_size": true,
  "use_fsdp": true,
  "fsdp_sharding_strategy": "FULL_SHARD",
  "fsdp_mixed_precision": "bf16",
  "use_qat": false,
  "qat_backend": "fbgemm",
  "use_sequence_parallel": false,
  "sequence_parallel_gpus": 1,
  "activation_recompute_strategy": "checkpoint",
  "async_checkpoint": true,
  "compress_checkpoint": true
}

Complete CLI Command

ylff train start data/training \
    --epochs 10 \
    --lr 1e-5 \
    --batch-size 1 \
    --use-bf16 \
    --gradient-clip-norm 1.0 \
    --find-lr \
    --find-batch-size \
    --use-fsdp \
    --fsdp-sharding-strategy FULL_SHARD \
    --fsdp-mixed-precision bf16 \
    --use-qat \
    --qat-backend fbgemm \
    --use-sequence-parallel \
    --sequence-parallel-gpus 4 \
    --activation-recompute-strategy hybrid \
    --async-checkpoint \
    --compress-checkpoint

✅ Final Status

All optimizations are fully wired through:

✅ API request models
✅ Router endpoints
✅ CLI commands
✅ Service functions

Everything is connected end-to-end! 🎉