# Training Data

Reserved for SFT or LoRA training data.

Target: 200-500 generated samples, with at least 50 manually selected high-quality samples.

## Current Preview

Generate deterministic mock preview data with:

```bash
.venv/bin/python -B scripts/generate_dataset.py
```

Default output:

```text
data/train/objectverse_sft_preview.jsonl
```

This preview is synthetic and mock-generated. It is useful for validating schema, curation workflow, and training script assumptions, but it is not the final dataset.