Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

.gitattributes +3 -0
README.md +33 -87
checkpoints/best.pth +1 -1
checkpoints/best_v2.pth +3 -0
configs/training_v2.yaml +52 -0
logs/train_v2_20260403_0121.log +146 -0
logs/training_history.json +84 -93
onnx/ran_v2.onnx +3 -0
onnx/ran_v2.onnx.data +3 -0
pytorch/ran_v2.pth +3 -0
pytorch/ran_v2.safetensors +3 -0
tensorrt/ran_v2_fp16.trt +3 -0
tensorrt/ran_v2_fp32.trt +3 -0

.gitattributes CHANGED Viewed

@@ -37,3 +37,6 @@ onnx/ran_v1.onnx.data filter=lfs diff=lfs merge=lfs -text
 paper.pdf filter=lfs diff=lfs merge=lfs -text
 tensorrt/ran_v1_fp16.trt filter=lfs diff=lfs merge=lfs -text
 tensorrt/ran_v1_fp32.trt filter=lfs diff=lfs merge=lfs -text

 paper.pdf filter=lfs diff=lfs merge=lfs -text
 tensorrt/ran_v1_fp16.trt filter=lfs diff=lfs merge=lfs -text
 tensorrt/ran_v1_fp32.trt filter=lfs diff=lfs merge=lfs -text
+onnx/ran_v2.onnx.data filter=lfs diff=lfs merge=lfs -text
+tensorrt/ran_v2_fp16.trt filter=lfs diff=lfs merge=lfs -text
+tensorrt/ran_v2_fp32.trt filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,106 +1,52 @@
 ---
 tags:
-  - robotics
-  - anima
-  - ran
-  - openurban3d
-  - point-cloud
   - 3d-segmentation
   - open-vocabulary
-  - clip
-  - robot-flow-labs
-library_name: pytorch
-pipeline_tag: image-segmentation
 license: apache-2.0
 ---
-# RAN (OpenUrban3D) — ANIMA Module
-Part of the [ANIMA Perception Suite](https://github.com/RobotFlow-Labs) by Robot Flow Labs.
-**Open-vocabulary 3D semantic segmentation for large-scale urban point clouds** — without manual annotations, aligned multi-view images, or pre-trained segmentation networks.
-## Paper
-**OpenUrban3D: Annotation-Free Open-Vocabulary Semantic Segmentation of Large-Scale Urban Point Clouds**
-Chongyu Wang, Kunlei Jing, Jihua Zhu, Di Wang
-[arXiv:2509.10842](https://arxiv.org/abs/2509.10842) (Sep 2025)
 ## Architecture
-RAN implements a knowledge distillation pipeline:
-1. **Multi-view rendering** — Render 3D point clouds from 8 hemispherical camera viewpoints
-2. **SLIC mask generation** — Unsupervised superpixel segmentation on rendered views
-3. **CLIP ViT-L/14 feature extraction** — Extract 768-dim vision-language features per mask
-4. **Sample-balanced fusion** — Aggregate mask-level features to per-point embeddings
-5. **MinkUNet distillation** — Train a 3D backbone to predict CLIP features from raw point coordinates
-6. **Zero-shot segmentation** — At inference, compare point features with text queries via cosine similarity
-### Model Details
-| Parameter | Value |
-|-----------|-------|
-| 3D Backbone | MinkUNet (dense fallback) |
-| Feature dim | 768 (CLIP ViT-L/14 aligned) |
-| Parameters | 0.97M |
-| VL Teacher | CLIP ViT-L/14 (frozen) |
-| Voxel size | 0.2m |
-## Training
-| Setting | Value |
-|---------|-------|
-| Dataset | SensatUrban (24 blocks, 29.9M points) |
-| Optimizer | Adam |
-| Learning rate | 1e-4 (cosine annealing + warmup) |
-| Batch size | 4 |
-| Epochs | 43/60 (early stopped, patience=10) |
-| Best val_loss | 13.04 |
-| Final train_loss | 8.03 |
-| Precision | bf16 mixed |
-| Hardware | NVIDIA L4 (22GB) |
-| Training time | 61 min |
-## Exported Formats
-| Format | File | Size | Use Case |
-|--------|------|------|----------|
-| PyTorch (.pth) | `pytorch/ran_v1.pth` | 3.9 MB | Training, fine-tuning |
-| SafeTensors | `pytorch/ran_v1.safetensors` | 3.9 MB | Fast loading, safe |
-| ONNX | `onnx/ran_v1.onnx` | 3.9 MB | Cross-platform inference |
-| Checkpoint | `checkpoints/best.pth` | 11 MB | Resume training (includes optimizer) |
-TensorRT exports deferred to target hardware (Jetson/L4).
 ## Usage
 ```python
-import torch
-from safetensors.torch import load_file
-# Load model
-weights = load_file("pytorch/ran_v1.safetensors")
-# ... build model and load weights
-# Zero-shot segmentation
-point_features = model(point_cloud)  # (N, 768)
-text_features = clip.encode_text(["building", "tree", "road"])  # (C, 768)
-similarity = point_features @ text_features.T  # (N, C)
-labels = similarity.argmax(dim=-1)  # (N,)
 ```
-## Files
 ```
-pytorch/ran_v1.pth              PyTorch weights
-pytorch/ran_v1.safetensors      SafeTensors weights
-onnx/ran_v1.onnx                ONNX export (opset 17)
-checkpoints/best.pth            Full checkpoint (model + optimizer + scheduler)
-configs/training.yaml           Training configuration
-logs/training_history.json      Loss curves
-paper.pdf                       OpenUrban3D paper (arXiv:2509.10842)
-```
-## License
-Apache 2.0 — Robot Flow Labs / AIFLOW LABS LIMITED

 ---
 tags:
   - 3d-segmentation
+  - point-cloud
   - open-vocabulary
+  - zero-shot
+  - urban-scene
+  - anima
 license: apache-2.0
+datasets:
+  - sensat-urban
+  - sum
 ---
+# OpenUrban3D (RAN) — Annotation-Free Open-Vocabulary 3D Segmentation
+**Paper**: [OpenUrban3D](https://arxiv.org/abs/2509.10842) (Wang et al., Sep 2025)
 ## Architecture
+- **3D Backbone**: MinkUNet (sparse 3D convolutions)
+- **2D Feature Extractor**: ODISE (frozen)
+- **Text Encoder**: CLIP ViT-L/14 (frozen)
+- **Training**: Knowledge distillation (VL features → 3D backbone)
 ## Usage
 ```python
+from anima_ran.inference.zero_shot import ZeroShotSegmenter
+segmenter = ZeroShotSegmenter(backbone_checkpoint="pytorch/ran_v1.pth")
+segmenter.load()
+result = segmenter.segment(points, ["building", "vegetation", "road"])
 ```
+## Training Config
+- Optimizer: Adam, LR=1e-4
+- Epochs: 60, Batch size: 2
+- Voxel size: 0.2m
+- Hardware: 2x NVIDIA A6000
+## Citation
+```bibtex
+@article{wang2025openurban3d,
+  title={OpenUrban3D: Annotation-Free Open-Vocabulary Semantic Segmentation of Large-Scale Urban Point Clouds},
+  author={Wang, Chongyu and Jing, Kunlei and Zhu, Jihua and Wang, Di},
+  journal={arXiv preprint arXiv:2509.10842},
+  year={2025}
+}
 ```
+## ANIMA Project
+Part of the [ANIMA Wave-6](https://github.com/RobotFlow-Labs) multi-agent robotics perception system.

checkpoints/best.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81c8fce25975c13683489b0ceafb02b10bda6b6ddaa8bae4e3d0504e0e156ca8
 size 11645755

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d0214e837998edeb77846615c3263223e3b4cdb3f12617a6c77bcfe265123ac
 size 11645755

checkpoints/best_v2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d0214e837998edeb77846615c3263223e3b4cdb3f12617a6c77bcfe265123ac
+size 11645755

configs/training_v2.yaml ADDED Viewed

	@@ -0,0 +1,52 @@

+# OpenUrban3D V2 Training Config — Optimized for L4 GPU (80% VRAM target)
+#
+# Changes from V1:
+#   - batch_size: 4 -> 6 (1.5x throughput)
+#   - num_points: 100000 -> 95000 (profiled with real CombinedLoss)
+#   - num_workers: 2 (reduced to avoid mmap contention)
+#   - pin_memory: false (user instruction)
+#   - Peak VRAM: ~18.6 GB / 23 GB (80.9% utilization)
+dataset:
+  name: sensat-urban
+  root: /mnt/forge-data/datasets/sensat_urban/
+  train_scenes: [melbourne, sydney]
+  val_scenes: [london]
+  num_points: 95000                # V2: profiled with real loss (80.9% VRAM on L4)
+model:
+  backbone: minkunet
+  feature_dim: 768
+  pretrained: null
+  projection_hidden: 256
+  vl_dim: 768
+distillation:
+  kl_weight: 1.0
+  cosine_weight: 0.5
+  temperature: 0.07
+training:
+  max_epochs: 60
+  warmup_fraction: 0.05
+  lr: 1.0e-4
+  optimizer: adam
+  batch_size: 6                     # V2: 1.5x from V1 (80.9% VRAM on L4 with real loss)
+  num_workers: 2                    # V2: reduced from 4 (mmap-safe)
+  pin_memory: false                 # V2: disabled per instruction
+  gradient_clip: 1.0
+  seed: 42
+  use_bf16: true
+  early_stop_patience: 10
+  early_stop_min_delta: 1.0e-4
+  plateau_patience: 5
+  plateau_factor: 0.5
+  checkpoint_dir: /mnt/artifacts-datai/checkpoints/project_ran/
+  log_dir: /mnt/artifacts-datai/logs/project_ran/
+  tensorboard_dir: /mnt/artifacts-datai/tensorboard/project_ran/
+version: 2                          # V2 checkpoint naming
+device: cuda

logs/train_v2_20260403_0121.log ADDED Viewed

	@@ -0,0 +1,146 @@

+MinkowskiEngine not installed. MinkUNet will use dense fallback. Install: pip install MinkowskiEngine (requires CUDA toolkit).
+[2026-04-03 01:21:14] INFO ran.train: ============================================================
+[2026-04-03 01:21:14] INFO ran.train: OpenUrban3D (RAN) — Training
+[2026-04-03 01:21:14] INFO ran.train: Paper: arXiv:2509.10842
+[2026-04-03 01:21:14] INFO ran.train: ============================================================
+[2026-04-03 01:21:14] INFO ran.train: Version: v2
+[2026-04-03 01:21:14] INFO ran.train: Backbone: minkunet
+[2026-04-03 01:21:14] INFO ran.train: VL dim: 768
+[2026-04-03 01:21:14] INFO ran.train: Num points: 95000
+[2026-04-03 01:21:14] INFO ran.train: Batch size: 6 (per GPU)
+[2026-04-03 01:21:14] INFO ran.train: LR: 0.000100
+[2026-04-03 01:21:14] INFO ran.train: Epochs: 60
+[2026-04-03 01:21:14] INFO ran.train: Optimizer: Adam (paper)
+[2026-04-03 01:21:14] INFO ran.train: Device: cuda
+[2026-04-03 01:21:14] INFO ran.train: Distributed: False (world_size=1)
+[2026-04-03 01:21:14] INFO ran.train: GPU 0: NVIDIA L4 (22.0 GB)
+[2026-04-03 01:21:14] INFO ran.train: ============================================================
+[2026-04-03 01:21:14] INFO anima_ran.backbone.distilled_backbone: Built MinkUNet backbone (feature_dim=768)
+[2026-04-03 01:21:17] INFO ran.train: Real dataset found: 24 train + 6 test blocks at /mnt/forge-data/datasets/sensat_urban/
+[2026-04-03 01:21:17] INFO ran.train: Loading mmap cache: /mnt/forge-data/datasets/sensat_urban/.cache
+[2026-04-03 01:21:17] INFO ran.train: Mmap loaded: 29900364 points, 768-dim features (shared across ranks)
+[2026-04-03 01:21:17] WARNING ran.train: Using MOCK VL features. Run ODISE extraction before real training.
+[2026-04-03 01:21:18] INFO anima_ran.training.train: Starting training: 60 epochs, lr=0.000001, device=cuda, bf16=True
+[2026-04-03 01:23:52] INFO anima_ran.training.train: [Epoch 1/60] train_loss=8054.2809 val_loss=5526.7839 lr=0.000001
+[2026-04-03 01:23:53] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch000_val5526.7839.pth
+[2026-04-03 01:26:19] INFO anima_ran.training.train: [Epoch 2/60] train_loss=4276.4000 val_loss=1309.8103 lr=0.000034
+[2026-04-03 01:26:19] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch001_val1309.8103.pth
+[2026-04-03 01:28:43] INFO anima_ran.training.train: [Epoch 3/60] train_loss=620.8463 val_loss=211.5017 lr=0.000067
+[2026-04-03 01:28:43] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch002_val211.5017.pth
+[2026-04-03 01:28:43] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch000_val5526.7839.pth
+[2026-04-03 01:31:11] INFO anima_ran.training.train: [Epoch 4/60] train_loss=106.2237 val_loss=69.6856 lr=0.000100
+[2026-04-03 01:31:11] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch003_val69.6856.pth
+[2026-04-03 01:31:11] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch001_val1309.8103.pth
+[2026-04-03 01:33:38] INFO anima_ran.training.train: [Epoch 5/60] train_loss=59.6002 val_loss=51.4477 lr=0.000100
+[2026-04-03 01:33:38] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch004_val51.4477.pth
+[2026-04-03 01:33:38] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch002_val211.5017.pth
+[2026-04-03 01:36:04] INFO anima_ran.training.train: [Epoch 6/60] train_loss=32.9955 val_loss=28.3968 lr=0.000100
+[2026-04-03 01:36:04] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch005_val28.3968.pth
+[2026-04-03 01:36:04] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch003_val69.6856.pth
+[2026-04-03 01:38:29] INFO anima_ran.training.train: [Epoch 7/60] train_loss=24.6750 val_loss=23.6595 lr=0.000099
+[2026-04-03 01:38:29] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch006_val23.6595.pth
+[2026-04-03 01:38:29] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch004_val51.4477.pth
+[2026-04-03 01:40:54] INFO anima_ran.training.train: [Epoch 8/60] train_loss=20.2998 val_loss=25.5374 lr=0.000099
+[2026-04-03 01:40:54] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch007_val25.5374.pth
+[2026-04-03 01:40:54] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch005_val28.3968.pth
+[2026-04-03 01:43:25] INFO anima_ran.training.train: [Epoch 9/60] train_loss=17.7125 val_loss=24.1704 lr=0.000098
+[2026-04-03 01:43:25] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch008_val24.1704.pth
+[2026-04-03 01:43:25] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch007_val25.5374.pth
+[2026-04-03 01:45:53] INFO anima_ran.training.train: [Epoch 10/60] train_loss=15.8250 val_loss=17.3653 lr=0.000097
+[2026-04-03 01:45:53] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch009_val17.3653.pth
+[2026-04-03 01:45:53] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch008_val24.1704.pth
+[2026-04-03 01:48:23] INFO anima_ran.training.train: [Epoch 11/60] train_loss=14.5038 val_loss=16.3036 lr=0.000096
+[2026-04-03 01:48:23] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch010_val16.3036.pth
+[2026-04-03 01:48:23] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch006_val23.6595.pth
+[2026-04-03 01:50:48] INFO anima_ran.training.train: [Epoch 12/60] train_loss=13.5077 val_loss=19.3260 lr=0.000095
+[2026-04-03 01:50:48] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch011_val19.3260.pth
+[2026-04-03 01:50:48] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch011_val19.3260.pth
+[2026-04-03 01:53:14] INFO anima_ran.training.train: [Epoch 13/60] train_loss=12.7002 val_loss=19.5751 lr=0.000094
+[2026-04-03 01:53:14] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch012_val19.5751.pth
+[2026-04-03 01:53:14] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch012_val19.5751.pth
+[2026-04-03 01:55:39] INFO anima_ran.training.train: [Epoch 14/60] train_loss=12.1038 val_loss=15.1362 lr=0.000093
+[2026-04-03 01:55:39] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch013_val15.1362.pth
+[2026-04-03 01:55:39] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch009_val17.3653.pth
+[2026-04-03 01:58:04] INFO anima_ran.training.train: [Epoch 15/60] train_loss=12.7494 val_loss=22.0125 lr=0.000091
+[2026-04-03 01:58:04] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch014_val22.0125.pth
+[2026-04-03 01:58:04] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch014_val22.0125.pth
+[2026-04-03 02:00:30] INFO anima_ran.training.train: [Epoch 16/60] train_loss=13.8269 val_loss=17.6172 lr=0.000090
+[2026-04-03 02:00:30] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch015_val17.6172.pth
+[2026-04-03 02:00:30] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch015_val17.6172.pth
+[2026-04-03 02:02:56] INFO anima_ran.training.train: [Epoch 17/60] train_loss=12.5961 val_loss=15.7333 lr=0.000088
+[2026-04-03 02:02:56] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch016_val15.7333.pth
+[2026-04-03 02:02:56] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch010_val16.3036.pth
+[2026-04-03 02:05:27] INFO anima_ran.training.train: [Epoch 18/60] train_loss=12.1039 val_loss=20.2886 lr=0.000086
+[2026-04-03 02:05:27] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch017_val20.2886.pth
+[2026-04-03 02:05:27] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch017_val20.2886.pth
+[2026-04-03 02:07:59] INFO anima_ran.training.train: [Epoch 19/60] train_loss=11.3476 val_loss=13.3878 lr=0.000084
+[2026-04-03 02:07:59] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch018_val13.3878.pth
+[2026-04-03 02:07:59] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch016_val15.7333.pth
+[2026-04-03 02:10:32] INFO anima_ran.training.train: [Epoch 20/60] train_loss=10.2384 val_loss=16.9979 lr=0.000082
+[2026-04-03 02:10:32] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch019_val16.9979.pth
+[2026-04-03 02:10:32] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch019_val16.9979.pth
+[2026-04-03 02:13:04] INFO anima_ran.training.train: [Epoch 21/60] train_loss=9.9192 val_loss=16.7852 lr=0.000080
+[2026-04-03 02:13:04] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch020_val16.7852.pth
+[2026-04-03 02:13:04] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch020_val16.7852.pth
+[2026-04-03 02:15:36] INFO anima_ran.training.train: [Epoch 22/60] train_loss=9.6877 val_loss=13.0286 lr=0.000078
+[2026-04-03 02:15:36] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch021_val13.0286.pth
+[2026-04-03 02:15:36] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch013_val15.1362.pth
+[2026-04-03 02:18:08] INFO anima_ran.training.train: [Epoch 23/60] train_loss=9.5108 val_loss=12.8504 lr=0.000075
+[2026-04-03 02:18:08] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch022_val12.8504.pth
+[2026-04-03 02:18:08] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch018_val13.3878.pth
+[2026-04-03 02:20:41] INFO anima_ran.training.train: [Epoch 24/60] train_loss=9.4225 val_loss=16.0130 lr=0.000073
+[2026-04-03 02:20:41] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch023_val16.0130.pth
+[2026-04-03 02:20:41] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch023_val16.0130.pth
+[2026-04-03 02:23:21] INFO anima_ran.training.train: [Epoch 25/60] train_loss=9.2871 val_loss=15.3460 lr=0.000070
+[2026-04-03 02:23:21] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch024_val15.3460.pth
+[2026-04-03 02:23:21] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch024_val15.3460.pth
+[2026-04-03 02:25:57] INFO anima_ran.training.train: [Epoch 26/60] train_loss=9.1418 val_loss=12.7876 lr=0.000068
+[2026-04-03 02:25:58] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch025_val12.7876.pth
+[2026-04-03 02:25:58] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch021_val13.0286.pth
+[2026-04-03 02:28:34] INFO anima_ran.training.train: [Epoch 27/60] train_loss=8.9928 val_loss=12.7671 lr=0.000065
+[2026-04-03 02:28:34] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch026_val12.7671.pth
+[2026-04-03 02:28:34] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch022_val12.8504.pth
+[2026-04-03 02:31:05] INFO anima_ran.training.train: [Epoch 28/60] train_loss=8.8741 val_loss=14.4635 lr=0.000063
+[2026-04-03 02:31:05] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch027_val14.4635.pth
+[2026-04-03 02:31:05] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch027_val14.4635.pth
+[2026-04-03 02:33:35] INFO anima_ran.training.train: [Epoch 29/60] train_loss=8.7588 val_loss=15.1041 lr=0.000060
+[2026-04-03 02:33:35] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch028_val15.1041.pth
+[2026-04-03 02:33:35] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch028_val15.1041.pth
+[2026-04-03 02:36:05] INFO anima_ran.training.train: [Epoch 30/60] train_loss=8.6943 val_loss=12.5515 lr=0.000057
+[2026-04-03 02:36:05] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch029_val12.5515.pth
+[2026-04-03 02:36:05] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch025_val12.7876.pth
+[2026-04-03 02:38:38] INFO anima_ran.training.train: [Epoch 31/60] train_loss=8.6135 val_loss=13.5761 lr=0.000055
+[2026-04-03 02:38:38] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch030_val13.5761.pth
+[2026-04-03 02:38:38] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch030_val13.5761.pth
+[2026-04-03 02:41:10] INFO anima_ran.training.train: [Epoch 32/60] train_loss=8.4979 val_loss=13.6059 lr=0.000052
+[2026-04-03 02:41:10] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch031_val13.6059.pth
+[2026-04-03 02:41:10] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch031_val13.6059.pth
+[2026-04-03 02:43:42] INFO anima_ran.training.train: [Epoch 33/60] train_loss=9.5209 val_loss=15.6166 lr=0.000049
+[2026-04-03 02:43:42] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch032_val15.6166.pth
+[2026-04-03 02:43:42] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch032_val15.6166.pth
+[2026-04-03 02:46:13] INFO anima_ran.training.train: [Epoch 34/60] train_loss=9.0347 val_loss=15.3416 lr=0.000046
+[2026-04-03 02:46:13] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch033_val15.3416.pth
+[2026-04-03 02:46:13] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch033_val15.3416.pth
+[2026-04-03 02:48:37] INFO anima_ran.training.train: [Epoch 35/60] train_loss=8.8009 val_loss=14.2802 lr=0.000044
+[2026-04-03 02:48:37] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch034_val14.2802.pth
+[2026-04-03 02:48:37] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch034_val14.2802.pth
+[2026-04-03 02:51:04] INFO anima_ran.training.train: [Epoch 36/60] train_loss=8.4578 val_loss=13.6164 lr=0.000041
+[2026-04-03 02:51:04] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch035_val13.6164.pth
+[2026-04-03 02:51:04] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch035_val13.6164.pth
+[2026-04-03 02:53:32] INFO anima_ran.training.train: [Epoch 37/60] train_loss=8.2129 val_loss=13.2788 lr=0.000019
+[2026-04-03 02:53:32] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch036_val13.2788.pth
+[2026-04-03 02:53:32] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch036_val13.2788.pth
+[2026-04-03 02:55:59] INFO anima_ran.training.train: [Epoch 38/60] train_loss=8.0754 val_loss=13.4448 lr=0.000018
+[2026-04-03 02:55:59] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch037_val13.4448.pth
+[2026-04-03 02:55:59] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch037_val13.4448.pth
+[2026-04-03 02:58:22] INFO anima_ran.training.train: [Epoch 39/60] train_loss=8.0478 val_loss=13.0786 lr=0.000017
+[2026-04-03 02:58:22] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch038_val13.0786.pth
+[2026-04-03 02:58:22] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch038_val13.0786.pth
+[2026-04-03 03:00:49] INFO anima_ran.training.train: [Epoch 40/60] train_loss=8.0181 val_loss=12.9826 lr=0.000015
+[2026-04-03 03:00:49] INFO anima_ran.training.train: Saved checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch039_val12.9826.pth
+[2026-04-03 03:00:49] INFO anima_ran.training.train: Deleted old checkpoint: /mnt/artifacts-datai/checkpoints/project_ran/project_ran_cuda_v2_epoch039_val12.9826.pth
+[2026-04-03 03:00:49] INFO anima_ran.training.train: [EARLY STOP] epoch 40, best val_loss=12.5515 at patience=10
+[2026-04-03 03:00:49] INFO anima_ran.training.train: Saved training history: /mnt/artifacts-datai/logs/project_ran/training_history.json
+[2026-04-03 03:00:49] INFO ran.train: Training complete in 99.5 minutes
+[2026-04-03 03:00:49] INFO ran.train: Final train_loss: 8.0181
+[2026-04-03 03:00:49] INFO ran.train: Final val_loss: 12.9826

logs/training_history.json CHANGED Viewed

@@ -1,93 +1,87 @@
 {
   "train_loss": [
-    6759.289434176772,
-    2297.732088914558,
-    203.5367457831084,
-    58.58010551111022,
-    31.958893590898658,
-    23.83927464841017,
-    18.78112209377004,
-    16.055160024272862,
-    14.373852729797363,
-    13.272072649713772,
-    12.286517015144007,
-    11.6127598036581,
-    14.472964044827133,
-    11.232773851992478,
-    10.735281374917102,
-    10.398801376570516,
-    11.63162669850819,
-    11.858689521675679,
-    9.884707023848348,
-    10.34442413387014,
-    9.822304654477248,
-    9.251953125,
-    9.074569132790637,
-    9.016819014478086,
-    8.908954492255823,
-    8.774045004773496,
-    9.959359083602678,
-    8.718674019201478,
-    8.617429391661688,
-    8.944636501483064,
-    8.801453462287562,
-    8.753478875800745,
-    8.771042994598844,
-    8.832364993308907,
-    8.521471308238471,
-    8.312144251012091,
-    8.966958615317273,
-    8.718514058127331,
-    8.46768801959593,
-    8.124264048106635,
-    8.073782081034645,
-    8.04591079968125,
-    8.032603505832046
   ],
   "val_loss": [
-    5596.94873046875,
-    534.4771347045898,
-    94.13680362701416,
-    47.7150354385376,
-    31.689432382583618,
-    24.11519694328308,
-    24.731905698776245,
-    22.63585090637207,
-    17.82232165336609,
-    18.18808937072754,
-    15.790228843688965,
-    18.132004499435425,
-    17.121837615966797,
-    14.551922082901001,
-    14.441855549812317,
-    19.299299716949463,
-    15.931878924369812,
-    13.824809551239014,
-    14.941338181495667,
-    16.136274099349976,
-    16.182728052139282,
-    13.80290949344635,
-    13.546823859214783,
-    14.907316327095032,
-    14.543841481208801,
-    14.061812162399292,
-    13.720631957054138,
-    13.278507113456726,
-    13.976499438285828,
-    15.821560502052307,
-    14.872854590415955,
-    13.361186623573303,
-    13.039013624191284,
-    13.552350878715515,
-    14.962332725524902,
-    13.270270943641663,
-    13.803866624832153,
-    13.932194352149963,
-    14.697306752204895,
-    13.543349146842957,
-    13.248373866081238,
-    13.47856891155243,
-    13.577248096466064
   ],
   "lr": [
     1.0000000000000002e-06,
@@ -126,12 +120,9 @@
     4.641232239911956e-05,
     4.3700998887988794e-05,
     4.101032371977495e-05,
-    3.834846838653045e-05,
-    3.572351685541612e-05,
-    3.3143441017958675e-05,
-    1.530803823983901e-05,
-    1.4116198681937466e-05,
-    1.295715261874775e-05,
-    1.1834420035069828e-05
   ]
 }

 {
   "train_loss": [
+    8054.280927942154,
+    4276.39997766373,
+    620.8462735439869,
+    106.22373913704081,
+    59.60022532686274,
+    32.99547848802932,
+    24.675044526445106,
+    20.299824085641415,
+    17.712546612354036,
+    15.825045687087039,
+    14.50377963451629,
+    13.507708427753855,
+    12.700157977165059,
+    12.10383729731783,
+    12.749443865836934,
+    13.826934652125582,
+    12.59610947142256,
+    12.10389169733575,
+    11.347582918532352,
+    10.23838562661029,
+    9.919178211942633,
+    9.687722490188923,
+    9.510761646514243,
+    9.422516193795712,
+    9.287059438989518,
+    9.141846352435174,
+    8.99275037075611,
+    8.874052149184207,
+    8.758765200351148,
+    8.694337601357319,
+    8.613513378386802,
+    8.497914131651534,
+    9.520941612568308,
+    9.034681218735715,
+    8.800915291968812,
+    8.457775846440741,
+    8.21288691175745,
+    8.075425716156655,
+    8.04781052406798,
+    8.018138570988432
   ],
   "val_loss": [
+    5526.783854166667,
+    1309.810323079427,
+    211.5017293294271,
+    69.68559646606445,
+    51.447741190592446,
+    28.39682896931966,
+    23.65952777862549,
+    25.53741518656413,
+    24.170440673828125,
+    17.36533260345459,
+    16.303635279337566,
+    19.32600466410319,
+    19.575107256571453,
+    15.136160055796305,
+    22.01252810160319,
+    17.61719799041748,
+    15.733330567677816,
+    20.288647333780926,
+    13.387786865234375,
+    16.997878710428875,
+    16.785153071085613,
+    13.028555075327555,
+    12.850395520528158,
+    16.01299540201823,
+    15.346006552378336,
+    12.787633577982584,
+    12.76709270477295,
+    14.463542620340982,
+    15.104134241739908,
+    12.55145819981893,
+    13.576054255167643,
+    13.605932076772055,
+    15.616601149241129,
+    15.34158992767334,
+    14.280176798502604,
+    13.616401354471842,
+    13.278789520263672,
+    13.444838682810465,
+    13.078571478525797,
+    12.982638994852701
   ],
   "lr": [
     1.0000000000000002e-06,
     4.641232239911956e-05,
     4.3700998887988794e-05,
     4.101032371977495e-05,
+    1.9174234193265224e-05,
+    1.789689978215328e-05,
+    1.6641402447669613e-05,
+    1.5411555093955053e-05
   ]
 }

onnx/ran_v2.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3484850f9d9402bae948abd1dd59d1108cedfd215b98dd53981287d04dad34fb
+size 6527

onnx/ran_v2.onnx.data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a1bcf2a538b14d382e3df67d0b443b6e2c872900b72374433a41125b8d24b36
+size 3866624

pytorch/ran_v2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87b1e13b2a8461961a94030b9cb7961300c4aeb747806bcc86e262e7c646de2c
+size 3886501

pytorch/ran_v2.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e567c7abefcfe755e9334a2b4647367b6bdeaece46271ebc42d66270af32e5b
+size 3877880

tensorrt/ran_v2_fp16.trt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0eedead665b525c24595dcb3506dce7bad68330095f94fd14236602231a1032
+size 2054964

tensorrt/ran_v2_fp32.trt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:530cd9efaf8fa7fd723b87b4f30ad57331745d71c9f524f8b717c95f33d719cc
+size 3959340