latark commited on 23 days ago

Commit

e53235c

0 Parent(s):

Super-squash branch 'main' using huggingface_hub

Browse files

Files changed (44) hide show

.gitattributes +79 -0
.gitignore +25 -0
2dfan4.onnx +3 -0
README.md +246 -0
bisenet_resnet_18.onnx +3 -0
bisenet_resnet_34.onnx +3 -0
buffalo_l/1k3d68.onnx +3 -0
buffalo_l/2d106det.onnx +3 -0
buffalo_l/det_10g.onnx +3 -0
buffalo_l/det_10g_fp16.onnx +3 -0
buffalo_l/genderage.onnx +3 -0
buffalo_l/w600k_r50.onnx +3 -0
dfl_xseg.onnx +3 -0
gfpgan/GFPGANv1.4.pth +3 -0
gfpgan/weights/detection_Resnet50_Final.pth +3 -0
gfpgan/weights/parsing_parsenet.pth +3 -0
hyperswap_1a_256.onnx +3 -0
hyperswap_1b_256.onnx +3 -0
hyperswap_1c_256.onnx +3 -0
inswapper_128.onnx +3 -0
inswapper_128_fp16.onnx +3 -0
runtime_kit/cuda-12.9-py312/develop/manifest.json +13 -0
runtime_kit/cuda-12.9-py312/develop/models.tar.zst +3 -0
runtime_kit/cuda-12.9-py312/develop/runtime_kit.tar.zst +3 -0
scripts/convert_scrfd_fp16.py +76 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_17833951080834725538_0_0_fp16_sm89.engine +3 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_17833951080834725538_0_0_fp16_sm89.profile +0 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_8113506114015737638_0_0_fp16_sm89.engine +3 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_9597588243303553259_0_0_fp16_sm89.engine +3 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_9597588243303553259_0_0_fp16_sm89.profile +0 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_11107014985443681405_0_0_fp16_sm89.engine +3 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_11107014985443681405_0_0_fp16_sm89.profile +0 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_167800414563226528_0_0_fp16_sm89.engine +3 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_17996549027508307148_0_0_fp16_sm89.engine +3 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_17996549027508307148_0_0_fp16_sm89.profile +0 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_2345837266770369871_0_0_fp16_sm89.engine +3 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_2345837266770369871_0_0_fp16_sm89.profile +0 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch_jit_10294570408813474267_0_0_sm89.engine +3 -0
trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_cache_sm89.timing +3 -0
trt_cache/sm89/trt10.9_ort1.24/manifest.json +24 -0
xseg_1.onnx +3 -0
xseg_2.onnx +3 -0
xseg_3.onnx +3 -0
yolov8n.onnx +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,79 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_17996549027508307148_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_2345837266770369871_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_11107014985443681405_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_4040390242348433159_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch_jit_10294570408813474267_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_tf2onnx_4378169159435062660_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_tf2onnx_11561260756091584865_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_tf2onnx_13398278383551544223_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_17833951080834725538_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_9597588243303553259_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_167800414563226528_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_14612954359127931697_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_8113506114015737638_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_7756492850973980650_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_9817536908852838938_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_2943710519155863468_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_18208867741518846433_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_3270097384199296458_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch_jit_3022756569470766001_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch_jit_17194444465592813910_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_1803974360890584330_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_15578803181408430984_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_17990913744339786239_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_10057366433567039755_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_tf2onnx_10825663542842851070_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_tf2onnx_13448473176397120007_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_tf2onnx_13522256330928318305_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_13447028154422237108_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_7950080726743702987_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_13100297186191859674_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_cache_sm89.timing filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch_jit_943447651177039798_0_0_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch_jit_10294570408813474267_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_167800414563226528_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_17996549027508307148_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch_jit_943447651177039798_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_tf2onnx_4378169159435062660_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_tf2onnx_11561260756091584865_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_tf2onnx_13398278383551544223_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_17833951080834725538_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_9597588243303553259_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_11107014985443681405_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_2345837266770369871_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text
+trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_8113506114015737638_0_0_fp16_sm89.engine filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,25 @@

+# IDE
+.idea/
+.vscode/
+*.swp
+*.swo
+# Python
+__pycache__/
+*.py[cod]
+*$py.class
+*.so
+.Python
+.env
+.venv
+venv/
+ENV/
+# OS
+.DS_Store
+Thumbs.db
+# Temp files
+*.tmp
+*.temp
+*.log

2dfan4.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:678c6fa539d52335a31c980feefdf4a6e02d781d83dce00af8a894f114557285
+size 97904803

README.md ADDED Viewed

	@@ -0,0 +1,246 @@

+---
+license: mit
+tags:
+  - face-swap
+  - face-enhancement
+  - face-detection
+  - face-parsing
+  - face-mask
+  - face-segmentation
+  - person-detection
+  - tensorrt
+  - deep-learning
+  - computer-vision
+  - morphstream
+---
+# MorphStream Models
+Models and TensorRT engine cache for real-time face processing used by [MorphStream](https://morphstream.ai) GPU Worker.
+**Private repository** — requires access token for downloads.
+## Structure
+```
+/
+├── inswapper_128.onnx           # Standard face swap (529MB)
+├── inswapper_128_fp16.onnx      # FP16 optimized - default (265MB)
+├── hyperswap_1a_256.onnx        # HyperSwap variant A (384MB)
+├── hyperswap_1b_256.onnx        # HyperSwap variant B (384MB)
+├── hyperswap_1c_256.onnx        # HyperSwap variant C (384MB)
+├── yolov8n.onnx                 # Person detection (12MB)
+├── dfl_xseg.onnx                # XSeg v1 face segmentation — legacy (67MB)
+├── xseg_1.onnx                  # XSeg occlusion model 1 (67MB)
+├── xseg_2.onnx                  # XSeg occlusion model 2 (67MB)
+├── xseg_3.onnx                  # XSeg occlusion model 3 (67MB)
+├── 2dfan4.onnx                  # 68-point face landmarks (93MB)
+├── bisenet_resnet_34.onnx       # BiSeNet face parsing ResNet-34 (89MB)
+├── bisenet_resnet_18.onnx       # BiSeNet face parsing ResNet-18 (51MB)
+├── buffalo_l/                   # Direct ONNX face analysis models
+│   ├── det_10g.onnx             # SCRFD face detection FP32 (16MB)
+│   ├── det_10g_fp16.onnx        # SCRFD face detection FP16 (8.1MB)
+│   ├── w600k_r50.onnx           # ArcFace recognition embeddings (166MB)
+│   ├── 1k3d68.onnx              # 3D landmarks, 68 points (137MB)
+│   ├── 2d106det.onnx            # 2D landmarks, 106 points (4.8MB)
+│   └── genderage.onnx           # Gender/age estimation (1.3MB)
+├── gfpgan/                      # Face enhancement (not used in real-time)
+│   ├── GFPGANv1.4.pth
+│   └── weights/
+│       ├── detection_Resnet50_Final.pth
+│       └── parsing_parsenet.pth
+├── trt_cache/                   # Pre-compiled TensorRT engines
+│   ├── sm89/trt10.9_ort1.24/   # RTX 4090
+│   ├── sm86/trt10.9_ort1.24/   # RTX 3090
+│   └── ...                      # Other GPU arch + version combos
+└── scripts/
+    └── convert_scrfd_fp16.py    # FP32 → FP16 conversion utility
+```
+## Face Swap Models
+| Model | Description | Size | Input | Format |
+|-------|-------------|------|-------|--------|
+| `inswapper_128.onnx` | Standard quality | 529 MB | 128px | ONNX FP32 |
+| `inswapper_128_fp16.onnx` | FP16 optimized (**default**) | 265 MB | 128px | ONNX FP16 |
+| `hyperswap_1a_256.onnx` | High quality — variant A | 384 MB | 256px | ONNX FP32 |
+| `hyperswap_1b_256.onnx` | High quality — variant B | 384 MB | 256px | ONNX FP32 |
+| `hyperswap_1c_256.onnx` | High quality — variant C | 384 MB | 256px | ONNX FP32 |
+## Face Analysis (buffalo_l)
+Models originally from [InsightFace](https://github.com/deepinsight/insightface) buffalo_l pack. GPU Worker loads them directly via ONNX Runtime (DirectSCRFD, DirectArcFace, DirectLandmark106) without the InsightFace Python library.
+| Model | GPU Worker Class | Description | Size |
+|-------|-----------------|-------------|------|
+| `det_10g.onnx` | `DirectSCRFD` | SCRFD face detection (FP32) | 16 MB |
+| `det_10g_fp16.onnx` | `DirectSCRFD` | SCRFD face detection (FP16, ~2x faster on Tensor Cores) | 8.1 MB |
+| `w600k_r50.onnx` | `DirectArcFace` | ArcFace R50 face recognition embeddings | 166 MB |
+| `2d106det.onnx` | `DirectLandmark106` | 2D face landmarks (106 points), CLAHE + face angle rotation. Used in face detection pipeline; 106-pt landmarks serve as fallback for masking when 68-pt unavailable | 4.8 MB |
+| `1k3d68.onnx` | — | 3D face landmarks (68 points) — not used at runtime | 137 MB |
+| `genderage.onnx` | — | Gender and age estimation — not used at runtime | 1.3 MB |
+## Face Landmarks
+| Model | Description | Size | Input |
+|-------|-------------|------|-------|
+| `2dfan4.onnx` | 2DFAN4 — 68-point face landmarks | 93 MB | 256px |
+FaceFusion-style 5/68 refinement: SCRFD detects face + coarse 5 kps, then 2DFAN4 produces 68 precise landmarks, converted to 5 alignment points (eye centers from 6 points each, exact nose tip, exact mouth corners). Improves face alignment quality for swap models.
+**Primary landmark model for face masking**: 68-pt landmarks from 2DFAN4 are the preferred source for `custom_paste_back` compositing (hull, cutouts, mouth blend). 106-pt landmarks from `2d106det.onnx` serve as fallback. Dual-landmark support: `has_valid_68` preferred, `has_valid_106` fallback, `use_68` flag propagated through all mask functions. Landmarks are temporally smoothed via One Euro Filter in `LandmarkSmoother` (attribute `face.landmark_2d_68`).
+Source: [FaceFusion assets](https://github.com/facefusion/facefusion-assets).
+## Person Detection
+| Model | Description | Size | Input |
+|-------|-------------|------|-------|
+| `yolov8n.onnx` | YOLOv8n — person detection (COCO class 0) | 12 MB | 640px |
+Used to distinguish "person left frame" vs "face occluded" during face swap.
+## Face Mask Models (FaceFusion 4-Mask System)
+Occlusion detection (XSeg) and semantic face parsing (BiSeNet) models for composable mask pipeline.
+Used in GPU Worker's `face_masker.py` for box/occlusion/area/region masks.
+Source: [FaceFusion 3.x assets](https://github.com/facefusion/facefusion-assets) (Apache-2.0), mirrored here for reliability.
+### XSeg — Occlusion Detection
+| Model | Description | Size | Input | Output |
+|-------|-------------|------|-------|--------|
+| `dfl_xseg.onnx` | XSeg v1 — legacy binary face mask (not used) | 67 MB | 256px | binary (face/bg) |
+| `xseg_1.onnx` | XSeg model 1 — occlusion detection | 67 MB | 256px | binary (face/bg) |
+| `xseg_2.onnx` | XSeg model 2 — occlusion detection | 67 MB | 256px | binary (face/bg) |
+| `xseg_3.onnx` | XSeg model 3 — occlusion detection | 67 MB | 256px | binary (face/bg) |
+Runtime model selection via IPC: `many` (all 3 intersected), `xseg_1`, `xseg_2`, `xseg_3`.
+Input: NHWC float32 [0,1]. Output: intersection of all selected model masks (most conservative).
+### BiSeNet — Region Segmentation
+| Model | Description | Size | Input | Classes |
+|-------|-------------|------|-------|---------|
+| `bisenet_resnet_34.onnx` | BiSeNet ResNet-34 (**default**) | 89 MB | 512px | 19 regions |
+| `bisenet_resnet_18.onnx` | BiSeNet ResNet-18 (lighter) | 51 MB | 512px | 19 regions |
+Runtime model selection via IPC. Input: NCHW float32 ImageNet-normalized.
+10 configurable face regions: skin, left-eyebrow, right-eyebrow, left-eye, right-eye, glasses, upper-lip, nose, lower-lip, mouth.
+## TensorRT Engine Cache
+Pre-compiled TensorRT engines stored in `trt_cache/` subfolder, keyed by GPU architecture and software versions. Eliminates cold-start TRT compilation (~180-300s) on new GPU instances.
+### Layout
+```
+trt_cache/
+├── sm89/trt10.9_ort1.24/          # RTX 4090 (Ada Lovelace)
+│   ├── manifest.json               # Metadata: cache_key, engine list, timestamps
+│   ├── TensorrtExecutionProvider_*.engine   # Compiled TRT engines
+│   ├── TensorrtExecutionProvider_*.profile  # Profiling data
+│   └── timing.cache                # cuDNN/TRT timing optimization cache
+├── sm86/trt10.9_ort1.24/          # RTX 3090 (Ampere)
+│   └── ...
+└── sm80/trt10.9_ort1.24/          # A100 (Ampere)
+    └── ...
+```
+### Cache Key
+Format: `{gpu_arch}/trt{trt_version}_ort{ort_version}`
+| Component | Example | Source |
+|-----------|---------|--------|
+| `gpu_arch` | `sm89` | `nvidia-smi --query-gpu=compute_cap` → `8.9` → `sm89` |
+| `trt_version` | `10.9` | `tensorrt.__version__` major.minor |
+| `ort_version` | `1.24` | `onnxruntime.__version__` major.minor |
+### Lifecycle
+1. **Download** — at container boot, GPU Worker checks HF for matching cache key. If found, downloads all engines (~10-30s vs ~180-300s compile).
+2. **Compile** — if no cache on HF, ONNX Runtime compiles TRT engines from scratch on first model load.
+3. **Self-seed upload** — after compilation, engines are uploaded to HF so future instances skip compilation.
+4. **Incremental upload** — if engines were downloaded from HF but new models compiled locally after (e.g., YOLOv8n during warmup), only the new engines are uploaded.
+### manifest.json
+```json
+{
+  "cache_key": "sm89/trt10.9_ort1.24",
+  "gpu_arch": "sm89",
+  "trt_version": "10.9",
+  "ort_version": "1.24",
+  "created_at": "2025-03-07T12:00:00Z",
+  "machine_id": "C.12345",
+  "engine_files": [
+    "TensorrtExecutionProvider_model_hash.engine",
+    "TensorrtExecutionProvider_model_hash.profile",
+    "timing.cache"
+  ]
+}
+```
+Manifest serves as both metadata and upload gate — its presence signals that cache was downloaded, and `engine_files` list enables incremental upload detection.
+## GFPGAN (optional, not used in real-time)
+Face restoration and enhancement. Too slow for real-time streaming (~50-150ms per frame).
+| Model | Description | Size |
+|-------|-------------|------|
+| `gfpgan/GFPGANv1.4.pth` | GFPGAN v1.4 restoration | 332 MB |
+| `gfpgan/weights/detection_Resnet50_Final.pth` | RetinaFace detector | 104 MB |
+| `gfpgan/weights/parsing_parsenet.pth` | ParseNet segmentation | 81 MB |
+## Usage
+### GPU Worker (production)
+Models are baked into the Docker image at build time (buffalo_l + default swap + landmark + mask models). Alternative swap models (HyperSwap) are downloaded on-demand by `ModelDownloadService`.
+TRT engine cache is downloaded asynchronously at boot via `trt_cache.py` (non-blocking — `/health` responds immediately).
+```bash
+# Manual download (local development)
+HF_TOKEN=hf_xxx ./scripts/download_models.sh /models
+```
+### Docker build
+```bash
+docker build --build-arg HF_TOKEN=hf_xxx -t morphstream-gpu-worker .
+```
+### Python (huggingface_hub)
+```python
+from huggingface_hub import hf_hub_download
+model_path = hf_hub_download(
+    repo_id="latark/MorphStream",
+    filename="inswapper_128_fp16.onnx",
+    token="hf_xxx"
+)
+```
+## Scripts
+### convert_scrfd_fp16.py
+Converts SCRFD det_10g.onnx from FP32 to FP16:
+```bash
+pip install onnx onnxconverter-common
+python scripts/convert_scrfd_fp16.py \
+    --input buffalo_l/det_10g.onnx \
+    --output buffalo_l/det_10g_fp16.onnx
+```
+Key: `op_block_list=['BatchNormalization']` prevents epsilon underflow (1e-5 → 0 in FP16 → NaN).
+## License
+MIT License

bisenet_resnet_18.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2218b6183c26ca5c83303232d682a536c670c13ea9695f716c777d1f244eefe9
+size 53205356

bisenet_resnet_34.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a0b8c958a3c938913bd06a8365dbb3c8761afba6ecbf0d14b3b1f77eb230c96
+size 93632546

buffalo_l/1k3d68.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df5c06b8a0c12e422b2ed8947b8869faa4105387f199c477af038aa01f9a45cc
+size 143607619

buffalo_l/2d106det.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f001b856447c413801ef5c42091ed0cd516fcd21f2d6b79635b1e733a7109dbf
+size 5030888

buffalo_l/det_10g.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5838f7fe053675b1c7a08b633df49e7af5495cee0493c7dcf6697200b85b5b91
+size 16923827

buffalo_l/det_10g_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:504a01ae20e82125ef4819fd469886bc267ec7a3681078fc40b4a604f4cd9269
+size 8477747

buffalo_l/genderage.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fde69b1c810857b88c64a335084f1c3fe8f01246c9a191b48c7bb756d6652fb
+size 1322532

buffalo_l/w600k_r50.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c06341c33c2ca1f86781dab0e829f88ad5b64be9fba56e56bc9ebdefc619e43
+size 174383860

dfl_xseg.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af105ae257170fdbc6a03460327b88d5c0b9a659aa4384fb8686ceead7294ad8
+size 70343569

gfpgan/GFPGANv1.4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2cd4703ab14f4d01fd1383a8a8b266f9a5833dacee8e6a79d3bf21a1b6be5ad
+size 348632874

gfpgan/weights/detection_Resnet50_Final.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d1de9c2944f2ccddca5f5e010ea5ae64a39845a86311af6fdf30841b0a5a16d
+size 109497761

gfpgan/weights/parsing_parsenet.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d558d8d0e42c20224f13cf5a29c79eba2d59913419f945545d8cf7b72920de2
+size 85331193

hyperswap_1a_256.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0e98a8a03a238f461ed3d2570e426b49f46745ee400854a60dceeb70c246add
+size 402742682

hyperswap_1b_256.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5124031789c42f71b9558fb71954ef7aedb6da7ed9fac79293e23c61a792a73e
+size 402742682

hyperswap_1c_256.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5528c2d76fe9986c99d829278987ef9f3a630cb606db7628d02b57b330f406a5
+size 402742682

inswapper_128.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4a3f08c753cb72d04e10aa0f7dbe3deebbf39567d4ead6dce08e98aa49e16af
+size 554253681

inswapper_128_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d51a9278a1f650cffefc18ba53f38bf2769bf4bbff89267822cf72945f8a38b
+size 277680638

runtime_kit/cuda-12.9-py312/develop/manifest.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "version": "develop-c3fe843",
+  "created_at": "2026-03-16T23:49:03Z",
+  "base_image": "vastai/base-image:cuda-12.9-mini-py312",
+  "cuda_compat": "12.6-13.1",
+  "components": {
+    "runtime_kit": {
+      "file": "runtime_kit.tar.zst",
+      "sha256": "a2d516a767982bdacabce600c4d8c74b677213160c34bee4eca41dfd6a30d8cd",
+      "size_bytes": 5117579370
+    }
+  }
+}

runtime_kit/cuda-12.9-py312/develop/models.tar.zst ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99b022f8850a40549fc2eaa04675dbc2840ff3e5277389d12f1a267eccdec04e
+size 976835217

runtime_kit/cuda-12.9-py312/develop/runtime_kit.tar.zst ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2d516a767982bdacabce600c4d8c74b677213160c34bee4eca41dfd6a30d8cd
+size 5117579370

scripts/convert_scrfd_fp16.py ADDED Viewed

	@@ -0,0 +1,76 @@

+#!/usr/bin/env python3
+"""Convert SCRFD det_10g.onnx from FP32 to FP16.
+Usage:
+    pip install onnx onnxconverter-common
+    python scripts/convert_scrfd_fp16.py \
+        --input /path/to/det_10g.onnx \
+        --output /path/to/det_10g_fp16.onnx
+Design decisions:
+- op_block_list=['BatchNormalization'] — epsilon 1e-5 underflows to 0 in FP16 → NaN.
+  Keeping BN in FP32 prevents this while still converting ~95% of ops to FP16.
+- keep_io_types=True — Input/output remain float32 for compatibility.
+  No preprocessing changes needed in SCRFD pipeline.
+- onnx.checker validates structural integrity after conversion.
+"""
+import argparse
+import sys
+from pathlib import Path
+def convert_fp16(input_path: str, output_path: str) -> None:
+    """Convert ONNX model from FP32 to FP16."""
+    try:
+        import onnx
+        from onnxconverter_common import float16
+    except ImportError:
+        print("Missing dependencies. Install:")
+        print("  pip install onnx onnxconverter-common")
+        sys.exit(1)
+    input_file = Path(input_path)
+    if not input_file.exists():
+        print(f"Input file not found: {input_path}")
+        sys.exit(1)
+    print(f"Loading {input_path} ...")
+    model = onnx.load(input_path)
+    input_size_mb = input_file.stat().st_size / (1024 * 1024)
+    print(f"  Input size: {input_size_mb:.1f} MB")
+    print(f"  Opset version: {model.opset_import[0].version}")
+    # Convert to FP16 with BatchNormalization excluded
+    # BN epsilon (1e-5) underflows to 0 in FP16 → division by zero → NaN
+    print("Converting to FP16 (excluding BatchNormalization) ...")
+    model_fp16 = float16.convert_float_to_float16(
+        model,
+        op_block_list=["BatchNormalization"],
+        keep_io_types=True,
+    )
+    # Validate
+    print("Validating converted model ...")
+    onnx.checker.check_model(model_fp16)
+    # Save
+    output_file = Path(output_path)
+    output_file.parent.mkdir(parents=True, exist_ok=True)
+    onnx.save(model_fp16, output_path)
+    output_size_mb = output_file.stat().st_size / (1024 * 1024)
+    ratio = output_size_mb / input_size_mb * 100
+    print(f"  Output size: {output_size_mb:.1f} MB ({ratio:.0f}% of original)")
+    print(f"  Saved to: {output_path}")
+    print("Done.")
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Convert SCRFD det_10g.onnx FP32 → FP16")
+    parser.add_argument("--input", required=True, help="Path to FP32 det_10g.onnx")
+    parser.add_argument("--output", required=True, help="Output path for FP16 model")
+    args = parser.parse_args()
+    convert_fp16(args.input, args.output)

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_17833951080834725538_0_0_fp16_sm89.engine ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f51d27c083f869b3818be05df14f218ecd44f4b8920943cc14a5cfdc11a24319
+size 51294308

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_17833951080834725538_0_0_fp16_sm89.profile ADDED Viewed

Binary file (21 Bytes). View file

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_8113506114015737638_0_0_fp16_sm89.engine ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4438b7c4f2d2f85b41203911355537091d9fbec0d8f4524698fa2aeae027d3b
+size 10357980

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_9597588243303553259_0_0_fp16_sm89.engine ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fee5a0dde13de567891a93125a2ebe96d5a62a1bd5e98f16716bf78a4f71948
+size 31027988

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_main_graph_9597588243303553259_0_0_fp16_sm89.profile ADDED Viewed

Binary file (21 Bytes). View file

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_11107014985443681405_0_0_fp16_sm89.engine ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c53297674775156338551acdc8e22ea51d3c17bd76783d8f45461cfd3b7209c
+size 4299956

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_11107014985443681405_0_0_fp16_sm89.profile ADDED Viewed

Binary file (20 Bytes). View file

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_167800414563226528_0_0_fp16_sm89.engine ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb5dc75cdeff4915c75ef732661f99b634b0e4b04a2766f4bf15392d0865c429
+size 57522548

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_17996549027508307148_0_0_fp16_sm89.engine ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55d76dfa9db33da731ff0a249d7e696e92d97aef40e296ac4b13c6923b429d9b
+size 9784060

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_17996549027508307148_0_0_fp16_sm89.profile ADDED Viewed

Binary file (36 Bytes). View file

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_2345837266770369871_0_0_fp16_sm89.engine ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7424d4aa0a572f18284db645928f4677c522fb98ea1141e9afd1f7463827d9e
+size 90437652

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_2345837266770369871_0_0_fp16_sm89.profile ADDED Viewed

Binary file (23 Bytes). View file

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_TRTKernel_graph_torch_jit_10294570408813474267_0_0_sm89.engine ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e2901b8b90663ac30a7001037447cf171afec18e914267a4b0d7a44477ff3bf
+size 281999132

trt_cache/sm89/trt10.9_ort1.24/TensorrtExecutionProvider_cache_sm89.timing ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29bdb94cc5924532a547a58b25994327d063e5ecf424c4eedb98815842f5c88c
+size 24462901

trt_cache/sm89/trt10.9_ort1.24/manifest.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "cache_key": "sm89/trt10.9_ort1.24",
+  "gpu_arch": "sm89",
+  "trt_version": "10.9",
+  "ort_version": "1.24",
+  "created_at": "2026-03-17T01:15:18Z",
+  "machine_id": "C.32987251",
+  "engine_files": [
+    "TensorrtExecutionProvider_TRTKernel_graph_main_graph_17833951080834725538_0_0_fp16_sm89.engine",
+    "TensorrtExecutionProvider_TRTKernel_graph_main_graph_17833951080834725538_0_0_fp16_sm89.profile",
+    "TensorrtExecutionProvider_TRTKernel_graph_main_graph_8113506114015737638_0_0_fp16_sm89.engine",
+    "TensorrtExecutionProvider_TRTKernel_graph_main_graph_9597588243303553259_0_0_fp16_sm89.engine",
+    "TensorrtExecutionProvider_TRTKernel_graph_main_graph_9597588243303553259_0_0_fp16_sm89.profile",
+    "TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_11107014985443681405_0_0_fp16_sm89.engine",
+    "TensorrtExecutionProvider_TRTKernel_graph_mxnet_converted_model_11107014985443681405_0_0_fp16_sm89.profile",
+    "TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_167800414563226528_0_0_fp16_sm89.engine",
+    "TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_17996549027508307148_0_0_fp16_sm89.engine",
+    "TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_17996549027508307148_0_0_fp16_sm89.profile",
+    "TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_2345837266770369871_0_0_fp16_sm89.engine",
+    "TensorrtExecutionProvider_TRTKernel_graph_torch-jit-export_2345837266770369871_0_0_fp16_sm89.profile",
+    "TensorrtExecutionProvider_TRTKernel_graph_torch_jit_10294570408813474267_0_0_sm89.engine",
+    "TensorrtExecutionProvider_cache_sm89.timing"
+  ]
+}

xseg_1.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4d1498b8a03b5fe2a3a5d2ef2a0402ab03bd51edaf5b2d8d5fb764702a97dd3
+size 70324286

xseg_2.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd9a0879eaf43841d765472cf1f8c330dbf9dcb03da0eace93e95f3bcc399042
+size 70324286

xseg_3.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48ccd7e8541e159a5a754ec9e62df2f12065f7df8f9af842c1750342c6533559
+size 70327709

yolov8n.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d767becf196208a6739a25cfcd19819714a6db637fc179acb5890133de9b363b
+size 12851047