Duplicate from indicnodeai/dbnetpp_repvit_ch

Browse files

Files changed (3) hide show

.gitattributes +35 -0
README.md +132 -0
dbnetpp_repvit_ch.pth +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,132 @@

+---
+license: apache-2.0
+language:
+- zh
+- en
+tags:
+- text-detection
+- ocr
+- dbnet
+- repvit
+- pytorch
+datasets:
+- chinese-text-detection
+pipeline_tag: image-segmentation
+---
+# DBNet++ RepViT (Chinese)
+Lightweight text detection model combining DBNet++ with RepViT backbone, optimized for efficient inference. Pretrained on **Chinese text detection datasets**.
+## Model Details
+| Component | Configuration |
+|-----------|--------------|
+| Architecture | DBNet++ (Differentiable Binarization) |
+| Backbone | RepViT (lightweight ViT-inspired CNN) |
+| Neck | RSEFPN (in: [48, 96, 192, 384], out: 96) |
+| Head | DBNetPPHead (inner: 24, k: 50) |
+| Parameters | ~3M |
+| Input Size | 640x640 (flexible) |
+## Training Data
+This model was converted from [OpenOCR](https://github.com/Topdu/OpenOCR) pretrained weights, trained on **Chinese text detection datasets**.
+**Recommended datasets for fine-tuning:**
+- MSRA-TD500 (Chinese + English)
+- ICDAR2017 RCTW (Chinese)
+- CTW1500
+**Note:** For English-only text detection, fine-tuning on English datasets (ICDAR2015, Total-Text) is recommended.
+## Usage
+### With Hugging Face
+```python
+from huggingface_hub import hf_hub_download
+import torch
+# Download model
+model_path = hf_hub_download(
+    repo_id="thisisiron/dbnetpp_repvit_ch",
+    filename="dbnetpp_repvit_ch.pth"
+)
+# Load weights
+state_dict = torch.load(model_path, map_location="cpu")
+```
+### With OCR-Factory
+```python
+import torch
+from ocrfactory.models.detect import DBNetPP
+# Build model
+model = DBNetPP(
+    backbone={"name": "RepViT"},
+    neck={
+        "name": "RSEFPN",
+        "in_channels": [48, 96, 192, 384],
+        "out_channels": 96,
+        "shortcut": True
+    },
+    head={
+        "name": "DBNetPPHead",
+        "in_channels": 96,
+        "inner_channels": 24,
+        "k": 50,
+        "use_asf": False
+    }
+)
+# Load weights
+state_dict = torch.load("dbnetpp_repvit_ch.pth", map_location="cpu")
+model.load_state_dict(state_dict, strict=True)
+model.eval()
+# Inference
+x = torch.randn(1, 3, 640, 640)
+with torch.no_grad():
+    output = model(x)
+    shrink_map = output["shrink_map"]  # (1, 1, 640, 640)
+```
+### Training Config (YAML)
+```yaml
+architecture:
+  backbone:
+    name: RepViT
+  neck:
+    name: RSEFPN
+    in_channels: [48, 96, 192, 384]
+    out_channels: 96
+    shortcut: true
+  head:
+    name: DBNetPPHead
+    in_channels: 96
+    inner_channels: 24
+    k: 50
+    use_asf: false
+```
+## Performance
+| Dataset | Precision | Recall | H-mean |
+|---------|-----------|--------|--------|
+| MSRA-TD500 | - | - | - |
+*Performance metrics will be updated after benchmarking.*
+## References
+- **OpenOCR**: https://github.com/Topdu/OpenOCR
+- **RepViT**: https://github.com/THU-MIG/RepViT
+- **DBNet++**: [Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion](https://arxiv.org/abs/2202.10304)
+## License
+Apache 2.0

dbnetpp_repvit_ch.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abb34802356cc705bb22fe25c369071b3436de45f93c78adeedb9171fd998a01
+size 12728527