ssppkenny
/

layoutlmv3-toc-detector

@@ -35,15 +35,17 @@ This model is a fine-tuned version of [microsoft/layoutlmv3-base](https://huggin
 ## Training Data
-The model was fine-tuned on a custom dataset of 34 document pages:
-- **TOC pages**: 17 examples
-- **Non-TOC pages**: 17 examples
 - **Sources**: Various books and academic documents
 The dataset includes:
 - Traditional TOC with page numbers (right-aligned)
 - Hierarchical TOC with chapter numbers (1, 1.1, 1.1.1)
 - Various formatting styles
 ## Training Procedure
@@ -54,29 +56,33 @@ The dataset includes:
 - **Learning rate**: 2e-5 with linear warmup
 - **Optimizer**: AdamW
 - **Device**: NVIDIA GeForce RTX 3050 4GB
-- **Training time**: ~10-15 minutes
 ### Training Results
-| Epoch | Train Loss | Val Loss | Val Accuracy |
-|-------|------------|----------|--------------|
-| 1     | 0.6893     | 0.6521   | 52.9%        |
-| 5     | 0.2145     | 0.3124   | 82.4%        |
-| 10    | 0.0892     | 0.2876   | **88.2%**    |
 **Final Test Metrics**:
-- **Overall Accuracy**: 88.2% (30/34 correct)
-- **TOC Detection**: 82.4% (14/17 correct)
-- **Non-TOC Detection**: 94.1% (16/17 correct)
 ### Comparison with Baseline
-| Method | Accuracy | Speed |
-|--------|----------|-------|
-| Rule-based (original) | 85.3% | 17.7s |
-| **LayoutLMv3 (this model)** | **88.2%** | **3.1s** |
-This model is **3.1x faster** and **2.9% more accurate** than the rule-based approach.
 ## Intended Use

 ## Training Data
+The model was fine-tuned on a custom dataset of 54 document pages:
+- **TOC pages**: 27 examples
+- **Non-TOC pages**: 27 examples
 - **Sources**: Various books and academic documents
+- **Balance**: Perfectly balanced (50/50)
 The dataset includes:
 - Traditional TOC with page numbers (right-aligned)
 - Hierarchical TOC with chapter numbers (1, 1.1, 1.1.1)
 - Various formatting styles
+- Multiple languages and document types
 ## Training Procedure
 - **Learning rate**: 2e-5 with linear warmup
 - **Optimizer**: AdamW
 - **Device**: NVIDIA GeForce RTX 3050 4GB
+- **Training time**: ~2 minutes
+- **Date**: February 21, 2026
 ### Training Results
+| Epoch | Train Loss | Train Acc | Val Loss | Val Accuracy |
+|-------|------------|-----------|----------|--------------|
+| 1     | 0.6768     | 59.26%    | 0.6706   | 57.14%       |
+| 3     | 0.6045     | 81.48%    | 0.6031   | 71.43%       |
+| 6     | 0.1850     | 92.59%    | 0.5292   | 85.71%       |
+| 7     | 0.1001     | 96.30%    | 0.0830   | **100.00%**  |
+| 10    | 0.0048     | 100.00%   | 0.0058   | **100.00%**  |
 **Final Test Metrics**:
+- **Overall Accuracy**: 100.00% (54/54 correct)
+- **TOC Detection**: 100.00% (27/27 correct)
+- **Non-TOC Detection**: 100.00% (27/27 correct)
+- **Best Epoch**: Epoch 7
 ### Comparison with Baseline
+| Method | Dataset | Accuracy | Speed |
+|--------|---------|----------|-------|
+| Rule-based (original) | N/A | 85.3% | 17.7s |
+| **LayoutLMv3 (this model)** | **54 pages** | **100.00%** ✨ | **3.1s** |
+This model is **5.7x faster** and **14.7% more accurate** than the rule-based approach.
 ## Intended Use

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1216a370d0ae81f060bdc52c4483893d4271f186934160e97f85706d37f13157
 size 503702720

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5763420a210e308fc9f1730ced87eb49799a25bd9ab8b4be39a89aee3354f70
 size 503702720