Spaces:
Running
Running
| # Premier benchmark Picarones | |
| Ce tutoriel guide un nouvel utilisateur — chercheur, archiviste, | |
| conservateur — à travers son **premier benchmark OCR** complet, de | |
| l'installation jusqu'à la lecture du rapport produit. Comptez 15 | |
| minutes pour la première fois, 2 minutes une fois familier. | |
| > **Pré-requis** : Python 3.11+ et `pip`. Sur Linux, le binaire | |
| > `tesseract` est nécessaire pour le moteur OCR par défaut | |
| > (`apt-get install tesseract-ocr tesseract-ocr-fra` sur Debian/Ubuntu). | |
| --- | |
| ## 1. Installation | |
| ```bash | |
| pip install -e ".[dev,web]" | |
| ``` | |
| L'extra `dev` apporte la suite de tests, `web` apporte l'interface | |
| FastAPI (utile dès la deuxième session). Pour une installation | |
| minimale en production, voir [`how-to/install.md`](../how-to/install.md). | |
| Vérifiez : | |
| ```bash | |
| picarones info | |
| picarones engines | |
| ``` | |
| Si `picarones engines` liste au moins `tesseract`, vous êtes prêt. | |
| --- | |
| ## 2. Générer un rapport de démonstration | |
| Le mode `demo` produit un rapport HTML synthétique sans aucun moteur | |
| installé. C'est le moyen le plus rapide de voir ce que Picarones | |
| produit. | |
| ```bash | |
| picarones demo --output rapport_demo.html | |
| ``` | |
| Ouvrez `rapport_demo.html` dans un navigateur. Vous obtenez un | |
| rapport complet avec : | |
| - agrégat CER/WER global ; | |
| - diff caractère à caractère sur les documents ; | |
| - diagramme CD (Critical Difference) si plus de 2 moteurs ; | |
| - moteur narratif qui résume les faits saillants en prose. | |
| Voir [`reading-a-report.md`](reading-a-report.md) pour la lecture | |
| détaillée. | |
| --- | |
| ## 3. Benchmark sur un vrai corpus | |
| Préparez un dossier `mon_corpus/` qui contient : | |
| ``` | |
| mon_corpus/ | |
| ├── doc1.jpg | |
| ├── doc1.gt.txt # transcription de référence | |
| ├── doc2.jpg | |
| └── doc2.gt.txt | |
| ``` | |
| Le format des transcriptions de référence est documenté dans | |
| [`reference/normalization-profiles.md`](../reference/normalization-profiles.md). | |
| Lancez le benchmark : | |
| ```bash | |
| picarones run \ | |
| --corpus mon_corpus/ \ | |
| --engines tesseract \ | |
| --output rapport.html \ | |
| --json rapport.json | |
| ``` | |
| `rapport.html` contient le rendu visuel ; `rapport.json` contient | |
| l'agrégat machine-lisible (utile pour CI ou comparaisons | |
| longitudinales — voir | |
| [`reference/reproducibility-snapshots.md`](../reference/reproducibility-snapshots.md)). | |
| --- | |
| ## 4. Comparer plusieurs moteurs | |
| ```bash | |
| picarones run \ | |
| --corpus mon_corpus/ \ | |
| --engines tesseract,pero_ocr,mistral_ocr \ | |
| --output comparaison.html | |
| ``` | |
| Le rapport affiche désormais : | |
| - une ligne par moteur avec CER moyen + IC95 ; | |
| - le diagramme CD (qui domine statistiquement qui) ; | |
| - les diffs côte à côte ; | |
| - les coûts (si moteurs cloud). | |
| Le moteur narratif énonce les écarts significatifs, ne désigne | |
| jamais un « gagnant ». | |
| --- | |
| ## 5. Interface web (optionnelle) | |
| ```bash | |
| picarones serve --port 7860 | |
| ``` | |
| Ouvre `http://localhost:7860`. L'interface permet d'upload un ZIP | |
| de corpus et de lancer un benchmark interactif. Pour le déploiement | |
| institutionnel, voir | |
| [`operations/deployment-institutional.md`](../operations/deployment-institutional.md). | |
| --- | |
| ## Étapes suivantes | |
| - Comprendre les métriques : | |
| [`reference/views.md`](../reference/views.md), | |
| [`reference/normalization-profiles.md`](../reference/normalization-profiles.md) | |
| - Lire un rapport en détail : | |
| [`reading-a-report.md`](reading-a-report.md) | |
| - Écrire un module pour la pipeline : | |
| [`writing-a-pipeline-module.md`](writing-a-pipeline-module.md) | |
| - Étudier des cas d'usage : | |
| [`case-studies/`](../case-studies/) | |