martialroberge
commited on
Commit
·
b3c5c24
1
Parent(s):
7a7f712
Ajout de la model card et mise à jour de la licence
Browse files
app.py
CHANGED
|
@@ -358,11 +358,103 @@ La réponse doit être uniquement le JSON, sans texte supplémentaire."""
|
|
| 358 |
with open(jsonl_path, 'a', encoding='utf-8') as f:
|
| 359 |
f.write(json.dumps(entry, ensure_ascii=False) + '\n')
|
| 360 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 361 |
# Créer le fichier LICENSE
|
| 362 |
with open(dataset_path / "LICENSE", 'w') as f:
|
| 363 |
-
f.write("""Apache License
|
|
|
|
|
|
|
| 364 |
|
| 365 |
-
Copyright
|
| 366 |
|
| 367 |
Licensed under the Apache License, Version 2.0 (the "License");
|
| 368 |
you may not use this file except in compliance with the License.
|
|
@@ -376,7 +468,7 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
|
|
| 376 |
See the License for the specific language governing permissions and
|
| 377 |
limitations under the License.
|
| 378 |
""")
|
| 379 |
-
|
| 380 |
progress(0.9, desc="Upload du dataset sur Hugging Face...")
|
| 381 |
|
| 382 |
try:
|
|
|
|
| 358 |
with open(jsonl_path, 'a', encoding='utf-8') as f:
|
| 359 |
f.write(json.dumps(entry, ensure_ascii=False) + '\n')
|
| 360 |
|
| 361 |
+
# Créer le fichier README.md (model card)
|
| 362 |
+
with open(dataset_path / "README.md", 'w', encoding='utf-8') as f:
|
| 363 |
+
f.write(f"""---
|
| 364 |
+
license: apache-2.0
|
| 365 |
+
task_categories:
|
| 366 |
+
- document-question-answering
|
| 367 |
+
- visual-question-answering
|
| 368 |
+
language:
|
| 369 |
+
- fr
|
| 370 |
+
tags:
|
| 371 |
+
- finance
|
| 372 |
+
- vlm
|
| 373 |
+
- document-ai
|
| 374 |
+
- question-answering
|
| 375 |
+
pretty_name: {dataset_name.split('/')[-1]}
|
| 376 |
+
size_categories:
|
| 377 |
+
- n<1K
|
| 378 |
+
---
|
| 379 |
+
|
| 380 |
+
# {dataset_name.split('/')[-1]}
|
| 381 |
+
|
| 382 |
+
## Description
|
| 383 |
+
|
| 384 |
+
Ce dataset a été créé pour l'entraînement de modèles Vision-Langage (VLM) spécialisés dans l'analyse de documents financiers. Il a été généré automatiquement en utilisant l'API Google Gemini pour analyser des documents financiers et produire des questions/réponses pertinentes en français.
|
| 385 |
+
|
| 386 |
+
## Objectif
|
| 387 |
+
|
| 388 |
+
L'objectif de ce dataset est de permettre l'entraînement de mini-modèles VLM spécialisés dans les tâches financières, en leur permettant d'atteindre des performances proches des grands modèles comme GPT-4V ou Gemini, mais avec une empreinte plus légère et une spécialisation métier.
|
| 389 |
+
|
| 390 |
+
## Caractéristiques
|
| 391 |
+
|
| 392 |
+
- **Langue** : Questions et réponses en français
|
| 393 |
+
- **Domaine** : Finance et analyse de documents financiers
|
| 394 |
+
- **Format** : Images (PNG) + métadonnées (JSONL)
|
| 395 |
+
- **Types de questions** :
|
| 396 |
+
- Analyse quantitative (montants, ratios, variations)
|
| 397 |
+
- Analyse qualitative (stratégies, risques, opportunités)
|
| 398 |
+
- Questions négatives (informations non présentes)
|
| 399 |
+
- **Structure** :
|
| 400 |
+
- Train (80%)
|
| 401 |
+
- Validation (10%)
|
| 402 |
+
- Test (10%)
|
| 403 |
+
|
| 404 |
+
## Métadonnées
|
| 405 |
+
|
| 406 |
+
Chaque entrée du dataset contient :
|
| 407 |
+
- Un ID unique
|
| 408 |
+
- Le chemin de l'image
|
| 409 |
+
- Une question en français
|
| 410 |
+
- La réponse correspondante
|
| 411 |
+
- La langue source du document
|
| 412 |
+
- Un indicateur de question négative
|
| 413 |
+
|
| 414 |
+
## Génération
|
| 415 |
+
|
| 416 |
+
Ce dataset a été généré automatiquement en utilisant :
|
| 417 |
+
1. L'API Google Gemini pour l'analyse des documents
|
| 418 |
+
2. Un prompt spécialisé pour la génération de questions/réponses financières
|
| 419 |
+
3. Un système de validation pour assurer la qualité et la cohérence
|
| 420 |
+
|
| 421 |
+
## Utilisation
|
| 422 |
+
|
| 423 |
+
Ce dataset est particulièrement adapté pour :
|
| 424 |
+
- L'entraînement de mini-modèles VLM spécialisés en finance
|
| 425 |
+
- Le fine-tuning de modèles existants pour des tâches financières
|
| 426 |
+
- L'évaluation de modèles sur des tâches de compréhension de documents financiers
|
| 427 |
+
|
| 428 |
+
## Citation
|
| 429 |
+
|
| 430 |
+
Si vous utilisez ce dataset, veuillez citer :
|
| 431 |
+
```bibtex
|
| 432 |
+
@misc{{dataset-{dataset_name.split('/')[-1]},
|
| 433 |
+
author = {{Martial ROBERGE}},
|
| 434 |
+
title = {{{dataset_name.split('/')[-1]}}},
|
| 435 |
+
year = {{2024}},
|
| 436 |
+
publisher = {{Hugging Face}},
|
| 437 |
+
organization = {{Lexia France}},
|
| 438 |
+
contact = {{martial@lexiapro.fr}}
|
| 439 |
+
}}
|
| 440 |
+
```
|
| 441 |
+
|
| 442 |
+
## Création
|
| 443 |
+
|
| 444 |
+
Dataset créé par Martial ROBERGE (Lexia France) en utilisant [Mini-VLM Dataset Builder](https://huggingface.co/spaces/Marsouuu/french-visual-dataset-builder-v1).
|
| 445 |
+
|
| 446 |
+
## Licence
|
| 447 |
+
|
| 448 |
+
Ce dataset est distribué sous licence Apache 2.0.
|
| 449 |
+
""")
|
| 450 |
+
|
| 451 |
# Créer le fichier LICENSE
|
| 452 |
with open(dataset_path / "LICENSE", 'w') as f:
|
| 453 |
+
f.write(""" Apache License
|
| 454 |
+
Version 2.0, January 2004
|
| 455 |
+
http://www.apache.org/licenses/
|
| 456 |
|
| 457 |
+
Copyright 2024 Martial ROBERGE - Lexia France
|
| 458 |
|
| 459 |
Licensed under the Apache License, Version 2.0 (the "License");
|
| 460 |
you may not use this file except in compliance with the License.
|
|
|
|
| 468 |
See the License for the specific language governing permissions and
|
| 469 |
limitations under the License.
|
| 470 |
""")
|
| 471 |
+
|
| 472 |
progress(0.9, desc="Upload du dataset sur Hugging Face...")
|
| 473 |
|
| 474 |
try:
|