File size: 4,237 Bytes
06295fa
 
 
 
 
 
f1e8dfe
06295fa
 
 
 
f1e8dfe
06295fa
f1e8dfe
06295fa
 
 
 
 
 
 
f1e8dfe
06295fa
 
 
f1e8dfe
 
06295fa
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f1e8dfe
 
 
06295fa
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f1e8dfe
06295fa
 
f1e8dfe
06295fa
 
 
f1e8dfe
 
 
 
06295fa
 
f1e8dfe
 
 
 
 
 
06295fa
 
f1e8dfe
06295fa
 
f1e8dfe
06295fa
 
 
 
 
 
f1e8dfe
 
 
06295fa
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
---
license: mit
language: 
- en
- fr
tags:
- myocardial-infarction
- biomedical
- classification
- pubmed
- scientific-literature
- medical-research
datasets:
- custom-myocardial-infarction-publications
metrics:
- accuracy
- f1
library_name: transformers
pipeline_tag: text-classification
---

# ArticleTypePredictionImproved - Medical Publication Classifier

## Description

Ce modèle est un classificateur fine-tuné et optimisé pour identifier le type de publications scientifiques médicales. 
Il est basé sur PubMedBERT et a été **entraîné sur un dataset spécialisé d'infarctus du myocarde** provenant de PubMed, mais ses capacités de classification s'étendent à **toutes les publications médicales** grâce à sa robustesse et à l'architecture PubMedBERT.

## Performance

- **Accuracy**: 93.80%
- **F1-Score**: 93.77%
- **Meilleur modèle**: checkpoint-2000

## Classes supportées

Le modèle peut classifier 9 types de publications :

0. **CASE_REPORTS** - Rapports de cas
1. **COMMENT** - Commentaires
2. **EDITORIAL** - Éditoriaux
3. **GUIDELINES** - Directives cliniques
4. **META_ANALYSIS** - Méta-analyses
5. **PROSPECTIVE** - Études prospectives
6. **RCT** - Essais contrôlés randomisés
7. **RETROSPECTIVE** - Études rétrospectives
8. **REVIEW** - Revues de littérature

## Utilisation

```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Charger le modèle
model_name = "slepape/ArticleTypePredictionImproved"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Préparer le texte (titre + abstract) - Exemple avec infarctus du myocarde
title = "Percutaneous Coronary Intervention in ST-Elevation Myocardial Infarction"
abstract = "This randomized controlled trial evaluates the efficacy of primary PCI versus thrombolysis in STEMI patients..."
text = f"[TITLE] {title} [SEP] [ABSTRACT] {abstract}"

# Prédiction
inputs = tokenizer(text, return_tensors="pt", max_length=512, truncation=True, padding=True)
with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.softmax(outputs.logits, dim=-1)
    predicted_class = torch.argmax(predictions, dim=-1).item()

# Mapping des classes
class_names = [
    "CASE_REPORTS", "COMMENT", "EDITORIAL", "GUIDELINES",
    "META_ANALYSIS", "PROSPECTIVE", "RCT", "RETROSPECTIVE", "REVIEW"
]

print(f"Type de publication prédit: {class_names[predicted_class]}")
print(f"Confiance: {predictions[0][predicted_class]:.3f}")
```

## Entraînement

- **Modèle de base**: microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext
- **Dataset de spécialisation**: Publications sur l'infarctus du myocarde équilibrées (9 classes)
- **Technique**: Fine-tuning avec optimisation des hyperparamètres
- **Combinaison**: Titre + Abstract avec tokens spéciaux [TITLE], [SEP], [ABSTRACT]
- **Domaine d'application**: Entraîné sur l'infarctus du myocarde, généralisable à toute la médecine

## Évaluation

Le modèle a été testé sur plusieurs types de publications médicales avec d'excellents résultats :
- **RCT**: 98% de précision sur les essais randomisés
- **Guidelines**: 100% de précision sur les recommandations
- **Meta-Analysis**: 94% de précision sur les méta-analyses
- Classification équilibrée sur toutes les classes

## Domaines d'Application**Optimisé pour**: Infarctus du myocarde et cardiologie
✅ **Applicable à**: Toutes les spécialités médicales (oncologie, pneumologie, neurologie, etc.)
✅ **Types de publications**: Tous les types de recherche biomédicale

## Limitations

- Entraîné spécifiquement sur l'infarctus du myocarde (performance optimale sur ce domaine)
- Optimisé pour des textes en anglais (titres + abstracts PubMed)
- Performance optimale avec la structure [TITLE] ... [SEP] [ABSTRACT] ...
- Recommandé de tester sur votre domaine spécifique pour valider les performances

## Citation

Si vous utilisez ce modèle, merci de citer :

```
ArticleTypePredictionImproved - Medical Publication Type Classifier
Fine-tuned PubMedBERT for medical literature classification
Specialized on myocardial infarction, applicable to all medical domains
2024
```