--- license: mit language: - en - fr tags: - myocardial-infarction - biomedical - classification - pubmed - scientific-literature - medical-research datasets: - custom-myocardial-infarction-publications metrics: - accuracy - f1 library_name: transformers pipeline_tag: text-classification --- # ArticleTypePredictionImproved - Medical Publication Classifier ## Description Ce modèle est un classificateur fine-tuné et optimisé pour identifier le type de publications scientifiques médicales. Il est basé sur PubMedBERT et a été **entraîné sur un dataset spécialisé d'infarctus du myocarde** provenant de PubMed, mais ses capacités de classification s'étendent à **toutes les publications médicales** grâce à sa robustesse et à l'architecture PubMedBERT. ## Performance - **Accuracy**: 93.80% - **F1-Score**: 93.77% - **Meilleur modèle**: checkpoint-2000 ## Classes supportées Le modèle peut classifier 9 types de publications : 0. **CASE_REPORTS** - Rapports de cas 1. **COMMENT** - Commentaires 2. **EDITORIAL** - Éditoriaux 3. **GUIDELINES** - Directives cliniques 4. **META_ANALYSIS** - Méta-analyses 5. **PROSPECTIVE** - Études prospectives 6. **RCT** - Essais contrôlés randomisés 7. **RETROSPECTIVE** - Études rétrospectives 8. **REVIEW** - Revues de littérature ## Utilisation ```python from transformers import AutoTokenizer, AutoModelForSequenceClassification import torch # Charger le modèle model_name = "slepape/ArticleTypePredictionImproved" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) # Préparer le texte (titre + abstract) - Exemple avec infarctus du myocarde title = "Percutaneous Coronary Intervention in ST-Elevation Myocardial Infarction" abstract = "This randomized controlled trial evaluates the efficacy of primary PCI versus thrombolysis in STEMI patients..." text = f"[TITLE] {title} [SEP] [ABSTRACT] {abstract}" # Prédiction inputs = tokenizer(text, return_tensors="pt", max_length=512, truncation=True, padding=True) with torch.no_grad(): outputs = model(**inputs) predictions = torch.softmax(outputs.logits, dim=-1) predicted_class = torch.argmax(predictions, dim=-1).item() # Mapping des classes class_names = [ "CASE_REPORTS", "COMMENT", "EDITORIAL", "GUIDELINES", "META_ANALYSIS", "PROSPECTIVE", "RCT", "RETROSPECTIVE", "REVIEW" ] print(f"Type de publication prédit: {class_names[predicted_class]}") print(f"Confiance: {predictions[0][predicted_class]:.3f}") ``` ## Entraînement - **Modèle de base**: microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext - **Dataset de spécialisation**: Publications sur l'infarctus du myocarde équilibrées (9 classes) - **Technique**: Fine-tuning avec optimisation des hyperparamètres - **Combinaison**: Titre + Abstract avec tokens spéciaux [TITLE], [SEP], [ABSTRACT] - **Domaine d'application**: Entraîné sur l'infarctus du myocarde, généralisable à toute la médecine ## Évaluation Le modèle a été testé sur plusieurs types de publications médicales avec d'excellents résultats : - **RCT**: 98% de précision sur les essais randomisés - **Guidelines**: 100% de précision sur les recommandations - **Meta-Analysis**: 94% de précision sur les méta-analyses - Classification équilibrée sur toutes les classes ## Domaines d'Application ✅ **Optimisé pour**: Infarctus du myocarde et cardiologie ✅ **Applicable à**: Toutes les spécialités médicales (oncologie, pneumologie, neurologie, etc.) ✅ **Types de publications**: Tous les types de recherche biomédicale ## Limitations - Entraîné spécifiquement sur l'infarctus du myocarde (performance optimale sur ce domaine) - Optimisé pour des textes en anglais (titres + abstracts PubMed) - Performance optimale avec la structure [TITLE] ... [SEP] [ABSTRACT] ... - Recommandé de tester sur votre domaine spécifique pour valider les performances ## Citation Si vous utilisez ce modèle, merci de citer : ``` ArticleTypePredictionImproved - Medical Publication Type Classifier Fine-tuned PubMedBERT for medical literature classification Specialized on myocardial infarction, applicable to all medical domains 2024 ```