Text Classification
Transformers
Safetensors
English
French
bert
myocardial-infarction
biomedical
classification
pubmed
scientific-literature
medical-research
text-embeddings-inference
Instructions to use slepape/ArticleTypePrediction with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use slepape/ArticleTypePrediction with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-classification", model="slepape/ArticleTypePrediction")# Load model directly from transformers import AutoTokenizer, AutoModelForSequenceClassification tokenizer = AutoTokenizer.from_pretrained("slepape/ArticleTypePrediction") model = AutoModelForSequenceClassification.from_pretrained("slepape/ArticleTypePrediction") - Notebooks
- Google Colab
- Kaggle
| license: mit | |
| language: | |
| - en | |
| - fr | |
| tags: | |
| - myocardial-infarction | |
| - biomedical | |
| - classification | |
| - pubmed | |
| - scientific-literature | |
| - medical-research | |
| datasets: | |
| - custom-myocardial-infarction-publications | |
| metrics: | |
| - accuracy | |
| - f1 | |
| library_name: transformers | |
| pipeline_tag: text-classification | |
| # ArticleTypePredictionImproved - Medical Publication Classifier | |
| ## Description | |
| Ce modèle est un classificateur fine-tuné et optimisé pour identifier le type de publications scientifiques médicales. | |
| Il est basé sur PubMedBERT et a été **entraîné sur un dataset spécialisé d'infarctus du myocarde** provenant de PubMed, mais ses capacités de classification s'étendent à **toutes les publications médicales** grâce à sa robustesse et à l'architecture PubMedBERT. | |
| ## Performance | |
| - **Accuracy**: 93.80% | |
| - **F1-Score**: 93.77% | |
| - **Meilleur modèle**: checkpoint-2000 | |
| ## Classes supportées | |
| Le modèle peut classifier 9 types de publications : | |
| 0. **CASE_REPORTS** - Rapports de cas | |
| 1. **COMMENT** - Commentaires | |
| 2. **EDITORIAL** - Éditoriaux | |
| 3. **GUIDELINES** - Directives cliniques | |
| 4. **META_ANALYSIS** - Méta-analyses | |
| 5. **PROSPECTIVE** - Études prospectives | |
| 6. **RCT** - Essais contrôlés randomisés | |
| 7. **RETROSPECTIVE** - Études rétrospectives | |
| 8. **REVIEW** - Revues de littérature | |
| ## Utilisation | |
| ```python | |
| from transformers import AutoTokenizer, AutoModelForSequenceClassification | |
| import torch | |
| # Charger le modèle | |
| model_name = "slepape/ArticleTypePredictionImproved" | |
| tokenizer = AutoTokenizer.from_pretrained(model_name) | |
| model = AutoModelForSequenceClassification.from_pretrained(model_name) | |
| # Préparer le texte (titre + abstract) - Exemple avec infarctus du myocarde | |
| title = "Percutaneous Coronary Intervention in ST-Elevation Myocardial Infarction" | |
| abstract = "This randomized controlled trial evaluates the efficacy of primary PCI versus thrombolysis in STEMI patients..." | |
| text = f"[TITLE] {title} [SEP] [ABSTRACT] {abstract}" | |
| # Prédiction | |
| inputs = tokenizer(text, return_tensors="pt", max_length=512, truncation=True, padding=True) | |
| with torch.no_grad(): | |
| outputs = model(**inputs) | |
| predictions = torch.softmax(outputs.logits, dim=-1) | |
| predicted_class = torch.argmax(predictions, dim=-1).item() | |
| # Mapping des classes | |
| class_names = [ | |
| "CASE_REPORTS", "COMMENT", "EDITORIAL", "GUIDELINES", | |
| "META_ANALYSIS", "PROSPECTIVE", "RCT", "RETROSPECTIVE", "REVIEW" | |
| ] | |
| print(f"Type de publication prédit: {class_names[predicted_class]}") | |
| print(f"Confiance: {predictions[0][predicted_class]:.3f}") | |
| ``` | |
| ## Entraînement | |
| - **Modèle de base**: microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext | |
| - **Dataset de spécialisation**: Publications sur l'infarctus du myocarde équilibrées (9 classes) | |
| - **Technique**: Fine-tuning avec optimisation des hyperparamètres | |
| - **Combinaison**: Titre + Abstract avec tokens spéciaux [TITLE], [SEP], [ABSTRACT] | |
| - **Domaine d'application**: Entraîné sur l'infarctus du myocarde, généralisable à toute la médecine | |
| ## Évaluation | |
| Le modèle a été testé sur plusieurs types de publications médicales avec d'excellents résultats : | |
| - **RCT**: 98% de précision sur les essais randomisés | |
| - **Guidelines**: 100% de précision sur les recommandations | |
| - **Meta-Analysis**: 94% de précision sur les méta-analyses | |
| - Classification équilibrée sur toutes les classes | |
| ## Domaines d'Application | |
| ✅ **Optimisé pour**: Infarctus du myocarde et cardiologie | |
| ✅ **Applicable à**: Toutes les spécialités médicales (oncologie, pneumologie, neurologie, etc.) | |
| ✅ **Types de publications**: Tous les types de recherche biomédicale | |
| ## Limitations | |
| - Entraîné spécifiquement sur l'infarctus du myocarde (performance optimale sur ce domaine) | |
| - Optimisé pour des textes en anglais (titres + abstracts PubMed) | |
| - Performance optimale avec la structure [TITLE] ... [SEP] [ABSTRACT] ... | |
| - Recommandé de tester sur votre domaine spécifique pour valider les performances | |
| ## Citation | |
| Si vous utilisez ce modèle, merci de citer : | |
| ``` | |
| ArticleTypePredictionImproved - Medical Publication Type Classifier | |
| Fine-tuned PubMedBERT for medical literature classification | |
| Specialized on myocardial infarction, applicable to all medical domains | |
| 2024 | |
| ``` | |