✅ Update: Model trained on myocardial infarction data, applicable to all medical domains

f1e8dfe verified 10 months ago

4.24 kB

	---
	license: mit
	language:
	- en
	- fr
	tags:
	- myocardial-infarction
	- biomedical
	- classification
	- pubmed
	- scientific-literature
	- medical-research
	datasets:
	- custom-myocardial-infarction-publications
	metrics:
	- accuracy
	- f1
	library_name: transformers
	pipeline_tag: text-classification
	---

	# ArticleTypePredictionImproved - Medical Publication Classifier

	## Description

	Ce modèle est un classificateur fine-tuné et optimisé pour identifier le type de publications scientifiques médicales.
	Il est basé sur PubMedBERT et a été entraîné sur un dataset spécialisé d'infarctus du myocarde provenant de PubMed, mais ses capacités de classification s'étendent à toutes les publications médicales grâce à sa robustesse et à l'architecture PubMedBERT.

	## Performance

	- Accuracy: 93.80%
	- F1-Score: 93.77%
	- Meilleur modèle: checkpoint-2000

	## Classes supportées

	Le modèle peut classifier 9 types de publications :

	0. CASE_REPORTS - Rapports de cas
	1. COMMENT - Commentaires
	2. EDITORIAL - Éditoriaux
	3. GUIDELINES - Directives cliniques
	4. META_ANALYSIS - Méta-analyses
	5. PROSPECTIVE - Études prospectives
	6. RCT - Essais contrôlés randomisés
	7. RETROSPECTIVE - Études rétrospectives
	8. REVIEW - Revues de littérature

	## Utilisation

	```python
	from transformers import AutoTokenizer, AutoModelForSequenceClassification
	import torch

	# Charger le modèle
	model_name = "slepape/ArticleTypePredictionImproved"
	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = AutoModelForSequenceClassification.from_pretrained(model_name)

	# Préparer le texte (titre + abstract) - Exemple avec infarctus du myocarde
	title = "Percutaneous Coronary Intervention in ST-Elevation Myocardial Infarction"
	abstract = "This randomized controlled trial evaluates the efficacy of primary PCI versus thrombolysis in STEMI patients..."
	text = f"[TITLE] {title} [SEP] [ABSTRACT] {abstract}"

	# Prédiction
	inputs = tokenizer(text, return_tensors="pt", max_length=512, truncation=True, padding=True)
	with torch.no_grad():
	outputs = model(**inputs)
	predictions = torch.softmax(outputs.logits, dim=-1)
	predicted_class = torch.argmax(predictions, dim=-1).item()

	# Mapping des classes
	class_names = [
	"CASE_REPORTS", "COMMENT", "EDITORIAL", "GUIDELINES",
	"META_ANALYSIS", "PROSPECTIVE", "RCT", "RETROSPECTIVE", "REVIEW"
	]

	print(f"Type de publication prédit: {class_names[predicted_class]}")
	print(f"Confiance: {predictions[0][predicted_class]:.3f}")
	```

	## Entraînement

	- Modèle de base: microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext
	- Dataset de spécialisation: Publications sur l'infarctus du myocarde équilibrées (9 classes)
	- Technique: Fine-tuning avec optimisation des hyperparamètres
	- Combinaison: Titre + Abstract avec tokens spéciaux [TITLE], [SEP], [ABSTRACT]
	- Domaine d'application: Entraîné sur l'infarctus du myocarde, généralisable à toute la médecine

	## Évaluation

	Le modèle a été testé sur plusieurs types de publications médicales avec d'excellents résultats :
	- RCT: 98% de précision sur les essais randomisés
	- Guidelines: 100% de précision sur les recommandations
	- Meta-Analysis: 94% de précision sur les méta-analyses
	- Classification équilibrée sur toutes les classes

	## Domaines d'Application

	✅ Optimisé pour: Infarctus du myocarde et cardiologie
	✅ Applicable à: Toutes les spécialités médicales (oncologie, pneumologie, neurologie, etc.)
	✅ Types de publications: Tous les types de recherche biomédicale

	## Limitations

	- Entraîné spécifiquement sur l'infarctus du myocarde (performance optimale sur ce domaine)
	- Optimisé pour des textes en anglais (titres + abstracts PubMed)
	- Performance optimale avec la structure [TITLE] ... [SEP] [ABSTRACT] ...
	- Recommandé de tester sur votre domaine spécifique pour valider les performances

	## Citation

	Si vous utilisez ce modèle, merci de citer :

	```
	ArticleTypePredictionImproved - Medical Publication Type Classifier
	Fine-tuned PubMedBERT for medical literature classification
	Specialized on myocardial infarction, applicable to all medical domains
	2024
	```