kaixkhazaki
/

multilingual-e5-doclaynet

Text Classification

document-classification

Eval Results (legacy)

text-embeddings-inference

Model card Files Files and versions

kaixkhazaki commited on Jan 6, 2025

Commit

d0b1040

·

verified ·

1 Parent(s): 130cb5b

Update README.md

Files changed (1) hide show

README.md +36 -1

README.md CHANGED Viewed

@@ -62,7 +62,7 @@ This model is a fine-tuned version of intfloat/multilingual-e5-large for documen
     'patents': 4,
     'scientific_articles': 5
 }
 ## Training procedure
 Trained on single gpu for 2 epochs for apx. 20 minutes.
@@ -82,3 +82,38 @@ hyperparameters:
 ## Evaluation results
 Test Loss:  0.5192, Test Acc: 0.9719

     'patents': 4,
     'scientific_articles': 5
 }
+```
 ## Training procedure
 Trained on single gpu for 2 epochs for apx. 20 minutes.
 ## Evaluation results
 Test Loss:  0.5192, Test Acc: 0.9719
+## Usage:
+```python
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+# Load model and tokenizer
+tokenizer = AutoTokenizer.from_pretrained("kaixkhazaki/multilingual-e5-doclaynet")
+model = AutoModelForSequenceClassification.from_pretrained("kaixkhazaki/multilingual-e5-doclaynet")
+# Prepare text (note the "passage: " prefix required for E5 models)
+text = "passage: " + your_document_text
+# Tokenize and predict
+inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
+outputs = model(**inputs)
+predictions = outputs.logits.softmax(dim=-1)
+# Get predicted class
+predicted_class = predictions.argmax().item()
+# Map to label (assuming you've loaded the label mapping)
+label_mapping = {
+    0: 'financial_reports',
+    1: 'government_tenders',
+    2: 'laws_and_regulations',
+    3: 'manuals',
+    4: 'patents',
+    5: 'scientific_articles'
+}
+predicted_label = label_mapping[predicted_class]
+```