SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
This is a SetFit model that can be used for Text Classification. This SetFit model uses sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.
The model has been trained using an efficient few-shot learning technique that involves:
- Fine-tuning a Sentence Transformer with contrastive learning.
- Training a classification head with features from the fine-tuned Sentence Transformer.
Model Details
Model Description
Model Sources
Model Labels
| Label |
Examples |
| 1 |
- 'הודעה משותפת לשר הביטחון ישראל כ"ץ ולרמטכ"ל, רב-אלוף אייל זמיר\n\nבתום שיחה שקיימו שר הביטחון ישראל כ"ץ והרמטכ"ל, רב-אלוף אייל זמיר, סיכמו השניים כי בהתאם לחוק השיפוט הצבאי, הרמטכ"ל יגבש רשימת מועמדים מומלצים לשר הביטחון לצורך מינוי פרקליט צבאי ראשי, אשר ידע לעמוד עם האתגרים המשמעותיים העומדים בפני הפרקליטות הצבאית בעת הנוכחית, ובראשם ההגנה על חיילי צה"ל.\n\nשר הביטחון והרמטכ"ל פועלים ליצירת יציבות מיידית בפרקליטות הצבאית, מתוך אחריותם למערכת ולחיילי צה"ל.'
- 'גורם ישראלי בכיר: הסיבה שבגללה יש פחות שיגורים היא פעולה ישראלית רציפה נגד המשגרים והטילים.\n\nעד עתה הושמדו 40% מהמשגרים האירניים'
- '*חבר הקבינט המדיני בטחוני שר האוצר בצלאל סמוטריץ׳:*\n\nמאחל הצלחה רבה לאלוף אייל זמיר בתפקידו כרמטכ"ל הבא של צה"ל.\nהאלוף זמיר מתמנה לתפקידו בתקופה היסטורית ועם ישראל מצפה ממנו להוביל את צה"ל מהר מאוד לשינוי דרסטי בתפיסת הביטחון ולניצחון מלא בכל החזיתות.\n\nלשם כך יהא עליו לאייש מחדש חלק גדול מהתפקידים במטה הכללי ולמנות להם מפקדים לוחמים ונחושים של דור הניצחון.\n\nכשר אוצר וכחבר בקבינט המדיני ביטחוני אעמוד לצידו ואעשה הכל כדי לוודא שבעזרת השם כך יהיה.'
|
| 0 |
- 'עמית פורים שמח!\nהפלוגה שלי מגדוד 9207 שפרסמת בזמנו קוראת מגילת איכה בציר נצרים - קוראת עכשיו מגילת אסתר בציר פלדפי. מגילה שניה, סבב רביעי'
- 'המטה לביטחון לאומי מחדד את המלצתו להימנע מנסיעות שאינן חיוניות לאיחוד האמירויות: \n\nב-21 בנובמבר גורמי טרור רצחו אזרח ישראלי באיחוד האמירויות וחשש כי עדיין קיים איום בשטח כנגד ישראלים ויהודים בזירה - המטה לבטחון לאומי מחדד לציבור הישראלי היום (א'), 24 בנובמבר 2024, כי על איחוד האמירויות חלה אזהרת מסע ברמה 3 (איום בינוני) אשר המלצתה להימנע מנסיעות שאינן חיוניות ליעד וקורא לשוהים בנסיכויות לנקוט באמצעי הזהירות הבאים:\n1. להימנע מהגעה לעסקים, מקומות כינוס ובילוי המזוהים עם אוכלוסייה ישראלית ויהודית.\n\n2. לשמור על ערנות מוגברת במקומות ציבוריים (כולל מסעדות, מלונות, ברים וכו').\n\n3. להימנע מהחצנת סממנים ישראלים.\n\n4. לשתף פעולה עם כוחות הביטחון המקומיים להישמע להנחיותיהם ולדווח מיידית באם נחשפתם לפעילות טרור.\n\n5. להימנע מפרסום פרטי הנסיעה ברשתות חברתיות ופרסום תמונות ופרטי ביקור טרם הנסיעה ובזמן אמת" כולל קבוצות שונות המתמקדות בתיירות בחו"ל. מומלץ ככלל לנעול פרופילים ברשתות חברתיות ולהימנע משיתוף.\n\n6. מומלץ למבקרים במדינה, לצמצם תנועה, להישאר באזורים מאובטחים.\n\nלכללי זהירות נוספים מומלץ להיכנס לקישור:\n\nhttps://www.gov.il/he/pages/travel_warning_info\n\nלמען הסר ספק, באם קיים חשש שנחשפתם לאיום מצד גורמי טרור במדינה בחו"ל, מומלץ לעדכן בראש ובראשונה את שירותי הביטחון המקומיים של המדינה בה אתם שוהים, ולאחר מכן את מוקד אזהרות המסע של המטה לביטחון לאומי (פועל 24/7) בטלפון 02-6667444.\n\nלשאלות/ אירועים בסוגיות נוספות, כגון: ביטחון אישי בהקשרי פשיעה ואנטישמיות, סוגיות קונסולריות, יש לפנות למוקד משרד החוץ (פועל 24/7) בטלפון 02-5303155.'
- 'אושר פה אחד מתווה נתניהו לאישור מינוי נציב המדינה'
|
Uses
Direct Use for Inference
First install the SetFit library:
pip install setfit
Then you can load this model and run inference.
from setfit import SetFitModel
model = SetFitModel.from_pretrained("gbenjos/fast-military")
preds = model("לוין מציע לנשיאות העליון את כל שופטי בית המשפט")
Training Details
Training Set Metrics
| Training set |
Min |
Median |
Max |
| Word count |
9 |
76.0 |
628 |
| Label |
Training Sample Count |
| 0 |
10 |
| 1 |
10 |
Training Hyperparameters
- batch_size: (16, 16)
- num_epochs: (1, 1)
- max_steps: -1
- sampling_strategy: oversampling
- num_iterations: 20
- body_learning_rate: (2e-05, 2e-05)
- head_learning_rate: 2e-05
- loss: CosineSimilarityLoss
- distance_metric: cosine_distance
- margin: 0.25
- end_to_end: False
- use_amp: False
- warmup_proportion: 0.1
- l2_weight: 0.01
- seed: 42
- eval_max_steps: -1
- load_best_model_at_end: False
Training Results
| Epoch |
Step |
Training Loss |
Validation Loss |
| 0.02 |
1 |
0.2878 |
- |
| 1.0 |
50 |
0.1532 |
- |
Framework Versions
- Python: 3.12.12
- SetFit: 1.1.3
- Sentence Transformers: 5.1.2
- Transformers: 4.57.1
- PyTorch: 2.8.0+cu126
- Datasets: 4.0.0
- Tokenizers: 0.22.1
Citation
BibTeX
@article{https://doi.org/10.48550/arxiv.2209.11055,
doi = {10.48550/ARXIV.2209.11055},
url = {https://arxiv.org/abs/2209.11055},
author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Efficient Few-Shot Learning Without Prompts},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}