guyhadad01 commited on
Commit
dc4b52a
·
verified ·
1 Parent(s): 4a38481

Add new CrossEncoder model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,386 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - cross-encoder
5
+ - reranker
6
+ - generated_from_trainer
7
+ - dataset_size:32540
8
+ - loss:BinaryCrossEntropyLoss
9
+ base_model: BAAI/bge-reranker-v2-m3
10
+ pipeline_tag: text-ranking
11
+ library_name: sentence-transformers
12
+ metrics:
13
+ - pearson
14
+ - spearman
15
+ model-index:
16
+ - name: CrossEncoder based on BAAI/bge-reranker-v2-m3
17
+ results:
18
+ - task:
19
+ type: cross-encoder-correlation
20
+ name: Cross Encoder Correlation
21
+ dataset:
22
+ name: dev
23
+ type: dev
24
+ metrics:
25
+ - type: pearson
26
+ value: 0.5300589430301448
27
+ name: Pearson
28
+ - type: spearman
29
+ value: 0.47912202243176427
30
+ name: Spearman
31
+ ---
32
+
33
+ # CrossEncoder based on BAAI/bge-reranker-v2-m3
34
+
35
+ This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [BAAI/bge-reranker-v2-m3](https://huggingface.co/BAAI/bge-reranker-v2-m3) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
36
+
37
+ ## Model Details
38
+
39
+ ### Model Description
40
+ - **Model Type:** Cross Encoder
41
+ - **Base model:** [BAAI/bge-reranker-v2-m3](https://huggingface.co/BAAI/bge-reranker-v2-m3) <!-- at revision 953dc6f6f85a1b2dbfca4c34a2796e7dde08d41e -->
42
+ - **Maximum Sequence Length:** 8192 tokens
43
+ - **Number of Output Labels:** 1 label
44
+ <!-- - **Training Dataset:** Unknown -->
45
+ <!-- - **Language:** Unknown -->
46
+ <!-- - **License:** Unknown -->
47
+
48
+ ### Model Sources
49
+
50
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
51
+ - **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
52
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
53
+ - **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
54
+
55
+ ## Usage
56
+
57
+ ### Direct Usage (Sentence Transformers)
58
+
59
+ First install the Sentence Transformers library:
60
+
61
+ ```bash
62
+ pip install -U sentence-transformers
63
+ ```
64
+
65
+ Then you can load this model and run inference.
66
+ ```python
67
+ from sentence_transformers import CrossEncoder
68
+
69
+ # Download from the 🤗 Hub
70
+ model = CrossEncoder("guyhadad01/cross")
71
+ # Get scores for pairs of texts
72
+ pairs = [
73
+ ['query: מה סכום ההכנסה הנמוך שבגינו אפשר לקבל הבטחת הכנסה', 'passage: מדריך לקבלת הבטחת הכנסה גובה הבטחת ההכנסה סכומים שלא נלקחים בחשבון לצורך חישוב הבטחת הכנסה על מבקש הבטחת הכנסה לדווח על הכנסותיו כדי לבדוק זכאות לקבלה ולחשב את שוויה. עם זאת, ההכנסות הבאות לא נכללות בחישוב זה: קצבת ילדים גמלת ילד נכה קצבת שירותים מיוחדים גמלת ניידות גמלת סיעוד דמי מחיה לאלמנה וליתום קצבאות מיוחדות לנכי עבודה קצבה או הטבה המשולמת לנזקקים על פי חוק שירותי הסעד תשלומים שהקונגרס היהודי העולמי משלם לחסידי אומות העולם תמיכה כספית הניתנת כסיוע בתשלום שכר דירה למי שמשכיר את דירתו ושוכר דירה אחרת למגוריו, לא תילקח בחשבון ההכנסה מהשכרת דירתו שאינה עולה על סכום דמי השכירות שהוא משלם (החל מה-01.01.2019) תשלומי מזונות לאישה או לילדים, כל עוד הם לא עולים על סכום קצבת הבטחת ההכנסה המגיעה לו. אם אדם נתמך כספית באופן קבוע וללא תמורה מבני משפחה או מגורם בקהילה כגון עמותה, הסכום לא יחשב כהכנסה לצורך הזכאות להבטחת הכנסה. עם זאת, סכומי תמיכה גבוהים באופן חריג עלולים לפגוע בזכאות להבטחת הכנסה. תשלומים שהחוק לא קובע לגביהם במפורש כי הם אינם נחשבים להכנסה, יובאו בחשבון במסגרת מבחן ההכנסות. כמו כן, ישנם מענקים שנקבע במפורש בחוק כי הם ייחשבו כהכנסה. למידע נוסף ראו: זכאות לגמלת הבטחת הכנסה ("הכנסות ונכסים")'],
74
+ ['query: מה סכום ההכנסה הנמוך שבגינו אפשר לקבל הבטחת הכנסה', 'passage: מדריך לקבלת הבטחת הכנסה גובה הבטחת ההכנסה גורמים שנלקחים בחשבון לצורך חישוב הבטחת ההכנסה בעת בקשת ההבטחה יש לדווח על ההכנסות והנכסים הבאים: הכנסות מעבודה שווי רכב נכסים פיננסיים כגון חסכונות ופק"מ. שווי ערך נדל"ן כפי שייקבע על ידי שמאי מוסמך מטעם המוסד לביטוח לאומי ובהתאם למצב המשפחתי, מספ�� הילדים וגיל מבקש הגמלה. למידע נוסף ראו: זכאות לגמלת הבטחת הכנסה ("הכנסות ונכסים") זכאות לגמלת הבטחת הכנסה ובעלות על רכב'],
75
+ ['query: מה סכום ההכנסה הנמוך שבגינו אפשר לקבל הבטחת הכנסה', 'passage: הגבלת שכר טרחה עבור סיוע או ייצוג בתביעה לקצבת נכות ומענק נכות לנפגעי עבודה חישוב שכר הטרחה במקרים בהם התובע קיבל גמלה לפני שהגיש את התביעה כאשר התובע קיבל גמלת הבטחת הכנסה לפני הגשת התביעה אם לפני הגשת התביעה שולמה למבוטח גמלת הבטחת הכנסה וכתוצאה מהתביעה הוא מקבל קצבת נכות לנפגעי עבודה בנוסף לגמלת הבטחת הכנסה, לשכר הטרחה יתווסף תשלום סכום יסוד (907 ₪ נכון ל-2024). למבוטח שולמה גמלת הבטחת הכנסה בסך 1,800 ₪. המבוטח פנה לעורך דין שייצג אותו בתביעה לקבלת קצבת נכות מעבודה, כולל ייצוג בוועדה הרפואית, ללא תשלום דמי פתיחת תיק. התביעה התקבלה ונקבעה קצבה בסך 2,400 ₪. שכר הטרחה יהיה 907 ₪ ו-17% מהקצבה למשך 60 חודשים (ראו טבלה לעיל). אם לפני הגשת התביעה שולמה למבוטח גמלת הבטחת הכנסה, וגמלת הבטחת ההכנסה הופסקה בעקבות קביעת הזכאות לקצבת הנכות, שכר הטרחה יחושב על פי ההפרש בין הקצבאות, ויתווסף תשלום סכום יסוד (907 ₪ נכון ל-2024). למבוטח שולמה גמלת הבטחת הכנסה בסך 1,400 ₪. המבוטח פנה לעורך דין שייצג אותו בתביעה לקבלת קצבת נכות מעבודה, כולל ייצוג בוועדה הרפואית, ללא תשלום דמי פתיחת תיק. התביעה התקבלה ונקבעה קצבת נכות בסך 3,800 ₪. בעקבות קבלת קצבת הנכות, נמצא שהתובע כבר אינו זכאי לגמלת הבטחת ההכנסה שקיבל, וזו הופסקה. שכר הטרחה יהיה סכום היסוד בסך 907 ₪ ו-17% מההפרש בין הקצבאות (17% מ-2,400 ₪, שהם 408 ₪) למשך 60 חודשים.'],
76
+ ['query: מה סכום ההכנסה הנמוך שבגינו אפשר לקבל הבטחת הכנסה', 'passage: הגבלת שכר טרחה עבור סיוע או ייצוג בתביעה לגמלת נכות מתנדבים חישוב שכר הטרחה במקרים בהם התובע קיבל גמלה לפני שהגיש את התביעה תובע שקיבל גמלת הבטחת הכנסה לפני הגשת התביעה אם לפני הגשת התביעה שולמה למבוטח גמלת הבטחת הכנסה וכתוצאה מהתביעה הוא מקבל קצבת נכות בנוסף לגמלת הבטחת הכנסה, לשכר הטרחה יתווסף תשלום סכום יסוד (907 ₪ נכון ל-2024). למבוטח שולמה גמלת הבטחת הכנסה בסך 1,800 ₪. המבוטח פנה לעורך דין שייצג אותו בתביעה לקבלת קצבת נכות מתנדבים, כולל ייצוג בוועדה הרפואית, ללא תשלום דמי פתיחת תיק. התביעה התקבלה ונקבעה קצבה בסך 2,400 ₪. שכר הטרחה יהיה 907 ₪ ו-17% מהקצבה למשך 60 חודשים (ראו טבלה לעיל). אם לפני הגשת התביעה שולמה למבוטח גמלת הבטחת הכנסה, וגמלת הבטחת ההכנסה הופסקה בעקבות קביעת הזכאות לקצבת הנכות, שכר הטרחה יחושב על-פי ההפרש בין הקצבאות, ויתווסף תשלום סכום יסוד (907 ₪ נכון ל-2024). למבוטח שולמה גמלת הבטחת הכנסה בסך 1,400 ₪. המבוטח פנה לעורך דין שייצג אותו בתביעה לקבלת קצבת נכות מתנדבים, כולל ייצוג בוועדה הרפואית, ללא תשלום דמי פתיחת תיק. התביעה התקבלה ונקבעה קצבת נכות בסך 3,800 ₪. בעקבות קבלת קצבת הנכות, נמצא שהתובע כבר אינו זכאי לגמלת הבטחת ההכנסה שקיבל, וזו הופסקה. שכר הטרחה יהיה 907 ₪ ו-17% מההפרש בין הקצבאות (17% מ-2,400 ₪, שהם 408 ₪) בכל חודש, למשך 60 חודשים.'],
77
+ ['query: מה סכום ההכנסה הנמוך שבגינו אפשר לקבל הבטחת הכנסה', 'passage: מדריך לקבלת הבטחת הכנסה זכאות להבטחת הכנסה או השלמת הכנסה מי שעומד בתנאי הזכאות להבטחת הכנסה, יכול להיות זכאי לגמלה מלאה, או לגמלה חלקית הידועה גם בשם "השלמת הכנסה". זכאות להבטחת הכנסה מתק��ימת אם מתקיימים 3 תנאים מצטברים: תושבות בישראל למשך 24 חודשים רצופים, למעט במקרים מיוחדים. גיל המבקש מעל 20, למעט במקרים מיוחדים. המבקש רשום בלשכת התעסוקה או מתייצב בה בהתאם להנחיותיה, בשל אחת מהסיבות הבאות: הוא מחוסר עבודה ולשכת התעסוקה טרם הציעה לו עבודה התואמת את מצב בריאותו וכושרו הגופני, או הפנתה אותו לאבחון ולשיקום מקצועי. הוא מקבל דמי אבטלה הנמוכים מסכום גמלת הבטחת הכנסה. שירות התעסוקה הפנה אותו להשתלמות או להסבה מקצועית הניתנות בשעות היום ובמשך 12 חודשים לכל היותר, והוא משתתף בלימודים באופן סדיר. הוא שכיר שהכנסתו מעבודה נמוכה מסכום מהסכום שנקבע בטבלה לפי נתוניו האישיים. הוא עובד במפעל מוגן בהיקף העבודה המקובל באותו מפעל. הוא עצמאי עם הכנסות נמוכות. כמו כן, יכולים להגיש תביעה להבטחת הכנסה מבלי לענות על הקריטריונים שצוינו: למידע נוסף ראו: נשים הצפויות לשהות במקלט לנשים נפגעות אלימות מעל 30 ימים. אסירים משוחררים ששהו בכלא יותר מחצי שנה. זכאות לגמלת הבטחת הכנסה. הבטחת הכנסה לאסירים משוחררים.'],
78
+ ]
79
+ scores = model.predict(pairs)
80
+ print(scores.shape)
81
+ # (5,)
82
+
83
+ # Or rank different texts based on similarity to a single text
84
+ ranks = model.rank(
85
+ 'query: מה סכום ההכנסה הנמוך שבגינו אפשר לקבל הבטחת הכנסה',
86
+ [
87
+ 'passage: מדריך לקבלת הבטחת הכנסה גובה הבטחת ההכנסה סכומים שלא נלקחים בחשבון לצורך חישוב הבטחת הכנסה על מבקש הבטחת הכנסה לדווח על הכנסותיו כדי לבדוק זכאות לקבלה ולחשב את שוויה. עם זאת, ההכנסות הבאות לא נכללות בחישוב זה: קצבת ילדים גמלת ילד נכה קצבת שירותים מיוחדים גמלת ניידות גמלת סיעוד דמי מחיה לאלמנה וליתום קצבאות מיוחדות לנכי עבודה קצבה או הטבה המשולמת לנזקקים על פי חוק שירותי הסעד תשלומים שהקונגרס היהודי העולמי משלם לחסידי אומות העולם תמיכה כספית הניתנת כסיוע בתשלום שכר דירה למי שמשכיר את דירתו ושוכר דירה אחרת למגוריו, לא תילקח בחשבון ההכנסה מהשכרת דירתו שאינה עולה על סכום דמי השכירות שהוא משלם (החל מה-01.01.2019) תשלומי מזונות לאישה או לילדים, כל עוד הם לא עולים על סכום קצבת הבטחת ההכנסה המגיעה לו. אם אדם נתמך כספית באופן קבוע וללא תמורה מבני משפחה או מגורם בקהילה כגון עמותה, הסכום לא יחשב כהכנסה לצורך הזכאות להבטחת הכנסה. עם זאת, סכומי תמיכה גבוהים באופן חריג עלולים לפגוע בזכאות להבטחת הכנסה. תשלומים שהחוק לא קובע לגביהם במפורש כי הם אינם נחשבים להכנסה, יובאו בחשבון במסגרת מבחן ההכנסות. כמו כן, ישנם מענקים שנקבע במפורש בחוק כי הם ייחשבו כהכנסה. למידע נוסף ראו: זכאות לגמלת הבטחת הכנסה ("הכנסות ונכסים")',
88
+ 'passage: מדריך לקבלת הבטחת הכנסה גובה הבטחת ההכנסה גורמים שנלקחים בחשבון לצורך חישוב הבטחת ההכנסה בעת בקשת ההבטחה יש לדווח על ההכנסות והנכסים הבאים: הכנסות מעבודה שווי רכב נכסים פיננסיים כגון חסכונות ופק"מ. שווי ערך נדל"ן כפי שייקבע על ידי שמאי מוסמך מטעם המוסד לביטוח לאומי ובהתאם למצב המשפחתי, מספר הילדים וגיל מבקש הגמלה. למידע נוסף ראו: זכאות לגמלת הבטחת הכנסה ("הכנסות ונכסים") זכאות לגמלת הבטחת הכנסה ובעלות על רכב',
89
+ 'passage: הגבלת שכר טרחה עבור סיוע או ייצוג בתביעה לקצבת נכות ומענק נכות לנפגעי עבודה חישוב שכר הטרחה במקרים בהם התובע קיבל גמלה לפני שהגיש את התביעה כאשר התובע קיבל גמלת הבטחת הכנסה לפני הגשת התביעה אם לפני הגשת התביעה שולמה למבוטח גמלת הבטחת הכנסה וכתוצאה מהתביעה הוא מקבל קצבת נכות לנפגעי עבודה בנוסף לגמלת הבטחת הכנסה, לשכר הטרחה יתווסף תשלום סכום יסוד (907 ₪ נכון ל-2024). למבוטח שולמה גמלת הבטחת הכנסה בסך 1,800 ₪. המבוטח פנה לעורך דין שייצג אותו בתביעה לקבלת קצבת נכות מעבודה, כולל ייצוג בוועדה הרפואית, ללא תשלום דמי פתיחת תיק. התביעה התקבלה ונקבעה קצבה בסך 2,400 ₪. שכר הטרחה יהיה 907 ₪ ו-17% מהקצבה למשך 60 חודשים (ראו טבלה לעיל). אם לפני הגשת התביעה שולמה למבוטח גמלת הבטחת הכנסה, וגמלת הבטחת ההכנסה הופסקה בעקבות קביעת הזכאות לקצבת הנכות, שכר הטרחה יחושב על פי ההפרש בין הקצבאות, ויתווסף תשלום סכום יסוד (907 ₪ נכון ל-2024). למבוטח שולמה גמלת הבטחת הכנסה בסך 1,400 ₪. המבוטח פנה לעורך דין שייצג אותו בתביעה לקבלת קצבת נכות מעבודה, כולל ייצוג בוועדה הרפואית, ללא תשלום דמי פתיחת תיק. התביעה התקבלה ונקבעה קצבת נכות בסך 3,800 ₪. בעקבות קבלת קצבת הנכות, נמצא שהתובע כבר אינו זכאי לגמלת הבטחת ההכנסה שקיבל, וזו הופסקה. שכר הטרחה יהיה סכום היסוד בסך 907 ₪ ו-17% מההפרש בין הקצבאות (17% מ-2,400 ₪, שהם 408 ₪) למשך 60 חודשים.',
90
+ 'passage: הגבלת שכר טרחה עבור סיוע או ייצוג בתביעה לגמלת נכות מתנדבים חישוב שכר הטרחה במקרים בהם התובע קיבל גמלה לפני שהגיש את התביעה תובע שקיבל גמלת הבטחת הכנסה לפני הגשת התביעה אם לפני הגשת התביעה שולמה למבוטח גמלת הבטחת הכנסה וכתוצאה מהתביעה הוא מקבל קצבת נכות בנוסף לגמלת הבטחת הכנסה, לשכר הטרחה יתווסף תשלום סכום יסוד (907 ₪ נכון ל-2024). למבוטח שולמה גמלת הבטחת הכנסה בסך 1,800 ₪. המבוטח פנה לעורך דין שייצג אותו בתביעה לקבלת קצבת נכות מתנדבים, כולל ייצוג בוועדה הרפואית, ללא תשלום דמי פתיחת תיק. התביעה התקבלה ונקבעה קצבה בסך 2,400 ₪. שכר הטרחה יהיה 907 ₪ ו-17% מהקצבה למשך 60 חודשים (ראו טבלה לעיל). אם לפני הגשת התביעה שולמה למבוטח גמלת הבטחת הכנסה, וגמלת הבטחת ההכנסה הופסקה בעקבות קביעת הזכאות לקצבת הנכות, שכר הטרחה יחושב על-פי ההפרש בין הקצבאות, ויתווסף תשלום סכום יסוד (907 ₪ נכון ל-2024). למבוטח שולמה גמלת הבטחת הכנסה בסך 1,400 ₪. המבוטח פנה לעורך דין שייצג אותו בתביעה לקבלת קצבת נכות מתנדבים, כולל ייצוג בוועדה הרפואית, ללא תשלום דמי פתיחת תיק. התביעה התקבלה ונקבעה קצבת נכות בסך 3,800 ₪. בעקבות קבלת קצבת הנכות, נמצא שהתובע כבר אינו זכאי לגמלת הבטחת ההכנסה שקיבל, וזו הופסקה. שכר הטרחה יהיה 907 ₪ ו-17% מההפרש בין הקצבאות (17% מ-2,400 ₪, שהם 408 ₪) בכל חודש, למשך 60 חודשים.',
91
+ 'passage: מדריך לקבלת הבטחת הכנסה זכאות להבטחת הכנסה או השלמת הכנסה מי שעומד בתנאי הזכאות להבטחת הכנסה, יכול להיות זכאי לגמלה מלאה, או לגמלה חלקית הידועה גם בשם "השלמת הכנסה". זכאות להבטחת הכנסה מתקיימת אם מתקיימים 3 תנאים מצטברים: תושבות בישראל למשך 24 חודשים רצופים, למעט במקרים מיוחדים. גיל המבקש מעל 20, למעט במקרים מיוחדים. המבקש רשום בלשכת התעסוקה או מתייצב בה בהתאם להנחיותיה, בשל אחת מהסיבות הבאות: הוא מחוסר עבודה ולשכת התעסוקה טרם הציעה לו עבודה התואמת את מצב בריאותו וכושרו הגופני, או הפנתה אותו לאבחון ולשיקום מקצועי. הוא מקבל דמי אבטלה הנמוכים מסכום גמלת הבטחת הכנסה. שירות התעסוקה הפנה אותו להשתלמות או להסבה מקצועית הניתנות בשעות היום ובמשך 12 חודשים לכל היותר, והוא משתתף בלימודים באופן סדיר. הוא שכיר שהכנס��ו מעבודה נמוכה מסכום מהסכום שנקבע בטבלה לפי נתוניו האישיים. הוא עובד במפעל מוגן בהיקף העבודה המקובל באותו מפעל. הוא עצמאי עם הכנסות נמוכות. כמו כן, יכולים להגיש תביעה להבטחת הכנסה מבלי לענות על הקריטריונים שצוינו: למידע נוסף ראו: נשים הצפויות לשהות במקלט לנשים נפגעות אלימות מעל 30 ימים. אסירים משוחררים ששהו בכלא יותר מחצי שנה. זכאות לגמלת הבטחת הכנסה. הבטחת הכנסה לאסירים משוחררים.',
92
+ ]
93
+ )
94
+ # [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
95
+ ```
96
+
97
+ <!--
98
+ ### Direct Usage (Transformers)
99
+
100
+ <details><summary>Click to see the direct usage in Transformers</summary>
101
+
102
+ </details>
103
+ -->
104
+
105
+ <!--
106
+ ### Downstream Usage (Sentence Transformers)
107
+
108
+ You can finetune this model on your own dataset.
109
+
110
+ <details><summary>Click to expand</summary>
111
+
112
+ </details>
113
+ -->
114
+
115
+ <!--
116
+ ### Out-of-Scope Use
117
+
118
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
119
+ -->
120
+
121
+ ## Evaluation
122
+
123
+ ### Metrics
124
+
125
+ #### Cross Encoder Correlation
126
+
127
+ * Dataset: `dev`
128
+ * Evaluated with [<code>CrossEncoderCorrelationEvaluator</code>](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CrossEncoderCorrelationEvaluator)
129
+
130
+ | Metric | Value |
131
+ |:-------------|:-----------|
132
+ | pearson | 0.5301 |
133
+ | **spearman** | **0.4791** |
134
+
135
+ <!--
136
+ ## Bias, Risks and Limitations
137
+
138
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
139
+ -->
140
+
141
+ <!--
142
+ ### Recommendations
143
+
144
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
145
+ -->
146
+
147
+ ## Training Details
148
+
149
+ ### Training Dataset
150
+
151
+ #### Unnamed Dataset
152
+
153
+ * Size: 32,540 training samples
154
+ * Columns: <code>query</code>, <code>paragraph</code>, and <code>labels</code>
155
+ * Approximate statistics based on the first 1000 samples:
156
+ | | query | paragraph | labels |
157
+ |:--------|:------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------|:---------------------------------------------------------------|
158
+ | type | string | string | float |
159
+ | details | <ul><li>min: 21 characters</li><li>mean: 50.28 characters</li><li>max: 100 characters</li></ul> | <ul><li>min: 94 characters</li><li>mean: 982.24 characters</li><li>max: 1817 characters</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.19</li><li>max: 1.0</li></ul> |
160
+ * Samples:
161
+ | query | paragraph | labels |
162
+ |:------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------|
163
+ | <code>query: מה התשלום עבור דרגה X במעון או משפחתון? מה הזכאות עבור ילד נוסף במסגרת מעון</code> | <code>passage: דרגות השתתפות במימון מעונות יום ומשפחתונים גובה שכר הלימוד סכומי השתתפות המדינה והסכומים אותם משלימים ההורים עבור כל אחת מהדרגות, מפורטים בטבלאות שכר לימוד. הטבלאות מחולקות לפי תעריפים לילדים ותעריפים לתינוקות: גובה שכר הלימוד בהתאם לדרגות השונות מפורטת בטבלאות שכר לימוד במסגרות ילדים באתר משרד העבודה. הדרגות המופיעות בטבלאות מותאמות לגובה ההכנסה לנפש במשפחה. ככל שדרגת הזכאות (בטווח 12-3) נמוכה יותר, כך גדלה השתתפות המדינה בתשלום. עבור רמות ההשתתפות המותאמות לגובה ההכנסות, יש להוסיף או להפחית דרגות, על-פי מספר מספר הילדים השוהים במעון או במשפחתון - למשפחה עם כמה ילדים השוהים במעון או במשפחתון, תוגדל רמת השתתפות המדינה עבור כל אחד מהילדים (תיקבע דרגה נמוכה יותר בין הדרגות 12-3). תינוקות הם מי שגילם היה עד 15 חודשים ב-1 בספטמבר של שנת הלימודים אליה נרשמו. ילדים הם מי שב-1 בספטמבר של שנת הלימודים אליה נרשמו, גילם היה בין 15 חודשים ויום ל-33 חודשים (או עד לגיל 46 חודשים, למי שיש להם אישור מהיחידה להתפתחות הילד כי הם מעוכבי התפתחות). השפעת מספר הילדים השוהים במעון/משפחתון על דרגת ה...</code> | <code>0.5</code> |
164
+ | <code>query: מה התשלום עבור דרגה X במעון או משפחתון? מה הזכאות עבור ילד נוסף במסגרת מעון</code> | <code>passage: סיוע להורים עצמאיים (הורים יחידים) במימון מעונות יום ומשפחתונים הורים עצמאיים (הורים יחידים) (/he/הורה_עצמאי_(הורה_יחיד)) עשויים להיות זכאים לסיוע במימון מעונות יום ומשפחתונים לפי דרגות השתתפות (/he/דרגות_השתתפות_במימון_מעונות_יום_ומשפחתונים) שנקבעות בהתאם לרמת ההכנסה שלהם (/he/רמת_ההכנסה_לנפש_לצורך_סיוע_במימון_מעונות_יום) הורים עצמאיים שעונים על הגדרת מגבירי עבודה (.D7.96.D7.9B.D7.90.D7.95.D7.AA_.D7.A9.D7.9C_.D7.94.D7.95.D7.A8.D7.99.D7.9D_.D7.9E.D7.92.D7.91.D7.99.D7.A8.D7.99_.D7.A2.D7.91.D7.95.D7.93.D7.94) זכאים לסיוע מוגדל וישלמו 250 בחודש לילד אחד ו-375 בחודש לשני ילדים כדי להקל על שילובם של הורים בשוק העבודה, המדינה מסייעת להם במימון מעונות יום ומשפחתונים מוכרים. גובה התמיכה בזכאות הכללית של ההורים (זוגות הורים או הורים עצמאיים) נקבע על-פי מספר דרגות השתתפות המתבססות על רמת ההכנסה לנפש במשפחה. הורים עצמאיים (הורים יחידים) שעונים על הגדרת "מגבירי עבודה" (בהתאם למפורט בהמשך), זכאים לסיוע מוגדל וישלמו רק 250 ₪ בחודש עבור ילד אחד ו-375 ₪ בחודש עבור שני ילדים. לפרטים ומידע כללי...</code> | <code>0.25</code> |
165
+ | <code>query: מה התשלום עבור דרגה X במעון או משפחתון? מה הזכאות עבור ילד נוסף במסגרת מעון</code> | <code>passage: השתתפות במימון מעונות יום ומשפחתונים תהליך מימוש הזכות איתור מסגרת מוכרת מערכת אינטרנטית (מקוונת) מאפשרת לאתר משפחתונים, מעונות וצהרונים הנמצאים בפיקוח ממשלתי. ניתן לבצע חיפוש לפי ישוב, סוג המסגרת או שם המסגרת. לכניסה למערכת לחצו כאן. התשלום למעון/משפחתון עבור חודש אוגוסט יחושב תשלום באופן יחסי בהתאם לתקופת ��הות הילד במעון (העלות המלאה לחודש כפול מספר החודשים שהילד שהה במעון חלקי 12 חודשים). החזר כספי בהתאם לדרגת ההשתתפות, יינתן להורים עבור החודש שבו התקבל שאלון ההרשמה במוקד, ועבור החודש שקדם לו. השתתפות בחודש הראשון לכניסת הילד למסגרת (מעון או משפחתון): הוריו של ילד שנכנס למסגרת עד ל-15 בחודש (כולל ה-15 לחודש), יהיו זכאים להשתתפות המדינה עבור אותו חודש (על-פי הדרגה שנקבעה להם). הוריו של ילד שנכנס למסגרת לאחר ה-15 לחודש, לא יהיו זכאים להשתתפות בחודש זה. במקרה זה יחויבו ההורים לשלם דמי החזקה באופן יחסי לימים בהם שהה הילד במסגרת. היעדרות של הילד היעדרות מהמעון לתקופה של יותר מ-21 ימים תיחשב כעזיבה, אלא אם כן הוצגו במהלך תקופה זו אישורים רפואיים על מחלה או אשפוז של הילד. היעדרות ...</code> | <code>0.5</code> |
166
+ * Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
167
+ ```json
168
+ {
169
+ "activation_fn": "torch.nn.modules.linear.Identity",
170
+ "pos_weight": null
171
+ }
172
+ ```
173
+
174
+ ### Evaluation Dataset
175
+
176
+ #### Unnamed Dataset
177
+
178
+ * Size: 8,140 evaluation samples
179
+ * Columns: <code>query</code>, <code>paragraph</code>, and <code>labels</code>
180
+ * Approximate statistics based on the first 1000 samples:
181
+ | | query | paragraph | labels |
182
+ |:--------|:-----------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------|:--------------------------------------------------------------|
183
+ | type | string | string | float |
184
+ | details | <ul><li>min: 26 characters</li><li>mean: 51.8 characters</li><li>max: 101 characters</li></ul> | <ul><li>min: 33 characters</li><li>mean: 1021.83 characters</li><li>max: 1738 characters</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.2</li><li>max: 1.0</li></ul> |
185
+ * Samples:
186
+ | query | paragraph | labels |
187
+ |:----------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
188
+ | <code>query: מה סכום ההכנסה הנמוך שבגינו אפשר לקבל הבטחת הכנסה</code> | <code>passage: מדריך לקבלת הבטחת הכנסה גובה הבטחת ההכנסה סכומים שלא נלקחים בחשבון לצורך חישוב הבטחת הכנסה על מבקש הבטחת הכנסה לדווח על הכנסותיו כדי לבדוק זכאות לקבלה ולחשב את שוויה. עם זאת, ההכנסות הבאות לא נכללות בחישוב זה: קצבת ילדים גמלת ילד נכה קצבת שירותים מיוחדים גמלת ניידות גמלת סיעוד דמי מחיה לאלמנה וליתום קצבאות מיוחדות לנכי עבודה קצבה או הטבה המשולמת לנזקקים על פי חוק שירותי הסעד תשלומים שהקונגרס היהודי העולמי משלם לחסידי אומות העולם תמיכה כספית הניתנת כסיוע בתשלום שכר דירה למי שמשכיר את דירתו ושוכר דירה אחרת למגוריו, לא תילקח בחשבון ההכנסה מהשכרת דירתו שאינה עולה על סכום דמי השכירות שהוא משלם (החל מה-01.01.2019) תשלומי מזונות לאישה או לילדים, כל עוד הם לא עולים על סכום קצבת הבטחת ההכנסה המגיעה לו. אם אדם נתמך כספית באופן קבוע וללא תמורה מבני משפחה או מגורם בקהילה כגון עמותה, הסכום לא יחשב כהכנסה לצורך הזכאות להבטחת הכנסה. עם זאת, סכומי תמיכה גבוהים באופן חריג עלולים לפגוע בזכאות להבטחת הכנסה. תשלומים שהחוק לא קובע לגביהם במפורש כי הם אינם נחשבים להכנסה, יובאו בחשבון במסגרת מבחן הה...</code> | <code>0.0</code> |
189
+ | <code>query: מה סכום ההכנסה הנמוך שבגינו אפשר לקבל הבטחת הכנסה</code> | <code>passage: מדריך לקבלת הבטחת הכנסה גובה הבטחת ההכנסה גורמים שנלקחים בחשבון לצורך חישוב הבטחת ההכנסה בעת בקשת ההבטחה יש לדווח על ההכנסות והנכסים הבאים: הכנסות מעבודה שווי רכב נכסים פיננסיים כגון חסכונות ופק"מ. שווי ערך נדל"ן כפי שייקבע על ידי שמאי מוסמך מטעם המוסד לביטוח לאומי ובהתאם למצב המשפחתי, מספר הילדים וגיל מבקש הגמלה. למידע נוסף ראו: זכאות לגמלת הבטחת הכנסה ("הכנסות ונכסים") זכאות לגמלת הבטחת הכנסה ובעלות על רכב</code> | <code>0.0</code> |
190
+ | <code>query: מה סכום ההכנסה הנמוך שבגינו אפשר לקבל הבטחת הכנסה</code> | <code>passage: הגבלת שכר טרחה עבור סיוע או ייצוג בתביעה לקצבת נכות ומענק נכות לנפגעי עבודה חישוב שכר הטרחה במקרים בהם התובע קיבל גמלה לפני שהגיש את התביעה כאשר התובע קיבל גמלת הבטחת הכנסה לפני הגשת התביעה אם לפני הגשת התביעה שולמה למבוטח גמלת הבטחת הכנסה וכתוצאה מהתביעה הוא מקבל קצבת נכות לנפגעי עבודה בנוסף לגמלת הבטחת הכנסה, לשכר הטרחה יתווסף תשלום סכום יסוד (907 ₪ נכון ל-2024). למבוטח שולמה גמלת הבטחת הכנסה בסך 1,800 ₪. המבוטח פנה לעורך דין שייצג אותו בתביעה לקבלת קצבת נכות מעבודה, כולל ייצוג בוועדה הרפואית, ללא תשלום דמי פתיחת תיק. התביעה התקבלה ונקבעה קצבה בסך 2,400 ₪. שכר הטרחה יהיה 907 ₪ ו-17% מהקצבה למשך 60 חודשים (ראו טבלה לעיל). אם לפני הגשת התביעה שולמה למבוטח גמלת הבטחת הכנסה, וגמלת הבטחת ההכנסה הופסקה בעקבות קביעת הזכאות לקצבת הנכות, שכר הטרחה יחושב על פי ההפרש בין הקצבאות, ויתווסף תשלום סכום יסוד (907 ₪ נכון ל-2024). למבוטח שולמה גמלת הבטחת הכנסה בסך 1,400 ₪. המבוטח פנה לעורך דין שייצ�� אותו בתביעה לקבלת קצבת נכות מעבודה, כולל ייצוג בוועדה הרפואית, ללא תשלום דמי פתיחת תיק. התביעה...</code> | <code>0.5</code> |
191
+ * Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
192
+ ```json
193
+ {
194
+ "activation_fn": "torch.nn.modules.linear.Identity",
195
+ "pos_weight": null
196
+ }
197
+ ```
198
+
199
+ ### Training Hyperparameters
200
+ #### Non-Default Hyperparameters
201
+
202
+ - `learning_rate`: 1e-05
203
+ - `num_train_epochs`: 1
204
+ - `warmup_ratio`: 0.1
205
+ - `bf16`: True
206
+ - `gradient_checkpointing`: True
207
+ - `auto_find_batch_size`: True
208
+
209
+ #### All Hyperparameters
210
+ <details><summary>Click to expand</summary>
211
+
212
+ - `overwrite_output_dir`: False
213
+ - `do_predict`: False
214
+ - `eval_strategy`: no
215
+ - `prediction_loss_only`: True
216
+ - `per_device_train_batch_size`: 8
217
+ - `per_device_eval_batch_size`: 8
218
+ - `per_gpu_train_batch_size`: None
219
+ - `per_gpu_eval_batch_size`: None
220
+ - `gradient_accumulation_steps`: 1
221
+ - `eval_accumulation_steps`: None
222
+ - `torch_empty_cache_steps`: None
223
+ - `learning_rate`: 1e-05
224
+ - `weight_decay`: 0.0
225
+ - `adam_beta1`: 0.9
226
+ - `adam_beta2`: 0.999
227
+ - `adam_epsilon`: 1e-08
228
+ - `max_grad_norm`: 1.0
229
+ - `num_train_epochs`: 1
230
+ - `max_steps`: -1
231
+ - `lr_scheduler_type`: linear
232
+ - `lr_scheduler_kwargs`: {}
233
+ - `warmup_ratio`: 0.1
234
+ - `warmup_steps`: 0
235
+ - `log_level`: passive
236
+ - `log_level_replica`: warning
237
+ - `log_on_each_node`: True
238
+ - `logging_nan_inf_filter`: True
239
+ - `save_safetensors`: True
240
+ - `save_on_each_node`: False
241
+ - `save_only_model`: False
242
+ - `restore_callback_states_from_checkpoint`: False
243
+ - `no_cuda`: False
244
+ - `use_cpu`: False
245
+ - `use_mps_device`: False
246
+ - `seed`: 42
247
+ - `data_seed`: None
248
+ - `jit_mode_eval`: False
249
+ - `use_ipex`: False
250
+ - `bf16`: True
251
+ - `fp16`: False
252
+ - `fp16_opt_level`: O1
253
+ - `half_precision_backend`: auto
254
+ - `bf16_full_eval`: False
255
+ - `fp16_full_eval`: False
256
+ - `tf32`: None
257
+ - `local_rank`: 0
258
+ - `ddp_backend`: None
259
+ - `tpu_num_cores`: None
260
+ - `tpu_metrics_debug`: False
261
+ - `debug`: []
262
+ - `dataloader_drop_last`: False
263
+ - `dataloader_num_workers`: 0
264
+ - `dataloader_prefetch_factor`: None
265
+ - `past_index`: -1
266
+ - `disable_tqdm`: False
267
+ - `remove_unused_columns`: True
268
+ - `label_names`: None
269
+ - `load_best_model_at_end`: False
270
+ - `ignore_data_skip`: False
271
+ - `fsdp`: []
272
+ - `fsdp_min_num_params`: 0
273
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
274
+ - `fsdp_transformer_layer_cls_to_wrap`: None
275
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
276
+ - `deepspeed`: None
277
+ - `label_smoothing_factor`: 0.0
278
+ - `optim`: adamw_torch_fused
279
+ - `optim_args`: None
280
+ - `adafactor`: False
281
+ - `group_by_length`: False
282
+ - `length_column_name`: length
283
+ - `ddp_find_unused_parameters`: None
284
+ - `ddp_bucket_cap_mb`: None
285
+ - `ddp_broadcast_buffers`: False
286
+ - `dataloader_pin_memory`: True
287
+ - `dataloader_persistent_workers`: False
288
+ - `skip_memory_metrics`: True
289
+ - `use_legacy_prediction_loop`: False
290
+ - `push_to_hub`: False
291
+ - `resume_from_checkpoint`: None
292
+ - `hub_model_id`: None
293
+ - `hub_strategy`: every_save
294
+ - `hub_private_repo`: None
295
+ - `hub_always_push`: False
296
+ - `hub_revision`: None
297
+ - `gradient_checkpointing`: True
298
+ - `gradient_checkpointing_kwargs`: None
299
+ - `include_inputs_for_metrics`: False
300
+ - `include_for_metrics`: []
301
+ - `eval_do_concat_batches`: True
302
+ - `fp16_backend`: auto
303
+ - `push_to_hub_model_id`: None
304
+ - `push_to_hub_organization`: None
305
+ - `mp_parameters`:
306
+ - `auto_find_batch_size`: True
307
+ - `full_determinism`: False
308
+ - `torchdynamo`: None
309
+ - `ray_scope`: last
310
+ - `ddp_timeout`: 1800
311
+ - `torch_compile`: False
312
+ - `torch_compile_backend`: None
313
+ - `torch_compile_mode`: None
314
+ - `include_tokens_per_second`: False
315
+ - `include_num_input_tokens_seen`: False
316
+ - `neftune_noise_alpha`: None
317
+ - `optim_target_modules`: None
318
+ - `batch_eval_metrics`: False
319
+ - `eval_on_start`: False
320
+ - `use_liger_kernel`: False
321
+ - `liger_kernel_config`: None
322
+ - `eval_use_gather_object`: False
323
+ - `average_tokens_across_devices`: False
324
+ - `prompts`: None
325
+ - `batch_sampler`: batch_sampler
326
+ - `multi_dataset_batch_sampler`: proportional
327
+ - `router_mapping`: {}
328
+ - `learning_rate_mapping`: {}
329
+
330
+ </details>
331
+
332
+ ### Training Logs
333
+ | Epoch | Step | Training Loss | dev_spearman |
334
+ |:------:|:----:|:-------------:|:------------:|
335
+ | -1 | -1 | - | 0.4791 |
336
+ | 0.3687 | 1500 | 0.3778 | - |
337
+ | 0.4916 | 2000 | 0.3654 | - |
338
+ | 0.6146 | 2500 | 0.3672 | - |
339
+ | 0.7375 | 3000 | 0.3461 | - |
340
+ | 0.8604 | 3500 | 0.3496 | - |
341
+ | 0.9833 | 4000 | 0.3461 | - |
342
+
343
+
344
+ ### Framework Versions
345
+ - Python: 3.12.11
346
+ - Sentence Transformers: 5.1.0
347
+ - Transformers: 4.55.2
348
+ - PyTorch: 2.8.0+cu128
349
+ - Accelerate: 1.10.0
350
+ - Datasets: 4.0.0
351
+ - Tokenizers: 0.21.4
352
+
353
+ ## Citation
354
+
355
+ ### BibTeX
356
+
357
+ #### Sentence Transformers
358
+ ```bibtex
359
+ @inproceedings{reimers-2019-sentence-bert,
360
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
361
+ author = "Reimers, Nils and Gurevych, Iryna",
362
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
363
+ month = "11",
364
+ year = "2019",
365
+ publisher = "Association for Computational Linguistics",
366
+ url = "https://arxiv.org/abs/1908.10084",
367
+ }
368
+ ```
369
+
370
+ <!--
371
+ ## Glossary
372
+
373
+ *Clearly define terms in order to be accessible across audiences.*
374
+ -->
375
+
376
+ <!--
377
+ ## Model Card Authors
378
+
379
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
380
+ -->
381
+
382
+ <!--
383
+ ## Model Card Contact
384
+
385
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
386
+ -->
config.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 1024,
12
+ "id2label": {
13
+ "0": "LABEL_0"
14
+ },
15
+ "initializer_range": 0.02,
16
+ "intermediate_size": 4096,
17
+ "label2id": {
18
+ "LABEL_0": 0
19
+ },
20
+ "layer_norm_eps": 1e-05,
21
+ "max_position_embeddings": 8194,
22
+ "model_type": "xlm-roberta",
23
+ "num_attention_heads": 16,
24
+ "num_hidden_layers": 24,
25
+ "output_past": true,
26
+ "pad_token_id": 1,
27
+ "position_embedding_type": "absolute",
28
+ "sentence_transformers": {
29
+ "activation_fn": "torch.nn.modules.activation.Sigmoid",
30
+ "version": "5.1.0"
31
+ },
32
+ "torch_dtype": "float32",
33
+ "transformers_version": "4.55.2",
34
+ "type_vocab_size": 1,
35
+ "use_cache": true,
36
+ "vocab_size": 250002
37
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:764cf8b80809af598946e2450970a838d0a24df9913e3ef8be00b8c006021d0b
3
+ size 2271071852
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:222975faa02f5257c6e8c734e85973e48c8d42d7d37d90b894c73efa1841d76a
3
+ size 17083154
tokenizer_config.json ADDED
@@ -0,0 +1,63 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "max_length": 8192,
51
+ "model_max_length": 8192,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "sp_model_kwargs": {},
58
+ "stride": 0,
59
+ "tokenizer_class": "XLMRobertaTokenizerFast",
60
+ "truncation_side": "right",
61
+ "truncation_strategy": "longest_first",
62
+ "unk_token": "<unk>"
63
+ }