Otzria MLM V2

מודל שפה עברי המבוסס על AlephBERT ועבר אימון נוסף (Domain Adaptation) על טקסטים תורניים מתוך פרויקט אוצריא.

המודל מותאם במיוחד לטקסטים כגון:

תלמוד
ספרות ראשונים ואחרונים
הלכה
מדרשים
ספרות תורנית קלאסית

Base Model

המודל מבוסס על
onlplab/alephbert-base

אשר פותח על ידי
ONLP Lab

Architecture

Model type: BERT
Task: Masked Language Modeling (MLM)
Hidden size: 768
Layers: 12
Attention heads: 12

Vocabulary

המודל משתמש בטוקנייזר מורחב עם אוצר מילים חדש:

Vocabulary size: {vocab_size}

הרחבת ה-Vocabulary נועדה לשפר ביצועים על:

מונחים תלמודיים
לשון חז"ל
שמות ספרים וחכמים
ביטויים תורניים נפוצים

Training Details

Training Objective

Masked Language Modeling (MLM)

Special Training Strategy

האימון השתמש בטכניקה של Weighted MLM:

הסתברות masking רגילה: 15%
הסתברות masking לטוקנים חדשים: 45%
משקל loss לטוקנים חדשים: ×4

המטרה הייתה לגרום למודל ללמוד במהירות את הטוקנים החדשים שנוספו ל-Vocabulary.

Training Configuration

Parameter	Value
Base model	onlplab/alephbert-base
Epochs	1
Batch size	32
Learning rate	3e-5
Weight decay	0.01
Warmup ratio	0.03

Fine-tuned Layers

האימון בוצע על:

Embedding layer
4 שכבות encoder אחרונות
MLM head

שאר השכבות הוקפאו.

Dataset

האימון בוצע על קורפוס טקסטים תורניים מתוך פרויקט אוצריא.

הקורפוס כולל טקסטים מתקופות שונות של הספרות התורנית, כגון:

תלמוד
ראשונים
אחרונים
ספרות הלכתית

Usage

from transformers import pipeline

fill_mask = pipeline(
    \"fill-mask\",
    model=\"ArieLLL123/otzria-mlm-V2\"
)

results = fill_mask(\"מפני מה [MASK] חרש שוטה וקטן לא?\")
for r in results:
    print(r[\"sequence\"], r[\"score\"])

Example

Input:

מפני מה [MASK] חרש שוטה וקטן לא?

Output (example):

מפני מה אמר חרש שוטה וקטן לא?
מפני מה אמרו חרש שוטה וקטן לא?

Intended Use

המודל מיועד ל:

מחקר NLP בעברית תורנית
ניתוח טקסטים תורניים
חיפוש סמנטי
השלמת טקסטים
preprocessing למודלים גדולים יותר

Limitations

המודל אומן בעיקר על טקסטים תורניים ולכן ביצועיו על עברית מודרנית עלולים להיות פחות טובים.
מודל MLM אינו מיועד ל-generation מלא של טקסט.

License

AGPL-3.0

משמעות הדבר היא שכל שימוש במודל בפרויקט נגזר מחייב פרסום הקוד של הפרויקט תחת אותו רישיון.

Acknowledgments

מודל זה מבוסס על AlephBERT ועל עבודת Bar-Ilan University בתחום NLP לעברית.

Downloads last month: 2

Safetensors

Model size

0.1B params

Tensor type

F32