RoBERTa Amharic Text Embedding Base
This is a sentence-transformers model finetuned from rasyosef/roberta-base-amharic. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: rasyosef/roberta-base-amharic
- Maximum Sequence Length: 510 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Language: am
- License: apache-2.0
Model Sources
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 510, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Desalegnn/Desu1-roberta-amharic-embed-base-45k")
sentences = [
'24 ሰዓት በተደረገው 3 ሺህ 271 የላብራቶሪ ምርመራ በ14 ሰዎች ላይ የኮሮና ቫይረስ ተገኘ',
'አዲስ አበባ፣ ግንቦት 11፣ 2012 (ኤፍ.ቢ.ሲ) ባለፉት 24 ሰዓት ውስጥ በተደረገው 3 ሺህ 271 የላብራቶሪ ምርመራ በ14 ሰዎች የኮሮና ቫይረስ እንደተገኘባቸው የጤና ሚኒስቴር ገለፀ።በአጠቃላይ በኢትዮጵያ ቫይረሱ በምርመራ የተገኘባቸው ሰዎች ቁጥር 365 መድረሱን የጤና ሚኒስትሯ ዶክተር ሊያ ታደሰ አስታውቅዋል።ባለፉት 24 ሰዓት ውስጥ ቫይረሱ በምርመራ የተገኘባቸው ሁሉም ኢትዮጵያውያን ሲሆኑ፥ እድሜያቸው ከ9 እስከ 68 ዓመት የሆኑ 11 ወንዶችና 3 ሴቶች ናቸው።ቫይረሱ ከተገኘባቸው ሰዎች መካከል 9 ሰዎች ከአዲስ አበባ ሲሆኑ፥ ከእነዚህም መካከል 1 ሰው የውጭ ሀገር የጉዞ ታሪክ ያለው ድንበር ተሻጋሪ አሽከርካሪ፣ 7 ሰዎች በበሽታው ከተያዘ ሰው ጋር ግንኙነት ያላቸው እንዲሁም 1 ሰው ደግሞ የውጭ ሀገር የጉዞ ታሪክ እና በቫይረሱ ከተያዘ ሰው ጋር ግንኙነት የሌለው መሆኑን አስታውቀዋል።ቀሪዎቹ አምስት ሰዎች ደግሞ 1 ሰው በትግራይ ክልል (የውጭ ሀገር የጉዞ ታሪክ ያለው ድንበር ተሻጋሪ አሽከርካሪ፤ በመቐለ ለይቶ ማቆያ ያለ) 1 ሰው በኦሮሚያ ክልል (የውጭ ሀገር የጉዞ ታሪክ ያለው ድንበር ተሻጋሪ አሽከርካሪ) እንዲሁም 3 ሰዎች በሶማሌ ክልል (ጅግጅጋ ልይቶ ማቆያ) ውስጥ የሚገኙ መሆናቸውንም ገልፀዋል።በትናንትናው እለት በወጣው ሪፖርት ላይ ከአማራ ክልል (ሰሜን ሸዋ ዞን አጣየ ከተማ ለይቶ ማቆያ) ተብሎ የተገለፀው ግንቦት 9 በወጣው ሪፖርት ላይ ተገልፆ የነበረ እና ትናንት በድጋሚ ሪፖርት መደረጉን በመግለፅ፤ በትናንትናው እለት ቫይረሱ በምርመራ የተገኘባቸው ሰዎች ቁጥር 34 መሆኑን ሚኒስቴሩ ከይቅርታ ጋር ገልጿል።በሌላ በኩል በትናንትናው እለት 3 ሰዎች ከሶማሌ ክልል፣ 1 ሰው ደግሞ ከአፋር ክልል በድምሩ 4 ተጨማሪ ሰዎች ከቫይረሱ ማገገማቸውንና በአጠቃላይ ከቫይረሱ ያገገሙ ሰዎች ቁጥር 120 መድረሱንም አስታውቀዋል።ከቫይረሱ ጋር በተያያዘ እስካሁን ለ62 ሺህ 300 ሰዎች ምርመራ የተደረገ ሲሆን፥ በአጠቃላይ በኢትዮጵያ ቫይረሱ በምርመራ የተገኘባቸው ሰዎች ቁጥር 365 ደርሷል።አሁን ላይ 238 ሰዎች በህክምና ላይ ሲሆኑ፥ እስካሁንም 120 ሰዎች ከቫይረሱ አገግመዋል፤ የ5 ሰዎች ህይወት ሲያልፍ፤ 2 ሰዎች ወደ ሀገራቸው ጃፓን መመለሳቸው ይታወሳል።የዜና ሰዓት ሳይጠብቁ የፋና ብሮድካስቲንግ ኮርፖሬትን ትኩስ እና ሰበር ዜናዎችን በፍጥነት በአጭር የፅሁፍ መልዕክት መልክ በስልክዎ ላይ እንዲደርስዎ ወደ 8111 OK ብለው ይላኩ።',
'ሁለቱ አዲስ አዳጊ ክለቦች በወራጅ ቀጠናው ውስጥ ሆነው የሚገናኙበት ጨዋታ 09፡00 ላይ በሽረ ስታድየም ይጀምራል። 14ኛ ደረጃ ላይ የተቀመጡት ሽረዎች አዲስ አበባ ላይ በኢትዮጵያ ቡና ከተሸነፉ በኋላ ነው ይህን ጨዋታ የሚያደርጉት። ምንም እንኳን አንድ ተስተካካይ ጨዋታ ቢቀራቸውም እስካሁን ድል ሳይቀናቸው በሊጉ በርካታ ግብ ያስተናገደ ክለብ ሆነው ነው በአደጋው ዞን ውስጥ የተቀመጡት። ሁሉንም ጨዋታዎች ያከናወነው ደቡብ ፖሊስም ከተጋጣሚው በአንድ ድረጃ ዝቅ ብሎ ይገኛል። ሣምንት በሜዳው ቅዱስ ጊዮርጊስን ገጥሞ 1-0 የተሸነፈው ደቡብ ፖሊስ ደደቢትን ከረታበት ጨዋታ ውጪ ከድሬዳዋ አቻ ሲለያይ በሌሎቹ ሽንፈት ሲያስተናግድ ቆይቷል። ደካማ አቋም እያሳዩ የሚገኙት ሁለቱ ቡድኖች እርስ በርስ በመገናኘታቸው ጨዋታውን በመሸናነፍ ካጠናቀቁ ከወራጅ ቀጠናው የመውጣት ዕድል ይኖራቸዋል።ስሑል ሽረ አሁንም ጉዳት ላይ የሚገኙት ተጫዋቾቹ ወደ ሜዳ አይመለሱም። ሸዊት የውሃንስ ፣ ሰለሞን ገብረመድህን ፣ መብራህቶም ፍስሃ ፣ ንስሃ ታፈሰ እና ሰዒድ ሁሴን በዚህ ዝርዝር ውስጥ ተካተዋል። በደቡብ ፖሊስ በኩል ደግሞ በረከት ይስሀቅ ፣ ቢኒያም አድማሱ እንዲሁም ረዘም ያለ ጉዳት የገጠመው የቀኝ መስመር ተከላካዩ ብርሀኑ በቀለ ወደ ሽረ ያልተጎዙ ተጫዋቾች ሲሆኑ ሙሉዓለም ረጋሳም በተመሳሳይ ከነገው ጨዋታ ውጪ ሆኗል።– ጨዋታው ለሁለቱ ቡድኖች የመጀመሪያ የፕሪምየር ሊግ ግንኙነታቸው ነው።– ስሑል ሽረ እስካሁን በሜዳው ያደረጋቸውን ጨዋታዎች በሙሉ በአቻ ውጤት አጠናቋል። ከነዚህ ጨዋታዎች ውስጥ ግብ ማስቆጠር የቻለውም ሲዳማን ባስተናገደበት ወቅት ብቻ ነው።– ደቡብ ፖሊስ ከሀዋሳ ውጪ ካደረጋቸው አራት ጨዋታዎች አንድ ነጥብ እና አንድ ጎል ይዞ የተመለሰው ከድሬዳዋው ጨዋታ ብቻ ነበር። በቀሪዎቹን ሦስት ጨዋታዎች ግን በተመሳሳይ የ1-0 ውጤት ተሸንፏል።– እስካሁን በተደረጉ ጨዋታዎች ከፍተኛ ቁጥር ያለው የቢጫ ካርድ (21) የመዘዘው ተፈሪ አለባቸው ይህንን ጨዋታ ይመረዋል። አርቢትሩ ሦስት የፍፁም ቅጣት ምት የሰጠበትን የሲዳማ ቡና እና ባህር ዳር ከተማ ጨዋታ ጨምሮ እስካሁን ሦስት ጨዋታዎችን ዳኝቷል።ሰንደይ ሮቲሚአብዱሰላም አማን – ዘላለም በረከት – ዲሜጥሮስ ወልደስላሴ – ክብሮም ብርሀነሳሙኤል ተስፋዬ – ኄኖክ ካሳሁንኢብራሒማ ፎፋና – ጅላሎ ሻፊ – ልደቱ ለማሚድ ፎፋናዳዊት አሰፋአናጋው ባደግ – ደስታ ጊቻሞ – አዳሙ መሀመድ – አበባው ቡታቆአዲስአለም ደበበ – ኤርሚያስ በላይ – ዘላለም ኢሳያስመስፍን ኪዳኔ – በኃይሉ ወገኔ – ብሩክ ኤልያስ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities)
Evaluation
Metrics
Information Retrieval
| Metric |
Value |
| cosine_accuracy@1 |
0.672 |
| cosine_accuracy@3 |
0.8045 |
| cosine_accuracy@5 |
0.8462 |
| cosine_accuracy@10 |
0.892 |
| cosine_precision@1 |
0.672 |
| cosine_precision@3 |
0.2682 |
| cosine_precision@5 |
0.1692 |
| cosine_precision@10 |
0.0892 |
| cosine_recall@1 |
0.672 |
| cosine_recall@3 |
0.8045 |
| cosine_recall@5 |
0.8462 |
| cosine_recall@10 |
0.892 |
| cosine_ndcg@10 |
0.7829 |
| cosine_mrr@10 |
0.7479 |
| cosine_map@100 |
0.7516 |
Information Retrieval
| Metric |
Value |
| cosine_accuracy@1 |
0.6638 |
| cosine_accuracy@3 |
0.8035 |
| cosine_accuracy@5 |
0.8409 |
| cosine_accuracy@10 |
0.8895 |
| cosine_precision@1 |
0.6638 |
| cosine_precision@3 |
0.2678 |
| cosine_precision@5 |
0.1682 |
| cosine_precision@10 |
0.0889 |
| cosine_recall@1 |
0.6638 |
| cosine_recall@3 |
0.8035 |
| cosine_recall@5 |
0.8409 |
| cosine_recall@10 |
0.8895 |
| cosine_ndcg@10 |
0.7772 |
| cosine_mrr@10 |
0.7413 |
| cosine_map@100 |
0.7451 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 42,583 training samples
- Columns:
anchor and positive
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
| type |
string |
string |
| details |
- min: 5 tokens
- mean: 14.56 tokens
- max: 40 tokens
|
- min: 44 tokens
- mean: 290.22 tokens
- max: 510 tokens
|
- Samples:
| anchor |
positive |
በትራንስፖርት ሚ/ር ወ/ሮ ዳግማዊት የተመራው ልዑክ በሱዳን የነበረውን የስራ ጉብኝት አጠናቀቀ |
አዲስ አበባ፣ ታህሳስ 23፣ 2012 (ኤፍ ቢ ሲ) በትራንስፖርት ሚኒስትር ወይዘሮ ዳግማዊት ሞገስ የተመራው የልዑካን ቡድን በሱዳን ካርቱም የነበረውን የስራ ጉብኝት በስኬት አጠናቋል።ልዑኩ በካርቱም ቆይታውም ከሀገሪቱ የመሠረተ ልማትና ትራንስፖርት ሚኒስትር ኡመር አህመድ መሃመድ፣ የፖርት ሱዳን ኮርፕሬሽን ዋና ዳይሬክተር ካፕቴን አንዋር ሙሳ እንዲሁም ከንግድና፣ ከፋይናንስ ሚንስትርና ከጉሙሩክ ከፍተኛ የስራ ሃላፊዎች ጋር ተወያይቷል።በውይይታቸው ሀገራቱን በትራንስፖርት ለማስተሳሰር፣ በወደብ አጠቃቀም እና በዘርፉ የተደረጉ ስምምነቶችን መተግበር በሚቻልባቸው ሁኔታዎች ዙሪያ መክረዋል ። ኢትዮጵያ ከዚህ ቀደም ፖርት ሱዳንን ስትጠቀም ያጋጥሙ የነበሩ ማነቆዎችን በጋራ መፍታት በሚቻልባቸው ጉዳዮች ዙሪያ ከስምምነት ላይ መድረስ መቻሉም ተመላክቷል።በተጨማሪም በምዕራብ ኢትዮጵያ የሚገኙ አካባቢዎች ፖርት ሱዳንን በመጠቀም የወጪ ገቢ ንግድ ፍሰትን ለማሻሻሻል በሚቻልበት ሁኔታ ዙሪያ መምከራቸው ነው የተገለጸው።በሌላ በኩል ማዳበሪያና ሌሎች ምርቶች ወደቡን በመጠቀም ለማስገባት በሚቻልበት ሁኔታ ከመሠረተ ልማትና ትራንስፖርት ሚኒስትርሩ እንዲሁም ተጠሪ ከሆኑ መስሪያ ቤቶች መካከል የሱዳን የባህር ወደብ ባለስልጣን፣ ከሱዳን ምድር ባቡር፣ ከሱዳን መንገዶች ባለስልጣን ኃላፊዎች ጋር ውይይት ተካሂዷል።በቅርቡ ለሚጀመረው ማዳበሪያ ወደ ሀገር ውስጥ የማስገባት ሂደትን እንዲያግዝም የኢትዮጵያ የባህር ትራንስፖርና ሎጅስቲክ አገልግሎት ድርጅት ማስተባበሪያ ቢሮ በኮርፖሬሽኑ በኩል ለማዘጋጀት ስምምነት ላይ ተደርሷል።በስራ ጉብኝቱ ከተለያዩ የስራ ሃላፊዎች ጋር በኮሪደሩ የተሰሩና በሂደት ላይ ያሉ ፕሮጀክቶች ያሉበትን ደረጃ በተመለከተ እንዲሁም በወደብ አገልግሎትና አጠቃቀም ዙሪያ ውጤታማ ውይይት መካ... |
ብሩክታዊት ጌታሁን (ቤቲ ጂ) የተባበሩት መንግስታት የስደተኞች ጉዳይ የበጎ ፈቃድ አምባሳደር ሆና ተመረጠች |
አዲስ አበባ ፣ የካቲት 27፣ 2012 (ኤፍ ቢ ሲ) ድምጻዊት እና የሙዚቃ ፀሃፊ ብሩክታዊት ጌታሁን (ቤቲ ጂ) ዛሬ የተባበሩት መንግስታት የስደተኞች ጉዳይ የበጎ ፈቃድ አምባሳደር ሆና ተመርጣለች፡፡በዓለም አቀፍ እና በሃገር አቀፍ ደረጃ እየተከበረ የሚገኘውን የሴቶችን ቀን ምከንያት በማድረግ በተካሄደ የሹመት ስነ ስርዓት ላይ ድምጻዊት ብሩክታዊት የተባበሩት መንግስታት የስደተኞች ጉዳይ የበጎ ፈቃድ አምባሳደር ሆና መመረጧ ይፋ ሆኗል፡፡በዚህ ወቅትም ድምጻዊቷ “የስደተኞች ጉዳይ በጎ ፈቃድ አምባሳደር ሆኜ በመመረጤ ኩራት እና ክብር ይሰማኛል፥ ለዚህ ጥሩ ዓላማም ሙሉ በሙሉ ቁርጠኛ ነኝ” ብላለች፡፡ብሩክታዊት ጌታሁን በሙዚቃው ዘርፍ ጉልህ ሚና ያላት ወጣት ስትሆን አፍሪማን ጨምሮ ሌሎች ሽልማቶችን ማሸነፍ ችላለች።፡እንዲሁም በቅርቡ በኦስሎ በተካሄደው 2019 የኖቤል ሽልማት ስነ ስርዓት ላይ ሃገሬ እና ሲንጃለዳ የተሰኙ ሙዚቃዎችን በመጫወት አድናቆትን አግኝታለች፡፡በተጨማሪም በተለያዩ የበጎ ፍቃድ ስራዎች ላይም በመሳተፍ ትታወቃለች፡፡ትኩስ መረጃዎችን በፍጥነት ለማግኘት የቴሌግራም ገፃችንን ሰብስክራይብ ያድርጉ! https://t.me/fanatelevision |
ሞት የናፈቃቸው የ99 ዓመት አዛውንት! |
ለአገራቸው ነፃነት ከጣልያን ጋር የተዋጉ አርበኛ ታሪክሁለት ልጆቻቸው በቀይ ሽብር ተገደሉ፡፡ ልጆቼን ልቅበር ሲሉ እስር ቤት ተወረወሩ፡፡ ሚስታቸው በሃዘን ብዛት ህይወታቸው አለፈ፡፡ አንድ የቀረቻቸው ልጅ የት እንደገባች አያውቁም፡፡ ስድስት ዓመት ታስረው ሲወጡ ቤታቸው ፈርሷል! እንዴታ! አምስት አመት ሙሉ ተዋግቻለሁ፡፡እንዴት ነው የዘመቱት?አባቴ ቀኝአማች ብሩ ሀይለኛ አርበኛ ነበሩ፡፡ በጦርነቱ ጣሊያኖች አባቴን ሲገድሉብኝ እጅግ ተቆጣሁ፣ ደሜ ፈላ፡፡ በወቅቱ የ20 ዓመት ወጣት ነበርኩ፡፡ ማቄን ጨርቄን የምለው አልነበረኝም፡፡ ጫካ ገባሁና መዋጋት ጀመርኩኝ፡፡ ከየት አካባቢ ነው ወደ ጦርነቱ የሄዱት?የተወለድኩት ወሎ ውስጥ አማራ ሳይንት ነው፡፡ ጦርነቱን የተቀላቀልኩትም ከዚያ ሄጄ ነው፡፡ በላይ ዘለቀን ያውቁታል ይባላል፡፡ እውነት ነው?አሳምሬ አውቀዋለሁ እንጂ እንዴት አላውቀውም! አብራችሁ ዘምታችኋል እንዴ?አብረን አልዘመትንም፡፡ እኔ እራያ አዘቦ፣ መሆኒ፣ ሸዋ፣ መንዝ፣ መራ ቤቴ፣ አህያ ፈጅ ዶባ እየተዘዋወርኩ ራያው ከፈለ ከተባለ የጦር መሪ ጋር ነው የተዋጋሁት፡፡ ጐበዝ የጦር መሪ ነበር፡፡ በላይ ዘለቀ ግን አባይ በረሃ ላይ ነበር፡፡ ግን ተገናኝተን እናውቃለን፡፡ በደንብ ነው የማውቀው! ድል ካደረጋችሁ በኋላ ስለነበረው ሁኔታ ያጫውቱኝ-----ጃንሆይ “አገርህን ለመጠበቅ በጫካ ያለህ ወደ እኔ ተሰብሰብ” ብለው ሲጣሩ፣ ከነበርኩበት ተነስቼ ከጓደኞቼ ጋር መጣሁ፡፡ እርሳቸው ውጭ አገር ከርመው መምጣታቸው ነበር፡፡ እናም አርበኛው ሁሉ በጠቅላላ አዲስ አበባ ገባና ተሰበሰበ፡፡ ጃንሆይ ጃን ሜዳ መጡ፣ በሬው ሁሉ ታረደ፣ ተደገሰ፡፡ ድግሱ ሲያልቅ እዚሁ ለትንሽ ጊዜ ቆዩ ተባልን፡፡ ግን ማንም የሰማቸው የለም፣ ሁሉም በየሀገሩ ሲበታተን እኔም አማራ ሳይንት ገባሁ፡፡ በወቅቱ ጡ... |
- Loss:
MatryoshkaLoss with these parameters:{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
768,
256
],
"matryoshka_weights": [
1,
1
],
"n_dims_per_step": -1
}
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: epoch
per_device_train_batch_size: 128
per_device_eval_batch_size: 128
num_train_epochs: 5
lr_scheduler_type: cosine
warmup_ratio: 0.1
fp16: True
load_best_model_at_end: True
batch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: False
do_predict: False
eval_strategy: epoch
prediction_loss_only: True
per_device_train_batch_size: 128
per_device_eval_batch_size: 128
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 5
max_steps: -1
lr_scheduler_type: cosine
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
project: huggingface
trackio_space_id: trackio
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: no
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: True
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}
Training Logs
| Epoch |
Step |
Training Loss |
dim_768_cosine_ndcg@10 |
dim_256_cosine_ndcg@10 |
| -1 |
-1 |
- |
0.0961 |
0.0759 |
| 1.0 |
333 |
0.7827 |
0.7351 |
0.7223 |
| 2.0 |
666 |
0.1403 |
0.7587 |
0.7498 |
| 3.0 |
999 |
0.0578 |
0.7707 |
0.7660 |
| 4.0 |
1332 |
0.036 |
0.7813 |
0.7761 |
| 5.0 |
1665 |
0.0284 |
0.7829 |
0.7772 |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.12.12
- Sentence Transformers: 5.1.1
- Transformers: 4.57.0
- PyTorch: 2.8.0+cu126
- Accelerate: 1.10.1
- Datasets: 4.2.0
- Tokenizers: 0.22.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}