RoBERTa Amharic Text Embedding Base

This is a sentence-transformers model finetuned from rasyosef/roberta-base-amharic. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: rasyosef/roberta-base-amharic
  • Maximum Sequence Length: 510 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Language: am
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 510, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Desalegnn/Desu1-roberta-amharic-embed-base-45k")
# Run inference
sentences = [
    '24 ሰዓት በተደረገው 3 ሺህ 271 የላብራቶሪ ምርመራ በ14 ሰዎች ላይ የኮሮና ቫይረስ ተገኘ',
    'አዲስ አበባ፣ ግንቦት 11፣ 2012 (ኤፍ.ቢ.ሲ) ባለፉት 24 ሰዓት ውስጥ በተደረገው 3 ሺህ 271 የላብራቶሪ ምርመራ በ14 ሰዎች የኮሮና ቫይረስ እንደተገኘባቸው የጤና ሚኒስቴር ገለፀ።በአጠቃላይ በኢትዮጵያ ቫይረሱ በምርመራ የተገኘባቸው ሰዎች ቁጥር 365 መድረሱን የጤና ሚኒስትሯ ዶክተር ሊያ ታደሰ አስታውቅዋል።ባለፉት 24 ሰዓት ውስጥ ቫይረሱ በምርመራ የተገኘባቸው ሁሉም ኢትዮጵያውያን ሲሆኑ፥ እድሜያቸው ከ9 እስከ 68 ዓመት የሆኑ 11 ወንዶችና 3 ሴቶች ናቸው።ቫይረሱ ከተገኘባቸው ሰዎች መካከል 9 ሰዎች ከአዲስ አበባ ሲሆኑ፥ ከእነዚህም መካከል 1 ሰው የውጭ ሀገር የጉዞ ታሪክ ያለው ድንበር ተሻጋሪ አሽከርካሪ፣ 7 ሰዎች በበሽታው ከተያዘ ሰው ጋር ግንኙነት ያላቸው እንዲሁም 1 ሰው ደግሞ የውጭ ሀገር የጉዞ ታሪክ እና በቫይረሱ ከተያዘ ሰው ጋር ግንኙነት የሌለው መሆኑን አስታውቀዋል።ቀሪዎቹ አምስት ሰዎች ደግሞ 1 ሰው በትግራይ ክልል (የውጭ ሀገር የጉዞ ታሪክ ያለው ድንበር ተሻጋሪ አሽከርካሪ፤ በመቐለ ለይቶ ማቆያ ያለ) 1 ሰው በኦሮሚያ ክልል (የውጭ ሀገር የጉዞ ታሪክ ያለው ድንበር ተሻጋሪ አሽከርካሪ) እንዲሁም 3 ሰዎች በሶማሌ ክልል (ጅግጅጋ ልይቶ ማቆያ) ውስጥ የሚገኙ መሆናቸውንም ገልፀዋል።በትናንትናው እለት በወጣው ሪፖርት ላይ ከአማራ ክልል (ሰሜን ሸዋ ዞን አጣየ ከተማ ለይቶ ማቆያ) ተብሎ የተገለፀው ግንቦት 9 በወጣው ሪፖርት ላይ ተገልፆ የነበረ እና ትናንት በድጋሚ ሪፖርት መደረጉን በመግለፅ፤ በትናንትናው እለት ቫይረሱ በምርመራ የተገኘባቸው ሰዎች ቁጥር 34 መሆኑን ሚኒስቴሩ ከይቅርታ ጋር ገልጿል።በሌላ በኩል በትናንትናው እለት 3 ሰዎች ከሶማሌ ክልል፣ 1 ሰው ደግሞ ከአፋር ክልል በድምሩ 4 ተጨማሪ ሰዎች ከቫይረሱ ማገገማቸውንና በአጠቃላይ ከቫይረሱ ያገገሙ ሰዎች ቁጥር 120 መድረሱንም አስታውቀዋል።ከቫይረሱ ጋር በተያያዘ እስካሁን ለ62 ሺህ 300 ሰዎች ምርመራ የተደረገ ሲሆን፥ በአጠቃላይ በኢትዮጵያ ቫይረሱ በምርመራ የተገኘባቸው ሰዎች ቁጥር 365 ደርሷል።አሁን ላይ 238 ሰዎች በህክምና ላይ ሲሆኑ፥ እስካሁንም 120 ሰዎች ከቫይረሱ አገግመዋል፤ የ5 ሰዎች ህይወት ሲያልፍ፤ 2 ሰዎች ወደ ሀገራቸው ጃፓን መመለሳቸው ይታወሳል።የዜና ሰዓት ሳይጠብቁ የፋና ብሮድካስቲንግ ኮርፖሬትን ትኩስ እና ሰበር ዜናዎችን በፍጥነት በአጭር የፅሁፍ መልዕክት መልክ በስልክዎ ላይ እንዲደርስዎ ወደ 8111 OK ብለው ይላኩ።',
    'ሁለቱ አዲስ አዳጊ ክለቦች በወራጅ ቀጠናው ውስጥ ሆነው የሚገናኙበት ጨዋታ 09፡00 ላይ በሽረ ስታድየም ይጀምራል። 14ኛ ደረጃ ላይ የተቀመጡት ሽረዎች አዲስ አበባ ላይ በኢትዮጵያ ቡና ከተሸነፉ በኋላ ነው ይህን ጨዋታ የሚያደርጉት። ምንም እንኳን አንድ ተስተካካይ ጨዋታ ቢቀራቸውም እስካሁን ድል ሳይቀናቸው በሊጉ በርካታ ግብ ያስተናገደ ክለብ ሆነው ነው በአደጋው ዞን ውስጥ የተቀመጡት። ሁሉንም ጨዋታዎች ያከናወነው ደቡብ ፖሊስም ከተጋጣሚው በአንድ ድረጃ ዝቅ ብሎ ይገኛል። ሣምንት በሜዳው ቅዱስ ጊዮርጊስን ገጥሞ 1-0 የተሸነፈው ደቡብ ፖሊስ ደደቢትን ከረታበት ጨዋታ ውጪ ከድሬዳዋ አቻ ሲለያይ በሌሎቹ ሽንፈት ሲያስተናግድ ቆይቷል። ደካማ አቋም እያሳዩ የሚገኙት ሁለቱ ቡድኖች እርስ በርስ በመገናኘታቸው ጨዋታውን በመሸናነፍ ካጠናቀቁ ከወራጅ ቀጠናው የመውጣት ዕድል ይኖራቸዋል።ስሑል ሽረ አሁንም ጉዳት ላይ የሚገኙት ተጫዋቾቹ ወደ ሜዳ አይመለሱም። ሸዊት የውሃንስ ፣ ሰለሞን ገብረመድህን ፣ መብራህቶም ፍስሃ ፣ ንስሃ ታፈሰ እና ሰዒድ ሁሴን በዚህ ዝርዝር ውስጥ ተካተዋል። በደቡብ ፖሊስ በኩል ደግሞ በረከት ይስሀቅ ፣ ቢኒያም አድማሱ እንዲሁም ረዘም ያለ ጉዳት የገጠመው የቀኝ መስመር ተከላካዩ ብርሀኑ በቀለ ወደ ሽረ ያልተጎዙ ተጫዋቾች ሲሆኑ ሙሉዓለም ረጋሳም በተመሳሳይ ከነገው ጨዋታ ውጪ ሆኗል።– ጨዋታው ለሁለቱ ቡድኖች የመጀመሪያ የፕሪምየር ሊግ ግንኙነታቸው ነው።– ስሑል ሽረ እስካሁን በሜዳው ያደረጋቸውን ጨዋታዎች በሙሉ በአቻ ውጤት አጠናቋል። ከነዚህ ጨዋታዎች ውስጥ ግብ ማስቆጠር የቻለውም ሲዳማን ባስተናገደበት ወቅት ብቻ ነው።– ደቡብ ፖሊስ ከሀዋሳ ውጪ ካደረጋቸው አራት ጨዋታዎች አንድ ነጥብ እና አንድ ጎል ይዞ የተመለሰው ከድሬዳዋው ጨዋታ ብቻ ነበር። በቀሪዎቹን ሦስት ጨዋታዎች ግን በተመሳሳይ የ1-0 ውጤት ተሸንፏል።– እስካሁን በተደረጉ ጨዋታዎች ከፍተኛ ቁጥር ያለው የቢጫ ካርድ (21) የመዘዘው ተፈሪ አለባቸው ይህንን ጨዋታ ይመረዋል። አርቢትሩ ሦስት የፍፁም ቅጣት ምት የሰጠበትን የሲዳማ ቡና እና ባህር ዳር ከተማ ጨዋታ ጨምሮ እስካሁን ሦስት ጨዋታዎችን ዳኝቷል።ሰንደይ ሮቲሚአብዱሰላም አማን – ዘላለም በረከት – ዲሜጥሮስ ወልደስላሴ – ክብሮም ብርሀነሳሙኤል ተስፋዬ – ኄኖክ ካሳሁንኢብራሒማ ፎፋና – ጅላሎ ሻፊ – ልደቱ ለማሚድ ፎፋናዳዊት አሰፋአናጋው ባደግ – ደስታ ጊቻሞ – አዳሙ መሀመድ – አበባው ቡታቆአዲስአለም ደበበ – ኤርሚያስ በላይ – ዘላለም ኢሳያስመስፍን ኪዳኔ – በኃይሉ ወገኔ – ብሩክ ኤልያስ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.8276, 0.0013],
#         [0.8276, 1.0000, 0.0490],
#         [0.0013, 0.0490, 1.0000]])

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.672
cosine_accuracy@3 0.8045
cosine_accuracy@5 0.8462
cosine_accuracy@10 0.892
cosine_precision@1 0.672
cosine_precision@3 0.2682
cosine_precision@5 0.1692
cosine_precision@10 0.0892
cosine_recall@1 0.672
cosine_recall@3 0.8045
cosine_recall@5 0.8462
cosine_recall@10 0.892
cosine_ndcg@10 0.7829
cosine_mrr@10 0.7479
cosine_map@100 0.7516

Information Retrieval

Metric Value
cosine_accuracy@1 0.6638
cosine_accuracy@3 0.8035
cosine_accuracy@5 0.8409
cosine_accuracy@10 0.8895
cosine_precision@1 0.6638
cosine_precision@3 0.2678
cosine_precision@5 0.1682
cosine_precision@10 0.0889
cosine_recall@1 0.6638
cosine_recall@3 0.8035
cosine_recall@5 0.8409
cosine_recall@10 0.8895
cosine_ndcg@10 0.7772
cosine_mrr@10 0.7413
cosine_map@100 0.7451

Training Details

Training Dataset

Unnamed Dataset

  • Size: 42,583 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 5 tokens
    • mean: 14.56 tokens
    • max: 40 tokens
    • min: 44 tokens
    • mean: 290.22 tokens
    • max: 510 tokens
  • Samples:
    anchor positive
    በትራንስፖርት ሚ/ር ወ/ሮ ዳግማዊት የተመራው ልዑክ በሱዳን የነበረውን የስራ ጉብኝት አጠናቀቀ አዲስ አበባ፣ ታህሳስ 23፣ 2012 (ኤፍ ቢ ሲ) በትራንስፖርት ሚኒስትር ወይዘሮ ዳግማዊት ሞገስ የተመራው የልዑካን ቡድን በሱዳን ካርቱም የነበረውን የስራ ጉብኝት በስኬት አጠናቋል።ልዑኩ በካርቱም ቆይታውም ከሀገሪቱ የመሠረተ ልማትና ትራንስፖርት ሚኒስትር ኡመር አህመድ መሃመድ፣ የፖርት ሱዳን ኮርፕሬሽን ዋና ዳይሬክተር ካፕቴን አንዋር ሙሳ እንዲሁም ከንግድና፣ ከፋይናንስ ሚንስትርና ከጉሙሩክ ከፍተኛ የስራ ሃላፊዎች ጋር ተወያይቷል።በውይይታቸው ሀገራቱን በትራንስፖርት ለማስተሳሰር፣ በወደብ አጠቃቀም እና በዘርፉ የተደረጉ ስምምነቶችን መተግበር በሚቻልባቸው ሁኔታዎች ዙሪያ መክረዋል ።
    ኢትዮጵያ ከዚህ ቀደም ፖርት ሱዳንን ስትጠቀም ያጋጥሙ የነበሩ ማነቆዎችን በጋራ መፍታት በሚቻልባቸው ጉዳዮች ዙሪያ ከስምምነት ላይ መድረስ መቻሉም ተመላክቷል።በተጨማሪም በምዕራብ ኢትዮጵያ የሚገኙ አካባቢዎች ፖርት ሱዳንን በመጠቀም የወጪ ገቢ ንግድ ፍሰትን ለማሻሻሻል በሚቻልበት ሁኔታ ዙሪያ መምከራቸው ነው የተገለጸው።በሌላ በኩል ማዳበሪያና ሌሎች ምርቶች ወደቡን በመጠቀም ለማስገባት በሚቻልበት ሁኔታ ከመሠረተ ልማትና ትራንስፖርት ሚኒስትርሩ እንዲሁም ተጠሪ ከሆኑ መስሪያ ቤቶች መካከል የሱዳን የባህር ወደብ ባለስልጣን፣ ከሱዳን ምድር ባቡር፣ ከሱዳን መንገዶች ባለስልጣን ኃላፊዎች ጋር ውይይት ተካሂዷል።በቅርቡ ለሚጀመረው ማዳበሪያ ወደ ሀገር ውስጥ የማስገባት ሂደትን እንዲያግዝም የኢትዮጵያ የባህር ትራንስፖርና ሎጅስቲክ አገልግሎት ድርጅት ማስተባበሪያ ቢሮ በኮርፖሬሽኑ በኩል ለማዘጋጀት ስምምነት ላይ ተደርሷል።በስራ ጉብኝቱ ከተለያዩ የስራ ሃላፊዎች ጋር በኮሪደሩ የተሰሩና በሂደት ላይ ያሉ ፕሮጀክቶች ያሉበትን ደረጃ በተመለከተ እንዲሁም በወደብ አገልግሎትና አጠቃቀም ዙሪያ ውጤታማ ውይይት መካ...
    ብሩክታዊት ጌታሁን (ቤቲ ጂ) የተባበሩት መንግስታት የስደተኞች ጉዳይ የበጎ ፈቃድ አምባሳደር ሆና ተመረጠች አዲስ አበባ ፣ የካቲት 27፣ 2012 (ኤፍ ቢ ሲ) ድምጻዊት እና የሙዚቃ ፀሃፊ ብሩክታዊት ጌታሁን (ቤቲ ጂ) ዛሬ የተባበሩት መንግስታት የስደተኞች ጉዳይ የበጎ ፈቃድ አምባሳደር ሆና ተመርጣለች፡፡በዓለም አቀፍ እና በሃገር አቀፍ ደረጃ እየተከበረ የሚገኘውን የሴቶችን ቀን ምከንያት በማድረግ በተካሄደ የሹመት ስነ ስርዓት ላይ ድምጻዊት ብሩክታዊት የተባበሩት መንግስታት የስደተኞች ጉዳይ የበጎ ፈቃድ አምባሳደር ሆና መመረጧ ይፋ ሆኗል፡፡በዚህ ወቅትም ድምጻዊቷ “የስደተኞች ጉዳይ በጎ ፈቃድ አምባሳደር ሆኜ በመመረጤ ኩራት እና ክብር ይሰማኛል፥ ለዚህ ጥሩ ዓላማም ሙሉ በሙሉ ቁርጠኛ ነኝ” ብላለች፡፡ብሩክታዊት ጌታሁን በሙዚቃው ዘርፍ ጉልህ ሚና ያላት ወጣት ስትሆን አፍሪማን ጨምሮ ሌሎች ሽልማቶችን ማሸነፍ ችላለች።፡እንዲሁም በቅርቡ በኦስሎ በተካሄደው 2019 የኖቤል ሽልማት ስነ ስርዓት ላይ ሃገሬ እና ሲንጃለዳ የተሰኙ ሙዚቃዎችን በመጫወት አድናቆትን አግኝታለች፡፡በተጨማሪም በተለያዩ የበጎ ፍቃድ ስራዎች ላይም በመሳተፍ ትታወቃለች፡፡ትኩስ መረጃዎችን በፍጥነት ለማግኘት የቴሌግራም ገፃችንን ሰብስክራይብ ያድርጉ!
    https://t.me/fanatelevision
    ሞት የናፈቃቸው የ99 ዓመት አዛውንት! ለአገራቸው ነፃነት ከጣልያን ጋር የተዋጉ አርበኛ ታሪክሁለት ልጆቻቸው በቀይ ሽብር ተገደሉ፡፡ ልጆቼን ልቅበር ሲሉ እስር ቤት ተወረወሩ፡፡ ሚስታቸው በሃዘን ብዛት ህይወታቸው አለፈ፡፡ አንድ የቀረቻቸው ልጅ የት እንደገባች አያውቁም፡፡ ስድስት ዓመት ታስረው ሲወጡ ቤታቸው ፈርሷል! እንዴታ! አምስት አመት ሙሉ ተዋግቻለሁ፡፡እንዴት ነው የዘመቱት?አባቴ ቀኝአማች ብሩ ሀይለኛ አርበኛ ነበሩ፡፡ በጦርነቱ ጣሊያኖች አባቴን ሲገድሉብኝ እጅግ ተቆጣሁ፣ ደሜ ፈላ፡፡ በወቅቱ የ20 ዓመት ወጣት ነበርኩ፡፡ ማቄን ጨርቄን የምለው አልነበረኝም፡፡ ጫካ ገባሁና መዋጋት ጀመርኩኝ፡፡ ከየት አካባቢ ነው ወደ ጦርነቱ የሄዱት?የተወለድኩት ወሎ ውስጥ አማራ ሳይንት ነው፡፡ ጦርነቱን የተቀላቀልኩትም ከዚያ ሄጄ ነው፡፡ በላይ ዘለቀን ያውቁታል ይባላል፡፡ እውነት ነው?አሳምሬ አውቀዋለሁ እንጂ እንዴት አላውቀውም! አብራችሁ ዘምታችኋል እንዴ?አብረን አልዘመትንም፡፡ እኔ እራያ አዘቦ፣ መሆኒ፣ ሸዋ፣ መንዝ፣ መራ ቤቴ፣ አህያ ፈጅ ዶባ እየተዘዋወርኩ ራያው ከፈለ ከተባለ የጦር መሪ ጋር ነው የተዋጋሁት፡፡ ጐበዝ የጦር መሪ ነበር፡፡ በላይ ዘለቀ ግን አባይ በረሃ ላይ ነበር፡፡ ግን ተገናኝተን እናውቃለን፡፡ በደንብ ነው የማውቀው! ድል ካደረጋችሁ በኋላ ስለነበረው ሁኔታ ያጫውቱኝ-----ጃንሆይ “አገርህን ለመጠበቅ በጫካ ያለህ ወደ እኔ ተሰብሰብ” ብለው ሲጣሩ፣ ከነበርኩበት ተነስቼ ከጓደኞቼ ጋር መጣሁ፡፡ እርሳቸው ውጭ አገር ከርመው መምጣታቸው ነበር፡፡ እናም አርበኛው ሁሉ በጠቅላላ አዲስ አበባ ገባና ተሰበሰበ፡፡ ጃንሆይ ጃን ሜዳ መጡ፣ በሬው ሁሉ ታረደ፣ ተደገሰ፡፡ ድግሱ ሲያልቅ እዚሁ ለትንሽ ጊዜ ቆዩ ተባልን፡፡ ግን ማንም የሰማቸው የለም፣ ሁሉም በየሀገሩ ሲበታተን እኔም አማራ ሳይንት ገባሁ፡፡ በወቅቱ ጡ...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            256
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • num_train_epochs: 5
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss dim_768_cosine_ndcg@10 dim_256_cosine_ndcg@10
-1 -1 - 0.0961 0.0759
1.0 333 0.7827 0.7351 0.7223
2.0 666 0.1403 0.7587 0.7498
3.0 999 0.0578 0.7707 0.7660
4.0 1332 0.036 0.7813 0.7761
5.0 1665 0.0284 0.7829 0.7772
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.1.1
  • Transformers: 4.57.0
  • PyTorch: 2.8.0+cu126
  • Accelerate: 1.10.1
  • Datasets: 4.2.0
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
117
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Desalegnn/Desu1-roberta-amharic-embed-base-45k

Finetuned
(11)
this model
Quantizations
1 model

Papers for Desalegnn/Desu1-roberta-amharic-embed-base-45k

Evaluation results