johnnyboycurtis
/

ModernBERT-small-retrieval

Sentence Similarity

sentence-transformers

feature-extraction

Generated from Trainer

dataset_size:3615666

loss:CachedMultipleNegativesSymmetricRankingLoss

loss:CachedMultipleNegativesRankingLoss

Eval Results (legacy)

text-embeddings-inference

Model card Files Files and versions

johnnyboycurtis commited on Jul 31, 2025

Commit

63b3e76

·

verified ·

1 Parent(s): ac2eb28

Update README.md

Files changed (1) hide show

README.md +15 -0

README.md CHANGED Viewed

@@ -337,6 +337,21 @@ model-index:
 This is a [sentence-transformers](https://www.SBERT.net) model trained on the [msmarco](https://huggingface.co/datasets/sentence-transformers/msmarco-msmarco-distilbert-base-v3), [gooaq](https://huggingface.co/datasets/sentence-transformers/gooaq) and [natural_questions](https://huggingface.co/datasets/sentence-transformers/natural-questions) datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
 ### Model Description

 This is a [sentence-transformers](https://www.SBERT.net) model trained on the [msmarco](https://huggingface.co/datasets/sentence-transformers/msmarco-msmarco-distilbert-base-v3), [gooaq](https://huggingface.co/datasets/sentence-transformers/gooaq) and [natural_questions](https://huggingface.co/datasets/sentence-transformers/natural-questions) datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+This model is based on the wide architecture of [johnnyboycurtis/ModernBERT-small](https://huggingface.co/johnnyboycurtis/ModernBERT-small)
+```
+small_modernbert_config = ModernBertConfig(
+    hidden_size=384,                 # A common dimension for small embedding models
+    num_hidden_layers=12,               # Significantly fewer layers than the base's 22
+    num_attention_heads=6,             # Must be a divisor of hidden_size
+    intermediate_size=1536,            # 4 * hidden_size -- VERY WIDE!!
+    max_position_embeddings=1024,       # Max sequence length for the model; originally 8192
+)
+model = ModernBertModel(modernbert_small_config)
+```
 ## Model Details
 ### Model Description