Update README.md
Browse files
README.md
CHANGED
|
@@ -18,13 +18,135 @@ pipeline_tag: sentence-similarity
|
|
| 18 |
# Zarra Arabic Static Embedding
|
| 19 |
|
| 20 |
This [Model2Vec](https://github.com/MinishLab/model2vec) model is a distilled version of a Sentence Transformer.
|
|
|
|
| 21 |
It uses static embeddings, allowing text embeddings to be computed orders of magnitude faster on both GPU and CPU.
|
|
|
|
| 22 |
It is designed for applications where computational resources are limited or where real-time performance is critical.
|
| 23 |
Model2Vec models are the smallest, fastest, and most performant static embedders available.
|
| 24 |
The distilled models are can beup to 50 times smaller and 500 times faster than traditional Sentence Transformers.
|
| 25 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 26 |
## Installation
|
| 27 |
|
|
|
|
| 28 |
Install model2vec using pip:
|
| 29 |
```
|
| 30 |
pip install model2vec
|
|
|
|
| 18 |
# Zarra Arabic Static Embedding
|
| 19 |
|
| 20 |
This [Model2Vec](https://github.com/MinishLab/model2vec) model is a distilled version of a Sentence Transformer.
|
| 21 |
+
|
| 22 |
It uses static embeddings, allowing text embeddings to be computed orders of magnitude faster on both GPU and CPU.
|
| 23 |
+
|
| 24 |
It is designed for applications where computational resources are limited or where real-time performance is critical.
|
| 25 |
Model2Vec models are the smallest, fastest, and most performant static embedders available.
|
| 26 |
The distilled models are can beup to 50 times smaller and 500 times faster than traditional Sentence Transformers.
|
| 27 |
+
## Benchmark on Arabic
|
| 28 |
+
|
| 29 |
+
Model Evaluation Summary
|
| 30 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโณโโโโโโโโโณโโโโโโโโโณโโโโโโโโโณโโโโโโโโโณโโโโโโโโโณโโโโโโโโโณโโโโโโโโโณโโโโโโโโโ
|
| 31 |
+
โ Model โ Avg โ MIRAC โ MLQAR โ Massi โ Multi โ STS17 โ STS22 โ XNLI_ โ
|
| 32 |
+
โกโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฉ
|
| 33 |
+
โ arabic_triplet_matryoshka_v2 โ 0.6610 โ 0.6262 โ 0.5093 โ 0.5577 โ 0.5868 โ 0.8531 โ 0.6396 โ 0.8542 โ
|
| 34 |
+
โ muffakir_embedding โ 0.6494 โ 0.6424 โ 0.5267 โ 0.5462 โ 0.5943 โ 0.8485 โ 0.6291 โ 0.7583 โ
|
| 35 |
+
โ arabic_retrieval_v1.0 โ 0.6473 โ 0.6159 โ 0.5674 โ 0.5832 โ 0.5993 โ 0.8002 โ 0.6254 โ 0.7393 โ
|
| 36 |
+
โ gate_arabert-v1 โ 0.6444 โ 0.5774 โ 0.4808 โ 0.5345 โ 0.5847 โ 0.8278 โ 0.6310 โ 0.8746 โ
|
| 37 |
+
โ get_multilingual_base โ 0.6440 โ 0.7177 โ 0.5698 โ 0.5071 โ 0.5521 โ 0.7881 โ 0.6145 โ 0.7584 โ
|
| 38 |
+
โ arabic_sts_matryoshka โ 0.6413 โ 0.5828 โ 0.4840 โ 0.5457 โ 0.5494 โ 0.8290 โ 0.6242 โ 0.8740 โ
|
| 39 |
+
โ silma_ai_embedding_sts_v0.1 โ 0.6138 โ 0.3799 โ 0.5011 โ 0.5600 โ 0.5749 โ 0.8559 โ 0.6122 โ 0.8125 โ
|
| 40 |
+
โ Arabic-MiniLM-L12-v2-all-nli-triplet โ 0.5431 โ 0.2240 โ 0.3612 โ 0.4775 โ 0.5698 โ 0.8111 โ 0.5540 โ 0.8043 โ
|
| 41 |
+
โ paraphrase-multilingual-MiniLM-L12-v2 โ 0.5208 โ 0.2191 โ 0.3496 โ 0.4515 โ 0.5573 โ 0.7916 โ 0.4908 โ 0.7859 โ
|
| 42 |
+
โ bojji โ 0.5177 โ 0.2941 โ 0.3989 โ 0.4667 โ 0.5433 โ 0.7233 โ 0.5880 โ 0.6094 โ
|
| 43 |
+
โ zarra โ 0.4822 โ 0.2295 โ 0.3473 โ 0.4119 โ 0.5237 โ 0.6469 โ 0.6218 โ 0.5942 โ
|
| 44 |
+
โ potion-multilingual-128M โ 0.4699 โ 0.1658 โ 0.3150 โ 0.4285 โ 0.5338 โ 0.6511 โ 0.5951 โ 0.5999 โ
|
| 45 |
+
โ all_minilm_l6_v2 โ 0.2843 โ 0.0005 โ 0.0064 โ 0.1905 โ 0.4934 โ 0.5089 โ 0.2518 โ 0.5384 โ
|
| 46 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโดโโโโโโโโโดโโโโโโโโโดโโโโโโโโโดโโโโโโโโโดโโโโโโโโโดโโโโโโโโโดโโโโโโโโโดโโโโโโโโโ
|
| 47 |
+
|
| 48 |
+
|
| 49 |
+
|
| 50 |
+
Sorted by STS17_main (Score)
|
| 51 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโณโโโโโโโโโโโโโ
|
| 52 |
+
โ Model Name โ STS17_main โ
|
| 53 |
+
โกโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฉ
|
| 54 |
+
โ silma_ai_embedding_sts_v0.1 โ 0.856 โ
|
| 55 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 56 |
+
โ arabic_triplet_matryoshka_v2 โ 0.853 โ
|
| 57 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 58 |
+
โ muffakir_embedding โ 0.849 โ
|
| 59 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 60 |
+
โ arabic_sts_matryoshka โ 0.829 โ
|
| 61 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 62 |
+
โ gate_arabert-v1 โ 0.828 โ
|
| 63 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 64 |
+
โ Arabic-MiniLM-L12-v2-all-nli-triplet โ 0.811 โ
|
| 65 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 66 |
+
โ arabic_retrieval_v1.0 โ 0.800 โ
|
| 67 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 68 |
+
โ paraphrase-multilingual-MiniLM-L12-v2 โ 0.792 โ
|
| 69 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 70 |
+
โ get_multilingual_base โ 0.788 โ
|
| 71 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 72 |
+
โ bojji โ 0.723 โ
|
| 73 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 74 |
+
โ potion-multilingual-128M โ 0.651 โ
|
| 75 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 76 |
+
โ zarra โ 0.647 โ
|
| 77 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโค
|
| 78 |
+
โ all_minilm_l6_v2 โ 0.509 โ
|
| 79 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโดโโโโโโโโโโโโโ
|
| 80 |
+
|
| 81 |
+
Sorted by STS22.v2_main (Score)
|
| 82 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโณโโโโโโโโโโโโโโโโ
|
| 83 |
+
โ Model Name โ STS22.v2_main โ
|
| 84 |
+
โกโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฉ
|
| 85 |
+
โ arabic_triplet_matryoshka_v2 โ 0.640 โ
|
| 86 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 87 |
+
โ gate_arabert-v1 โ 0.631 โ
|
| 88 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 89 |
+
โ muffakir_embedding โ 0.629 โ
|
| 90 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 91 |
+
โ arabic_retrieval_v1.0 โ 0.625 โ
|
| 92 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 93 |
+
โ arabic_sts_matryoshka โ 0.624 โ
|
| 94 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 95 |
+
โ zarra โ 0.622 โ
|
| 96 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 97 |
+
โ get_multilingual_base โ 0.615 โ
|
| 98 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 99 |
+
โ silma_ai_embedding_sts_v0.1 โ 0.612 โ
|
| 100 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 101 |
+
โ potion-multilingual-128M โ 0.595 โ
|
| 102 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 103 |
+
โ bojji โ 0.588 โ
|
| 104 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 105 |
+
โ Arabic-MiniLM-L12-v2-all-nli-triplet โ 0.554 โ
|
| 106 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 107 |
+
โ paraphrase-multilingual-MiniLM-L12-v2 โ 0.491 โ
|
| 108 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโค
|
| 109 |
+
โ all_minilm_l6_v2 โ 0.252 โ
|
| 110 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโดโโโโโโโโโโโโโโโโ
|
| 111 |
+
|
| 112 |
+
|
| 113 |
+
## Speed
|
| 114 |
+
|
| 115 |
+
Model Benchmark Results
|
| 116 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโณโโโโโโโโโโโโโโโโโโโโโโโโโโโณโโโโโโโโโ
|
| 117 |
+
โ Model โ Speed (sentences/second) โ Device โ
|
| 118 |
+
โกโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฉ
|
| 119 |
+
โ zarra โ 26893.63 โ cpu โ
|
| 120 |
+
โ bojji โ 27478.15 โ cpu โ
|
| 121 |
+
โ potion-multilingual-128M โ 27145.31 โ cpu โ
|
| 122 |
+
โ paraphrase-multilingual-MiniLM-L12-v2 โ 2363.24 โ cuda โ
|
| 123 |
+
โ silma_ai_embedding_sts_v0.1 โ 627.13 โ cuda โ
|
| 124 |
+
โ muffakir_embedding โ 621.77 โ cuda โ
|
| 125 |
+
โ get_multilingual_base โ 895.41 โ cuda โ
|
| 126 |
+
โ arabic_retrieval_v1.0 โ 618.56 โ cuda โ
|
| 127 |
+
โ arabic_triplet_matryoshka_v2 โ 610.64 โ cuda โ
|
| 128 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโดโโโโโโโโโโโโโโโโโโโโโโโโโโโดโโโโโโโโโ
|
| 129 |
+
|
| 130 |
+
## Size of the model
|
| 131 |
+
|
| 132 |
+
Model Information Results
|
| 133 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโณโโโโโโโโโโโโโโโโโณโโโโโโโโโโโโณโโโโโโโโโโโโโโโโโโโโโโโโโโณโโโโโโโโโโโโโโโโโโโโโโโโ
|
| 134 |
+
โ Model โ Parameters (M) โ Size (MB) โ Relative to Largest (%) โ Less than Largest (x) โ
|
| 135 |
+
โกโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฉ
|
| 136 |
+
โ zarra โ 64.00 โ 244.14 โ 41.92 โ 2.39 โ
|
| 137 |
+
โ bojji โ 124.88 โ 476.40 โ 81.79 โ 1.22 โ
|
| 138 |
+
โ potion-multilingual-128M โ 128.09 โ 488.63 โ 83.89 โ 1.19 โ
|
| 139 |
+
โ paraphrase-multilingual-MiniLM-โฆ โ 117.65 โ 448.82 โ 77.06 โ 1.30 โ
|
| 140 |
+
โ silma_ai_embedding_sts_v0.1 โ 135.19 โ 515.72 โ 88.54 โ 1.13 โ
|
| 141 |
+
โ muffakir_embedding โ 135.19 โ 515.72 โ 88.54 โ 1.13 โ
|
| 142 |
+
โ arabic_retrieval_v1.0 โ 135.19 โ 515.73 โ 88.54 โ 1.13 โ
|
| 143 |
+
โ arabic_triplet_matryoshka_v2 โ 135.19 โ 515.72 โ 88.54 โ 1.13 โ
|
| 144 |
+
โ get_multilingual_base โ 305.37 โ 582.45 โ 100.00 โ 1.00 โ
|
| 145 |
+
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโดโโโโโโโโโโโโโโโโโดโโโโโโโโโโโโดโโโโโโโโโโโโโโโโโโโโโโโโโโดโโโโโโโโโโโโโโโโโโโโโโโโ
|
| 146 |
+
|
| 147 |
## Installation
|
| 148 |
|
| 149 |
+
|
| 150 |
Install model2vec using pip:
|
| 151 |
```
|
| 152 |
pip install model2vec
|