Chimalpopoka
/

CrossEncoderRanker

@@ -4,7 +4,7 @@ tags:
 - cross-encoder
 - reranker
 - generated_from_trainer
-- dataset_size:84982
 - loss:CrossEntropyLoss
 base_model: deepvk/USER-bge-m3
 pipeline_tag: text-classification
@@ -24,13 +24,13 @@ model-index:
       type: softmax_accuracy_eval
     metrics:
     - type: f1_macro
-      value: 0.9705029214992837
       name: F1 Macro
     - type: f1_micro
-      value: 0.9742240925828511
       name: F1 Micro
     - type: f1_weighted
-      value: 0.9741458333568638
       name: F1 Weighted
 ---
@@ -74,11 +74,11 @@ from sentence_transformers import CrossEncoder
 model = CrossEncoder("Chimalpopoka/CrossEncoderRanker")
 # Get scores for pairs of texts
 pairs = [
-    ['Флю-М - вакцинация против гриппа с осмотром врача амбулаторно', 'Вакцинация против гриппа. Вакцина: ФЛЮ-М (Россия)'],
-    ['Антитела к В-2 -гликопротеину', 'Антитела к бета-2-гликопротеину, суммарные'],
-    ['Триплексное (дуплексное) сканирование сосудов шеи и головы (внутричерепных) (высшая категория/кандидат медицинских наук)', 'УЗИ сосудов головы и шеи, без дополнительных методов'],
-    ['Посев (ухо прав) на грибы рода Candida с определением чувствительности к антимикотическим препаратам', 'Посев на грибы родов Candida, Aspergillus, Cryptococcus с подбором антимикотических препаратов для Candida spp. в соскобе из уха'],
-    ['Антиген СА 125', 'CA 125'],
 ]
 scores = model.predict(pairs)
 print(scores.shape)
@@ -120,9 +120,9 @@ You can finetune this model on your own dataset.
 | Metric       | Value      |
 |:-------------|:-----------|
-| **f1_macro** | **0.9705** |
 | f1_micro     | 0.9742     |
-| f1_weighted  | 0.9741     |
 <!--
 ## Bias, Risks and Limitations
@@ -142,19 +142,19 @@ You can finetune this model on your own dataset.
 #### Unnamed Dataset
-* Size: 84,982 training samples
 * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
 * Approximate statistics based on the first 1000 samples:
   |         | sentence_0                                                                                     | sentence_1                                                                                     | label                                           |
   |:--------|:-----------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------|:------------------------------------------------|
   | type    | string                                                                                         | string                                                                                         | int                                             |
-  | details | <ul><li>min: 6 characters</li><li>mean: 68.62 characters</li><li>max: 747 characters</li></ul> | <ul><li>min: 6 characters</li><li>mean: 63.12 characters</li><li>max: 300 characters</li></ul> | <ul><li>0: ~30.10%</li><li>1: ~69.90%</li></ul> |
 * Samples:
-  | sentence_0                                                                                                                            | sentence_1                                                        | label          |
-  |:--------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------|:---------------|
-  | <code>Флю-М - вакцинация против гриппа с осмотром врача амбулаторно</code>                                                            | <code>Вакцинация против гриппа. Вакцина: ФЛЮ-М (Россия)</code>    | <code>0</code> |
-  | <code>Антитела к В-2 -гликопротеину</code>                                                                                            | <code>Антитела к бета-2-гликопротеину, суммарные</code>           | <code>1</code> |
-  | <code>Триплексное (дуплексное) сканирование сосудов шеи и головы (внутричерепных) (высшая категория/кандидат медицинских наук)</code> | <code>УЗИ сосудов головы и шеи, без дополнительных методов</code> | <code>1</code> |
 * Loss: [<code>CrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#crossentropyloss)
 ### Training Hyperparameters
@@ -289,26 +289,30 @@ You can finetune this model on your own dataset.
 ### Training Logs
 | Epoch  | Step  | Training Loss | softmax_accuracy_eval_f1_macro |
 |:------:|:-----:|:-------------:|:------------------------------:|
-| 0.0471 | 500   | 0.5573        | -                              |
-| 0.0941 | 1000  | 0.2229        | -                              |
-| 0.1412 | 1500  | 0.1971        | -                              |
-| 0.1883 | 2000  | 0.2005        | 0.9569                         |
-| 0.2353 | 2500  | 0.2017        | -                              |
-| 0.2824 | 3000  | 0.1674        | -                              |
-| 0.3295 | 3500  | 0.1681        | -                              |
-| 0.3765 | 4000  | 0.1844        | 0.9636                         |
-| 0.4236 | 4500  | 0.1635        | -                              |
-| 0.4707 | 5000  | 0.1537        | -                              |
-| 0.5177 | 5500  | 0.1458        | -                              |
-| 0.5648 | 6000  | 0.1374        | 0.9675                         |
-| 0.6119 | 6500  | 0.1311        | -                              |
-| 0.6589 | 7000  | 0.1505        | -                              |
-| 0.7060 | 7500  | 0.1218        | -                              |
-| 0.7531 | 8000  | 0.1213        | 0.9694                         |
-| 0.8002 | 8500  | 0.1211        | -                              |
-| 0.8472 | 9000  | 0.1027        | -                              |
-| 0.8943 | 9500  | 0.142         | -                              |
-| 0.9414 | 10000 | 0.1204        | 0.9705                         |
 ### Framework Versions

 - cross-encoder
 - reranker
 - generated_from_trainer
+- dataset_size:98955
 - loss:CrossEntropyLoss
 base_model: deepvk/USER-bge-m3
 pipeline_tag: text-classification
       type: softmax_accuracy_eval
     metrics:
     - type: f1_macro
+      value: 0.9735865814643296
       name: F1 Macro
     - type: f1_micro
+      value: 0.9742221418234442
       name: F1 Micro
     - type: f1_weighted
+      value: 0.9741995358864729
       name: F1 Weighted
 ---
 model = CrossEncoder("Chimalpopoka/CrossEncoderRanker")
 # Get scores for pairs of texts
 pairs = [
+    ['Ультразвуковое исследование фолликулогенеза в режиме 3D/4D, кандидат медицинских наук, профессор, врач-эксперт', 'УЗИ мониторинг фолликулогенеза'],
+    ['Слива, IgG (F255, ImmunoCAP)', 'Слива, IgG, аллерген - f255. Метод: ImmunoCap'],
+    ['Проба Реберга (кровь, моча)', 'Микроскопическое исследование синовиальной жидкости'],
+    ['Йод (анализ на микроэлементы (Метод ИСП-МС))', 'Йод в сыворотке'],
+    ['Антитела к Варицелла-Зостер(anti-VZV), IgG (Кровь из вены),кол.', 'Грибы рода Candida (C. albicans, C. glabrata, C. krusei, C. parapsilosis, C. tropicalis): Типирование и количественное определение ДНК. Метод: реал-тайм ПЦР в моче'],
 ]
 scores = model.predict(pairs)
 print(scores.shape)
 | Metric       | Value      |
 |:-------------|:-----------|
+| **f1_macro** | **0.9736** |
 | f1_micro     | 0.9742     |
+| f1_weighted  | 0.9742     |
 <!--
 ## Bias, Risks and Limitations
 #### Unnamed Dataset
+* Size: 98,955 training samples
 * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
 * Approximate statistics based on the first 1000 samples:
   |         | sentence_0                                                                                     | sentence_1                                                                                     | label                                           |
   |:--------|:-----------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------|:------------------------------------------------|
   | type    | string                                                                                         | string                                                                                         | int                                             |
+  | details | <ul><li>min: 3 characters</li><li>mean: 67.08 characters</li><li>max: 602 characters</li></ul> | <ul><li>min: 5 characters</li><li>mean: 60.48 characters</li><li>max: 268 characters</li></ul> | <ul><li>0: ~41.70%</li><li>1: ~58.30%</li></ul> |
 * Samples:
+  | sentence_0                                                                                                                  | sentence_1                                                       | label          |
+  |:----------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------|:---------------|
+  | <code>Ультразвуковое исследование фолликулогенеза в режиме 3D/4D, кандидат медицинских наук, профессор, врач-эксперт</code> | <code>УЗИ мониторинг фолликулогенеза</code>                      | <code>1</code> |
+  | <code>Слива, IgG (F255, ImmunoCAP)</code>                                                                                   | <code>Слива, IgG, аллерген - f255. Метод: ImmunoCap</code>       | <code>1</code> |
+  | <code>Проба Реберга (кровь, моча)</code>                                                                                    | <code>Микроскопическое исследование синовиальной жидкости</code> | <code>0</code> |
 * Loss: [<code>CrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#crossentropyloss)
 ### Training Hyperparameters
 ### Training Logs
 | Epoch  | Step  | Training Loss | softmax_accuracy_eval_f1_macro |
 |:------:|:-----:|:-------------:|:------------------------------:|
+| 0.0404 | 500   | 0.5488        | -                              |
+| 0.0808 | 1000  | 0.2437        | -                              |
+| 0.1213 | 1500  | 0.2366        | -                              |
+| 0.1617 | 2000  | 0.1794        | 0.9631                         |
+| 0.2021 | 2500  | 0.2134        | -                              |
+| 0.2425 | 3000  | 0.1922        | -                              |
+| 0.2829 | 3500  | 0.1766        | -                              |
+| 0.3234 | 4000  | 0.1651        | 0.9618                         |
+| 0.3638 | 4500  | 0.1931        | -                              |
+| 0.4042 | 5000  | 0.1659        | -                              |
+| 0.4446 | 5500  | 0.1706        | -                              |
+| 0.4850 | 6000  | 0.1605        | 0.9663                         |
+| 0.5255 | 6500  | 0.1676        | -                              |
+| 0.5659 | 7000  | 0.1684        | -                              |
+| 0.6063 | 7500  | 0.1469        | -                              |
+| 0.6467 | 8000  | 0.1616        | 0.9716                         |
+| 0.6871 | 8500  | 0.1507        | -                              |
+| 0.7276 | 9000  | 0.1396        | -                              |
+| 0.7680 | 9500  | 0.1285        | -                              |
+| 0.8084 | 10000 | 0.1504        | 0.9735                         |
+| 0.8488 | 10500 | 0.1507        | -                              |
+| 0.8892 | 11000 | 0.1346        | -                              |
+| 0.9297 | 11500 | 0.119         | -                              |
+| 0.9701 | 12000 | 0.1144        | 0.9736                         |
 ### Framework Versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78e4d9a9c4b94e16d87ccbd5181a4ba594cd38655632b16876878328669fe359
 size 1436163192

 version https://git-lfs.github.com/spec/v1
+oid sha256:84bc05b19f72711914bb01a640d46161d4bda991bb51c7fb7933d5def80c282c
 size 1436163192