Chimalpopoka
/

CrossEncoderRanker

@@ -4,7 +4,7 @@ tags:
 - cross-encoder
 - reranker
 - generated_from_trainer
-- dataset_size:64800
 - loss:CrossEntropyLoss
 base_model: deepvk/USER-bge-m3
 pipeline_tag: text-classification
@@ -24,13 +24,13 @@ model-index:
       type: softmax_accuracy_eval
     metrics:
     - type: f1_macro
-      value: 0.9854186637285883
       name: F1 Macro
     - type: f1_micro
-      value: 0.9854186918483544
       name: F1 Micro
     - type: f1_weighted
-      value: 0.9854186327968456
       name: F1 Weighted
 ---
@@ -74,11 +74,11 @@ from sentence_transformers import CrossEncoder
 model = CrossEncoder("Chimalpopoka/CrossEncoderRanker")
 # Get scores for pairs of texts
 pairs = [
-    ['Яичный белок (f1) IgE, ImmunoCAP', 'Яичный белок, IgE, аллерген - f1. Метод: ImmunoCAP'],
-    ['АТ к легионелле IgA Legionella pneumophila IgA) детское отделение', 'Посев на микрофлору (урогенитальный тракт), женщины, качественно. Метод: ИФА'],
-    ['Определение ДНК вируса гепатита B (HepАtitis B virus) в крови методом ПЦР, количественное исследование', 'Хламидия пневмония (Chlamydia pneumoniae). Антитела IgA, количественно. Метод: ИФА'],
-    ['Соматотропный гормон (СТГ) (кровь-сыворотка)', 'Соматотропный гормон'],
-    ['на яйца остриц (Enterobius vermicularis)', 'Яйца остриц (Enterobius vermicularis), перианальные складки, качественно. Метод: ИФА'],
 ]
 scores = model.predict(pairs)
 print(scores.shape)
@@ -120,9 +120,9 @@ You can finetune this model on your own dataset.
 | Metric       | Value      |
 |:-------------|:-----------|
-| **f1_macro** | **0.9854** |
-| f1_micro     | 0.9854     |
-| f1_weighted  | 0.9854     |
 <!--
 ## Bias, Risks and Limitations
@@ -142,19 +142,19 @@ You can finetune this model on your own dataset.
 #### Unnamed Dataset
-* Size: 64,800 training samples
 * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
 * Approximate statistics based on the first 1000 samples:
   |         | sentence_0                                                                                     | sentence_1                                                                                     | label                                           |
   |:--------|:-----------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------|:------------------------------------------------|
   | type    | string                                                                                         | string                                                                                         | int                                             |
-  | details | <ul><li>min: 5 characters</li><li>mean: 64.06 characters</li><li>max: 480 characters</li></ul> | <ul><li>min: 3 characters</li><li>mean: 65.64 characters</li><li>max: 442 characters</li></ul> | <ul><li>0: ~49.70%</li><li>1: ~50.30%</li></ul> |
 * Samples:
-  | sentence_0                                                                                                          | sentence_1                                                                                      | label          |
-  |:--------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------|:---------------|
-  | <code>Яичный белок (f1) IgE, ImmunoCAP</code>                                                                       | <code>Яичный белок, IgE, аллерген - f1. Метод: ImmunoCAP</code>                                 | <code>1</code> |
-  | <code>АТ к легионелле IgA Legionella pneumophila IgA) детское отделение</code>                                      | <code>Посев на микрофлору (урогенитальный тракт), женщины, качественно. Метод: ИФА</code>       | <code>0</code> |
-  | <code>Определение ДНК вируса гепатита B (HepАtitis B virus) в крови методом ПЦР, количественное исследование</code> | <code>Хламидия пневмония (Chlamydia pneumoniae). Антитела IgA, количественно. Метод: ИФА</code> | <code>0</code> |
 * Loss: [<code>CrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#crossentropyloss)
 ### Training Hyperparameters
@@ -287,24 +287,28 @@ You can finetune this model on your own dataset.
 </details>
 ### Training Logs
-| Epoch  | Step | Training Loss | softmax_accuracy_eval_f1_macro |
-|:------:|:----:|:-------------:|:------------------------------:|
-| 0.0617 | 500  | 0.4739        | -                              |
-| 0.1235 | 1000 | 0.1631        | -                              |
-| 0.1852 | 1500 | 0.1357        | -                              |
-| 0.2469 | 2000 | 0.113         | 0.9804                         |
-| 0.3086 | 2500 | 0.1382        | -                              |
-| 0.3704 | 3000 | 0.1105        | -                              |
-| 0.4321 | 3500 | 0.1154        | -                              |
-| 0.4938 | 4000 | 0.1136        | 0.9822                         |
-| 0.5556 | 4500 | 0.0976        | -                              |
-| 0.6173 | 5000 | 0.0861        | -                              |
-| 0.6790 | 5500 | 0.0933        | -                              |
-| 0.7407 | 6000 | 0.0927        | 0.9842                         |
-| 0.8025 | 6500 | 0.0841        | -                              |
-| 0.8642 | 7000 | 0.0764        | -                              |
-| 0.9259 | 7500 | 0.0824        | -                              |
-| 0.9877 | 8000 | 0.0667        | 0.9854                         |
 ### Framework Versions

 - cross-encoder
 - reranker
 - generated_from_trainer
+- dataset_size:82796
 - loss:CrossEntropyLoss
 base_model: deepvk/USER-bge-m3
 pipeline_tag: text-classification
       type: softmax_accuracy_eval
     metrics:
     - type: f1_macro
+      value: 0.9771728083627488
       name: F1 Macro
     - type: f1_micro
+      value: 0.9771739130434782
       name: F1 Micro
     - type: f1_weighted
+      value: 0.9771740511285696
       name: F1 Weighted
 ---
 model = CrossEncoder("Chimalpopoka/CrossEncoderRanker")
 # Get scores for pairs of texts
 pairs = [
+    ['Панель №6 IgE (Сазан, карп, щука, судак, кефаль, ледяная рыба, пикша, осетр)', 'Сазан, (Cyprinus carpio), IgE, аллерген - e82. Метод: ИФА'],
+    ['Определение антител класса M (IgM) к цитомегаловирусу (CytomegАlovirus) в крови', 'Бактериологическое исследование гнойного отделяемого: На аэробные и факультативно-анаэробные микроорганизмы. Метод: культуральный'],
+    ['Исследования уровня бетта-изомеризованного C-концевого телопептида коллагена 1 типа (Beta-Cross laps) в крови', 'Глюкоза, в венозной крови'],
+    ['Посев кала на диарогенные эшерихиозы (E. coli), закл., Кал', 'Коклюш (Bordetella pertussis): Антитела: IgG, (количественно). Метод: ИФА'],
+    ['Ультразвуковое исследование поджелудочной железы (детям)', 'УЗИ поджелудочной железы, для детей'],
 ]
 scores = model.predict(pairs)
 print(scores.shape)
 | Metric       | Value      |
 |:-------------|:-----------|
+| **f1_macro** | **0.9772** |
+| f1_micro     | 0.9772     |
+| f1_weighted  | 0.9772     |
 <!--
 ## Bias, Risks and Limitations
 #### Unnamed Dataset
+* Size: 82,796 training samples
 * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
 * Approximate statistics based on the first 1000 samples:
   |         | sentence_0                                                                                     | sentence_1                                                                                     | label                                           |
   |:--------|:-----------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------|:------------------------------------------------|
   | type    | string                                                                                         | string                                                                                         | int                                             |
+  | details | <ul><li>min: 4 characters</li><li>mean: 66.18 characters</li><li>max: 504 characters</li></ul> | <ul><li>min: 3 characters</li><li>mean: 62.27 characters</li><li>max: 385 characters</li></ul> | <ul><li>0: ~50.60%</li><li>1: ~49.40%</li></ul> |
 * Samples:
+  | sentence_0                                                                                                                 | sentence_1                                                                                                                                     | label          |
+  |:---------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
+  | <code>Панель №6 IgE (Сазан, карп, щука, судак, кефаль, ледяная рыба, пикша, осетр)</code>                                  | <code>Сазан, (Cyprinus carpio), IgE, аллерген - e82. Метод: ИФА</code>                                                                         | <code>1</code> |
+  | <code>Определение антител класса M (IgM) к цитомегаловирусу (CytomegАlovirus) в крови</code>                               | <code>Бактериологическое исследование гнойного отделяемого: На аэробные и факультативно-анаэробные микроорганизмы. Метод: культуральный</code> | <code>0</code> |
+  | <code>Исследования уровня бетта-изомеризованного C-концевого телопептида коллагена 1 типа (Beta-Cross laps) в крови</code> | <code>Глюкоза, в венозной крови</code>                                                                                                         | <code>0</code> |
 * Loss: [<code>CrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#crossentropyloss)
 ### Training Hyperparameters
 </details>
 ### Training Logs
+| Epoch  | Step  | Training Loss | softmax_accuracy_eval_f1_macro |
+|:------:|:-----:|:-------------:|:------------------------------:|
+| 0.0483 | 500   | 0.5573        | -                              |
+| 0.0966 | 1000  | 0.2189        | -                              |
+| 0.1449 | 1500  | 0.2144        | -                              |
+| 0.1932 | 2000  | 0.1876        | 0.9683                         |
+| 0.2415 | 2500  | 0.1812        | -                              |
+| 0.2899 | 3000  | 0.1657        | -                              |
+| 0.3382 | 3500  | 0.1796        | -                              |
+| 0.3865 | 4000  | 0.1592        | 0.9702                         |
+| 0.4348 | 4500  | 0.156         | -                              |
+| 0.4831 | 5000  | 0.1491        | -                              |
+| 0.5314 | 5500  | 0.1555        | -                              |
+| 0.5797 | 6000  | 0.1216        | 0.9683                         |
+| 0.6280 | 6500  | 0.1276        | -                              |
+| 0.6763 | 7000  | 0.1305        | -                              |
+| 0.7246 | 7500  | 0.1156        | -                              |
+| 0.7729 | 8000  | 0.1197        | 0.9759                         |
+| 0.8213 | 8500  | 0.1215        | -                              |
+| 0.8696 | 9000  | 0.1065        | -                              |
+| 0.9179 | 9500  | 0.0896        | -                              |
+| 0.9662 | 10000 | 0.1135        | 0.9772                         |
 ### Framework Versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09d83545dac14a4094a170564c150db2caede6bac78dc9404b4bc576877d3b3d
 size 1436163192

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed49e2e839ea10f57c59bb591de5c8959cc56706354a02d0c30591220f7f0da1
 size 1436163192