IDQO
/

arcade-reranker

@@ -4,9 +4,11 @@ tags:
 - cross-encoder
 - reranker
 - generated_from_trainer
-- dataset_size:313
 - loss:BinaryCrossEntropyLoss
 base_model: Alibaba-NLP/gte-reranker-modernbert-base
 pipeline_tag: text-ranking
 library_name: sentence-transformers
 metrics:
@@ -24,13 +26,13 @@ model-index:
       type: NanoMSMARCO_R100
     metrics:
     - type: map
-      value: 0.6176
       name: Map
     - type: mrr@10
-      value: 0.6097
       name: Mrr@10
     - type: ndcg@10
-      value: 0.6695
       name: Ndcg@10
   - task:
       type: cross-encoder-reranking
@@ -40,13 +42,13 @@ model-index:
       type: NanoNFCorpus_R100
     metrics:
     - type: map
-      value: 0.4046
       name: Map
     - type: mrr@10
-      value: 0.6517
       name: Mrr@10
     - type: ndcg@10
-      value: 0.4646
       name: Ndcg@10
   - task:
       type: cross-encoder-reranking
@@ -56,13 +58,13 @@ model-index:
       type: NanoNQ_R100
     metrics:
     - type: map
-      value: 0.6856
       name: Map
     - type: mrr@10
-      value: 0.7087
       name: Mrr@10
     - type: ndcg@10
-      value: 0.7386
       name: Ndcg@10
   - task:
       type: cross-encoder-nano-beir
@@ -72,28 +74,29 @@ model-index:
       type: NanoBEIR_R100_mean
     metrics:
     - type: map
-      value: 0.5692
       name: Map
     - type: mrr@10
-      value: 0.6567
       name: Mrr@10
     - type: ndcg@10
-      value: 0.6242
       name: Ndcg@10
 ---
 # CrossEncoder based on Alibaba-NLP/gte-reranker-modernbert-base
-This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [Alibaba-NLP/gte-reranker-modernbert-base](https://huggingface.co/Alibaba-NLP/gte-reranker-modernbert-base) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
 ## Model Details
 ### Model Description
 - **Model Type:** Cross Encoder
 - **Base model:** [Alibaba-NLP/gte-reranker-modernbert-base](https://huggingface.co/Alibaba-NLP/gte-reranker-modernbert-base) <!-- at revision f7481e6055501a30fb19d090657df9ec1f79ab2c -->
-- **Maximum Sequence Length:** 512 tokens
 - **Number of Output Labels:** 1 label
-<!-- - **Training Dataset:** Unknown -->
 <!-- - **Language:** Unknown -->
 <!-- - **License:** Unknown -->
@@ -119,14 +122,14 @@ Then you can load this model and run inference.
 from sentence_transformers import CrossEncoder
 # Download from the 🤗 Hub
-model = CrossEncoder("IDQO/arcade-reranker")
 # Get scores for pairs of texts
 pairs = [
-    ['Ik ben op zoek naar info over magneetcontacten, die standaard deuren open houden, maar in geval van brand contact lossen en ervoor zorgen dat deuren sluiten. worden deze contacten gevoed vanuit de brandcentrale, of vanuit een voeding 230V AC , die geschakeld wordt vanuit de centrale? ', 'Issue: nu blijkt dat er ook een datacenter aangesloten gaat moeten worden.\nIn welke mate kan dat om met +-10% -> dit gaat meer algemeen moeten bekeken worden.\n- Hier is logica van antwoord dat de neteheerders zowiezo moeten voldoen aan een maximale marge van +-10% van hun uitgangsspanning.\n- Die norm is aangeleverd door Infrabel.\n- Dit betekent dat elektrische apparatuur die in het belgische net gezet wordt, moet bestand zijn aan schommelingen van +-10% Artikel 10. Variaties in spanning en frequentie\nDe DNB is ertoe gehouden de LS DNG een spanning op het Aansluitingspunt te verstrekken die minstens voldoet aan de norm NBN EN 50160 “spanningskarakteristieken in openbare elektriciteitsnetten”.\nEen klacht over de spanningskwaliteit kan ingediend worden bij de DNB. Op verzoek van de LS DNG informeert de DNB de LS DNG over de mogelijkheid en de voorwaarden om een meting ter controle van een klacht met betrekking tot de verandering van de geleverde spanning (amplitude) uit te voeren. Bij een klacht wordt een rapport met de resultaten en conclusies van de meting opgesteld. Dit alles gebeurt conform de bepalingen in het TRDE.\nVariaties in spanning en frequentie: net zoals andere storingen (zoals micro-onderbrekingen en spanningsdips) kunnen redelijkerwijs niet voorkomen worden gegeven de structuur van het elektriciteitsnet en de stand van de techniek De DNB is niet aansprakelijk voor schade als deze zich voordoet zonder overschrijding van de norm NBN EN 50160, en dit ongeacht de oorz'],
-    ['Ik ben op zoek naar info over magneetcontacten, die standaard deuren open houden, maar in geval van brand contact lossen en ervoor zorgen dat deuren sluiten. worden deze contacten gevoed vanuit de brandcentrale, of vanuit een voeding 230V AC , die geschakeld wordt vanuit de centrale? ', '2.7.1. Lichtberekeningen\nOmschrijving\nDe aannemer zal voor de uitvoering der werken een volledige lichtstudie ter goedkeuring voorleggen aan Opdrachtgever, Architect en Ingenieursbureau, en dit samen met de technische fiches van de voorgestelde armaturen indien een ander armatuur wordt voorgesteld dan beschreven in het lastenboek. Deze studie wordt opgemaakt per lokaal en bevat zowel de gewone verlichting als de veiligheidsverlichting. De studies worden uitwerken op basis van dezelfde voorwaarden als de studie van het ingenieursbureau planning, houdend met lichtsterkte, lichtverdeling en UGR. Deze studies worden indien nodig aangepast, net zolang tot het geheel van technische fiches en lichtstudies wordt goedgekeurd door de Opdrachtgever, Architect en Ingenieursbureau.'],
-    ['Ik ben op zoek naar info over magneetcontacten, die standaard deuren open houden, maar in geval van brand contact lossen en ervoor zorgen dat deuren sluiten. worden deze contacten gevoed vanuit de brandcentrale, of vanuit een voeding 230V AC , die geschakeld wordt vanuit de centrale? ', '## 2.1 Verlichting\n### 2.1.1 Verlichtingsarmaturen\nVoorlopige selectie van verlichtingsarmaturen. Resultaten uit Dialux simulaties toe te voegen.\n\n#### Gang/kantoor/vergaderzaal\nInteralu zal de leverancier zijn van het klimaat plafond en er zal gewerkt worden met bijhorende inbouw verlichtingsarmaturen.\n\n#### Inbouwplafondlampen sanitair/keuken\nDe inbouwplafondlampen worden ingewerkt in de 60 cm x 60 cm plafondtegels.'],
-    ['Ik ben op zoek naar info over magneetcontacten, die standaard deuren open houden, maar in geval van brand contact lossen en ervoor zorgen dat deuren sluiten. worden deze contacten gevoed vanuit de brandcentrale, of vanuit een voeding 230V AC , die geschakeld wordt vanuit de centrale? ', 'Omschrijving\nVoordat kan overgegaan worden tot oplevering van de installaties dient de aannemer de volledige installatie in dienst te stellen. Dit houdt in dat alle installaties moeten functioneren volgens de vereisten waarvoor ze ontworpen zijn. In het bijzonder wordt gedacht aan:\n* de automatische branddetectie-installatie\n* de verlichting en lichtbediening\n* de veiligheidsverlichting\n* databekabeling (koper en glasvezel)\n* de nood-voeding voor veiligheids en kritische installaties\nDe aannemer voorziet minstens 2 volledige dagen voor het bespreken van de installaties met en het opleiden van de afgevaardigden van de opdrachtgever (de gebruikers). Hierbij wordt alle nodige uitleg omtrent werking van de installaties verschaft.\nDe aannemer voorziet eveneens de tijd en ruimte om het testen van de installaties voor branddetectie, veiligheidsverlichting (eventueel koppeling met toegangscontrole voor ontgrendeling van vluchtdeuren) en noodstroom. Deze testen kunnen gebeuren in aanwezigheid van de afgevaardigde van de brandweer. De aannemer voorziet hiertoe tevens het nodige personeel om – indien nodig – installaties te resetten. Deze testen zullen herhaald worden zolang tot alle aanwezigen getuigen kunnen zijn van een perfect werkende installatie. #### 3.3. Oplevering\nMeting\nMeeteenheid: Globale Prijs (GP)\nAard van de overeenkomst: Forfaitaire Hoeveelheid (FH). Voorlopige oplevering\nDe installaties moeten volledig afgewerkt en gebruiksklaar zijn voor de datum die voorzien is in de '],
-    ['Ik ben op zoek naar info over magneetcontacten, die standaard deuren open houden, maar in geval van brand contact lossen en ervoor zorgen dat deuren sluiten. worden deze contacten gevoed vanuit de brandcentrale, of vanuit een voeding 230V AC , die geschakeld wordt vanuit de centrale? ', 'Aansluitveld Design permits\nVak van 15m x 10m te voorzien Design voorstudie\nGestart op basis van de info die we van Evonik hebben. Is 150kV dus oversized Vragen:\n- Op de inplanting van Engie Vilvoorde zie ik geen Tis voor de TFOs?\n  0 Dit is er wel bij Evonik\n- Ik ontbreek DV3? Misschien enkel aan de kant Elia? Houd rekening met de DV en DL, zie doc Elia | Spanning (in kV) | Afstand d1 (in m) | Afstand DL (in m) | Afstand DV (in m) |\n|---|---|---|---|\n| AREI art. 28 | AREI art. 266 | AREI art. 266 |\n| 380 | 6,10 | 2,50 | 4,50 |\n| 220 | 4,50 | 1,60 | 3,60 |\n| 150 | 3,80 | 1,20 | 3,20 |\n| 70 | 3,00 | 0,75 | 1,75 |\n| 36 | 2,66 | 0,38 | 1,38 |\n| 30 | 2,60 | 0,32 | 1,32 |\n| 15 | 2,50 | 0,16 | 1,16 |\n| 10 | 2,50 | 0,15 | 1,15 | De afstand tussen geleiders zou je zo kunnen afleiden\n\n<image>\nTechnical drawing showing structural details and dimensions, including measurements like 3500, 1400, 2400, 6600, and 2.45m.\n</image> 2.4m op 150 kV = 2 x DL\nDus op 70kV = 2 x DL = 2 x 0.75 = 1.5m\n➔ Ik heb aan Steven telkens 2m doorgegeven voor wat extra marge te hebben. ### Plaating TFO\nNadenken over hoe de TFO afgeladen gaat worden. ### 2 opties:\n* Oftwel met een kraan -> maar input gewicht nog nodig\n* Ofwel via jacks -> maar dan moet er wel ruimte zijn voor de logettes om ze erin te laden. ### Update\nMet kraan kan, zie input Aertsen. (gerekend met 100 ton, terwijl ik intussen info heb dat gewicht een 70 ton is.\nNadenken over afstempeling: de tijdelijke verhardingen voor afstempelen zijn nietver'],
 ]
 scores = model.predict(pairs)
 print(scores.shape)
@@ -134,13 +137,13 @@ print(scores.shape)
 # Or rank different texts based on similarity to a single text
 ranks = model.rank(
-    'Ik ben op zoek naar info over magneetcontacten, die standaard deuren open houden, maar in geval van brand contact lossen en ervoor zorgen dat deuren sluiten. worden deze contacten gevoed vanuit de brandcentrale, of vanuit een voeding 230V AC , die geschakeld wordt vanuit de centrale? ',
     [
-        'Issue: nu blijkt dat er ook een datacenter aangesloten gaat moeten worden.\nIn welke mate kan dat om met +-10% -> dit gaat meer algemeen moeten bekeken worden.\n- Hier is logica van antwoord dat de neteheerders zowiezo moeten voldoen aan een maximale marge van +-10% van hun uitgangsspanning.\n- Die norm is aangeleverd door Infrabel.\n- Dit betekent dat elektrische apparatuur die in het belgische net gezet wordt, moet bestand zijn aan schommelingen van +-10% Artikel 10. Variaties in spanning en frequentie\nDe DNB is ertoe gehouden de LS DNG een spanning op het Aansluitingspunt te verstrekken die minstens voldoet aan de norm NBN EN 50160 “spanningskarakteristieken in openbare elektriciteitsnetten”.\nEen klacht over de spanningskwaliteit kan ingediend worden bij de DNB. Op verzoek van de LS DNG informeert de DNB de LS DNG over de mogelijkheid en de voorwaarden om een meting ter controle van een klacht met betrekking tot de verandering van de geleverde spanning (amplitude) uit te voeren. Bij een klacht wordt een rapport met de resultaten en conclusies van de meting opgesteld. Dit alles gebeurt conform de bepalingen in het TRDE.\nVariaties in spanning en frequentie: net zoals andere storingen (zoals micro-onderbrekingen en spanningsdips) kunnen redelijkerwijs niet voorkomen worden gegeven de structuur van het elektriciteitsnet en de stand van de techniek De DNB is niet aansprakelijk voor schade als deze zich voordoet zonder overschrijding van de norm NBN EN 50160, en dit ongeacht de oorz',
-        '2.7.1. Lichtberekeningen\nOmschrijving\nDe aannemer zal voor de uitvoering der werken een volledige lichtstudie ter goedkeuring voorleggen aan Opdrachtgever, Architect en Ingenieursbureau, en dit samen met de technische fiches van de voorgestelde armaturen indien een ander armatuur wordt voorgesteld dan beschreven in het lastenboek. Deze studie wordt opgemaakt per lokaal en bevat zowel de gewone verlichting als de veiligheidsverlichting. De studies worden uitwerken op basis van dezelfde voorwaarden als de studie van het ingenieursbureau planning, houdend met lichtsterkte, lichtverdeling en UGR. Deze studies worden indien nodig aangepast, net zolang tot het geheel van technische fiches en lichtstudies wordt goedgekeurd door de Opdrachtgever, Architect en Ingenieursbureau.',
-        '## 2.1 Verlichting\n### 2.1.1 Verlichtingsarmaturen\nVoorlopige selectie van verlichtingsarmaturen. Resultaten uit Dialux simulaties toe te voegen.\n\n#### Gang/kantoor/vergaderzaal\nInteralu zal de leverancier zijn van het klimaat plafond en er zal gewerkt worden met bijhorende inbouw verlichtingsarmaturen.\n\n#### Inbouwplafondlampen sanitair/keuken\nDe inbouwplafondlampen worden ingewerkt in de 60 cm x 60 cm plafondtegels.',
-        'Omschrijving\nVoordat kan overgegaan worden tot oplevering van de installaties dient de aannemer de volledige installatie in dienst te stellen. Dit houdt in dat alle installaties moeten functioneren volgens de vereisten waarvoor ze ontworpen zijn. In het bijzonder wordt gedacht aan:\n* de automatische branddetectie-installatie\n* de verlichting en lichtbediening\n* de veiligheidsverlichting\n* databekabeling (koper en glasvezel)\n* de nood-voeding voor veiligheids en kritische installaties\nDe aannemer voorziet minstens 2 volledige dagen voor het bespreken van de installaties met en het opleiden van de afgevaardigden van de opdrachtgever (de gebruikers). Hierbij wordt alle nodige uitleg omtrent werking van de installaties verschaft.\nDe aannemer voorziet eveneens de tijd en ruimte om het testen van de installaties voor branddetectie, veiligheidsverlichting (eventueel koppeling met toegangscontrole voor ontgrendeling van vluchtdeuren) en noodstroom. Deze testen kunnen gebeuren in aanwezigheid van de afgevaardigde van de brandweer. De aannemer voorziet hiertoe tevens het nodige personeel om – indien nodig – installaties te resetten. Deze testen zullen herhaald worden zolang tot alle aanwezigen getuigen kunnen zijn van een perfect werkende installatie. #### 3.3. Oplevering\nMeting\nMeeteenheid: Globale Prijs (GP)\nAard van de overeenkomst: Forfaitaire Hoeveelheid (FH). Voorlopige oplevering\nDe installaties moeten volledig afgewerkt en gebruiksklaar zijn voor de datum die voorzien is in de ',
-        'Aansluitveld Design permits\nVak van 15m x 10m te voorzien Design voorstudie\nGestart op basis van de info die we van Evonik hebben. Is 150kV dus oversized Vragen:\n- Op de inplanting van Engie Vilvoorde zie ik geen Tis voor de TFOs?\n  0 Dit is er wel bij Evonik\n- Ik ontbreek DV3? Misschien enkel aan de kant Elia? Houd rekening met de DV en DL, zie doc Elia | Spanning (in kV) | Afstand d1 (in m) | Afstand DL (in m) | Afstand DV (in m) |\n|---|---|---|---|\n| AREI art. 28 | AREI art. 266 | AREI art. 266 |\n| 380 | 6,10 | 2,50 | 4,50 |\n| 220 | 4,50 | 1,60 | 3,60 |\n| 150 | 3,80 | 1,20 | 3,20 |\n| 70 | 3,00 | 0,75 | 1,75 |\n| 36 | 2,66 | 0,38 | 1,38 |\n| 30 | 2,60 | 0,32 | 1,32 |\n| 15 | 2,50 | 0,16 | 1,16 |\n| 10 | 2,50 | 0,15 | 1,15 | De afstand tussen geleiders zou je zo kunnen afleiden\n\n<image>\nTechnical drawing showing structural details and dimensions, including measurements like 3500, 1400, 2400, 6600, and 2.45m.\n</image> 2.4m op 150 kV = 2 x DL\nDus op 70kV = 2 x DL = 2 x 0.75 = 1.5m\n➔ Ik heb aan Steven telkens 2m doorgegeven voor wat extra marge te hebben. ### Plaating TFO\nNadenken over hoe de TFO afgeladen gaat worden. ### 2 opties:\n* Oftwel met een kraan -> maar input gewicht nog nodig\n* Ofwel via jacks -> maar dan moet er wel ruimte zijn voor de logettes om ze erin te laden. ### Update\nMet kraan kan, zie input Aertsen. (gerekend met 100 ton, terwijl ik intussen info heb dat gewicht een 70 ton is.\nNadenken over afstempeling: de tijdelijke verhardingen voor afstempelen zijn nietver',
     ]
 )
 # [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
@@ -187,9 +190,9 @@ You can finetune this model on your own dataset.
 | Metric      | NanoMSMARCO_R100     | NanoNFCorpus_R100    | NanoNQ_R100          |
 |:------------|:---------------------|:---------------------|:---------------------|
-| map         | 0.6176 (+0.1280)     | 0.4046 (+0.1436)     | 0.6856 (+0.2660)     |
-| mrr@10      | 0.6097 (+0.1322)     | 0.6517 (+0.1518)     | 0.7087 (+0.2820)     |
-| **ndcg@10** | **0.6695 (+0.1290)** | **0.4646 (+0.1395)** | **0.7386 (+0.2380)** |
 #### Cross Encoder Nano BEIR
@@ -211,9 +214,9 @@ You can finetune this model on your own dataset.
 | Metric      | Value                |
 |:------------|:---------------------|
-| map         | 0.5692 (+0.1792)     |
-| mrr@10      | 0.6567 (+0.1887)     |
-| **ndcg@10** | **0.6242 (+0.1688)** |
 <!--
 ## Bias, Risks and Limitations
@@ -231,26 +234,53 @@ You can finetune this model on your own dataset.
 ### Training Dataset
-#### Unnamed Dataset
-* Size: 313 training samples
-* Columns: <code>query</code>, <code>positive</code>, and <code>label</code>
-* Approximate statistics based on the first 313 samples:
-  |         | query                                                                                           | positive                                                                                           | label                                           |
-  |:--------|:------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------|:------------------------------------------------|
-  | type    | string                                                                                          | string                                                                                             | int                                             |
-  | details | <ul><li>min: 31 characters</li><li>mean: 92.31 characters</li><li>max: 558 characters</li></ul> | <ul><li>min: 64 characters</li><li>mean: 1031.69 characters</li><li>max: 1500 characters</li></ul> | <ul><li>0: ~30.35%</li><li>1: ~69.65%</li></ul> |
 * Samples:
-  | query                                                                                                                                                                                                                                                                                                      | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   | label          |
-  |:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
-  | <code>Ik ben op zoek naar info over magneetcontacten, die standaard deuren open houden, maar in geval van brand contact lossen en ervoor zorgen dat deuren sluiten. worden deze contacten gevoed vanuit de brandcentrale, of vanuit een voeding 230V AC , die geschakeld wordt vanuit de centrale? </code> | <code>Issue: nu blijkt dat er ook een datacenter aangesloten gaat moeten worden.<br>In welke mate kan dat om met +-10% -> dit gaat meer algemeen moeten bekeken worden.<br>- Hier is logica van antwoord dat de neteheerders zowiezo moeten voldoen aan een maximale marge van +-10% van hun uitgangsspanning.<br>- Die norm is aangeleverd door Infrabel.<br>- Dit betekent dat elektrische apparatuur die in het belgische net gezet wordt, moet bestand zijn aan schommelingen van +-10% Artikel 10. Variaties in spanning en frequentie<br>De DNB is ertoe gehouden de LS DNG een spanning op het Aansluitingspunt te verstrekken die minstens voldoet aan de norm NBN EN 50160 “spanningskarakteristieken in openbare elektriciteitsnetten”.<br>Een klacht over de spanningskwaliteit kan ingediend worden bij de DNB. Op verzoek van de LS DNG informeert de DNB de LS DNG over de mogelijkheid en de voorwaarden om een meting ter controle van een klacht met betrekking tot de verandering van de geleverde spanning (amplitude) uit te voeren. Bij een...</code> | <code>1</code> |
-  | <code>Ik ben op zoek naar info over magneetcontacten, die standaard deuren open houden, maar in geval van brand contact lossen en ervoor zorgen dat deuren sluiten. worden deze contacten gevoed vanuit de brandcentrale, of vanuit een voeding 230V AC , die geschakeld wordt vanuit de centrale? </code> | <code>2.7.1. Lichtberekeningen<br>Omschrijving<br>De aannemer zal voor de uitvoering der werken een volledige lichtstudie ter goedkeuring voorleggen aan Opdrachtgever, Architect en Ingenieursbureau, en dit samen met de technische fiches van de voorgestelde armaturen indien een ander armatuur wordt voorgesteld dan beschreven in het lastenboek. Deze studie wordt opgemaakt per lokaal en bevat zowel de gewone verlichting als de veiligheidsverlichting. De studies worden uitwerken op basis van dezelfde voorwaarden als de studie van het ingenieursbureau planning, houdend met lichtsterkte, lichtverdeling en UGR. Deze studies worden indien nodig aangepast, net zolang tot het geheel van technische fiches en lichtstudies wordt goedgekeurd door de Opdrachtgever, Architect en Ingenieursbureau.</code>                                                                                                                                                                                                                                             | <code>1</code> |
-  | <code>Ik ben op zoek naar info over magneetcontacten, die standaard deuren open houden, maar in geval van brand contact lossen en ervoor zorgen dat deuren sluiten. worden deze contacten gevoed vanuit de brandcentrale, of vanuit een voeding 230V AC , die geschakeld wordt vanuit de centrale? </code> | <code>## 2.1 Verlichting<br>### 2.1.1 Verlichtingsarmaturen<br>Voorlopige selectie van verlichtingsarmaturen. Resultaten uit Dialux simulaties toe te voegen.<br><br>#### Gang/kantoor/vergaderzaal<br>Interalu zal de leverancier zijn van het klimaat plafond en er zal gewerkt worden met bijhorende inbouw verlichtingsarmaturen.<br><br>#### Inbouwplafondlampen sanitair/keuken<br>De inbouwplafondlampen worden ingewerkt in de 60 cm x 60 cm plafondtegels.</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 | <code>1</code> |
 * Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
   ```json
   {
       "activation_fn": "torch.nn.modules.linear.Identity",
-      "pos_weight": 5
   }
   ```
@@ -258,12 +288,13 @@ You can finetune this model on your own dataset.
 #### Non-Default Hyperparameters
 - `per_device_train_batch_size`: 16
-- `learning_rate`: 2e-05
 - `warmup_steps`: 0.1
 - `bf16`: True
-- `eval_strategy`: epoch
 - `push_to_hub`: True
-- `hub_model_id`: IDQO/arcade-reranker
 - `load_best_model_at_end`: True
 #### All Hyperparameters
@@ -272,7 +303,7 @@ You can finetune this model on your own dataset.
 - `per_device_train_batch_size`: 16
 - `num_train_epochs`: 3
 - `max_steps`: -1
-- `learning_rate`: 2e-05
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: None
 - `warmup_steps`: 0.1
@@ -311,8 +342,8 @@ You can finetune this model on your own dataset.
 - `disable_tqdm`: False
 - `project`: huggingface
 - `trackio_space_id`: trackio
-- `eval_strategy`: epoch
-- `per_device_eval_batch_size`: 8
 - `prediction_loss_only`: True
 - `eval_on_start`: False
 - `eval_do_concat_batches`: True
@@ -325,7 +356,7 @@ You can finetune this model on your own dataset.
 - `enable_jit_checkpoint`: False
 - `push_to_hub`: True
 - `hub_private_repo`: None
-- `hub_model_id`: IDQO/arcade-reranker
 - `hub_strategy`: every_save
 - `hub_always_push`: False
 - `hub_revision`: None
@@ -370,14 +401,24 @@ You can finetune this model on your own dataset.
 </details>
 ### Training Logs
-| Epoch   | Step   | Training Loss | NanoMSMARCO_R100_ndcg@10 | NanoNFCorpus_R100_ndcg@10 | NanoNQ_R100_ndcg@10  | NanoBEIR_R100_mean_ndcg@10 |
-|:-------:|:------:|:-------------:|:------------------------:|:-------------------------:|:--------------------:|:--------------------------:|
-| 0.5     | 10     | 1.1028        | -                        | -                         | -                    | -                          |
-| **1.0** | **20** | **1.0273**    | **0.6969 (+0.1565)**     | **0.4622 (+0.1372)**      | **0.7513 (+0.2506)** | **0.6368 (+0.1814)**       |
-| 1.5     | 30     | 0.6718        | -                        | -                         | -                    | -                          |
-| 2.0     | 40     | 0.5917        | 0.6695 (+0.1290)         | 0.4681 (+0.1431)          | 0.7472 (+0.2466)     | 0.6283 (+0.1729)           |
-| 2.5     | 50     | 0.3304        | -                        | -                         | -                    | -                          |
-| 3.0     | 60     | 0.2509        | 0.6695 (+0.1290)         | 0.4646 (+0.1395)          | 0.7386 (+0.2380)     | 0.6242 (+0.1688)           |
 * The bold row denotes the saved checkpoint.

 - cross-encoder
 - reranker
 - generated_from_trainer
+- dataset_size:2277
 - loss:BinaryCrossEntropyLoss
 base_model: Alibaba-NLP/gte-reranker-modernbert-base
+datasets:
+- amanwithaplan/arcade-reranker-data
 pipeline_tag: text-ranking
 library_name: sentence-transformers
 metrics:
       type: NanoMSMARCO_R100
     metrics:
     - type: map
+      value: 0.5976
       name: Map
     - type: mrr@10
+      value: 0.5901
       name: Mrr@10
     - type: ndcg@10
+      value: 0.656
       name: Ndcg@10
   - task:
       type: cross-encoder-reranking
       type: NanoNFCorpus_R100
     metrics:
     - type: map
+      value: 0.4056
       name: Map
     - type: mrr@10
+      value: 0.6538
       name: Mrr@10
     - type: ndcg@10
+      value: 0.4606
       name: Ndcg@10
   - task:
       type: cross-encoder-reranking
       type: NanoNQ_R100
     metrics:
     - type: map
+      value: 0.6834
       name: Map
     - type: mrr@10
+      value: 0.7047
       name: Mrr@10
     - type: ndcg@10
+      value: 0.7415
       name: Ndcg@10
   - task:
       type: cross-encoder-nano-beir
       type: NanoBEIR_R100_mean
     metrics:
     - type: map
+      value: 0.5622
       name: Map
     - type: mrr@10
+      value: 0.6495
       name: Mrr@10
     - type: ndcg@10
+      value: 0.6194
       name: Ndcg@10
 ---
 # CrossEncoder based on Alibaba-NLP/gte-reranker-modernbert-base
+This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [Alibaba-NLP/gte-reranker-modernbert-base](https://huggingface.co/Alibaba-NLP/gte-reranker-modernbert-base) on the [arcade-reranker-data](https://huggingface.co/datasets/amanwithaplan/arcade-reranker-data) dataset using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
 ## Model Details
 ### Model Description
 - **Model Type:** Cross Encoder
 - **Base model:** [Alibaba-NLP/gte-reranker-modernbert-base](https://huggingface.co/Alibaba-NLP/gte-reranker-modernbert-base) <!-- at revision f7481e6055501a30fb19d090657df9ec1f79ab2c -->
+- **Maximum Sequence Length:** 1024 tokens
 - **Number of Output Labels:** 1 label
+- **Training Dataset:**
+    - [arcade-reranker-data](https://huggingface.co/datasets/amanwithaplan/arcade-reranker-data)
 <!-- - **Language:** Unknown -->
 <!-- - **License:** Unknown -->
 from sentence_transformers import CrossEncoder
 # Download from the 🤗 Hub
+model = CrossEncoder("idqo/arcade-reranker")
 # Get scores for pairs of texts
 pairs = [
+    ['Dus de einklant betaalt in totaal ook de onbalansprijs? Die dus bestaat uit het gewone tarief + verschil om tot onbalansprijs te komen?', 'Imbalance Price (Electricity Balancing Market): (a) each imbalance settlement period; (b) its imbalance price areas; (c) each imbalance direction. 4. The imbalance price for negative imbalance ...'],
+    ['Kun je een lijst geven van alle technische specificaties geven waar je rekening mee moet houden bij een transformator', 'Handmelders: Manuele brandmelders.'],
+    ['Wat weetje van dataloggers?', 'geen nummers op tellers. Facturatiegegevens?'],
+    ['Ik ben op zoek naar info over magneetcontacten, die standaard deuren open houden, maar in geval van brand contact lossen en ervoor zorgen dat deuren sluiten. worden deze contacten gevoed vanuit de brandcentrale, of vanuit een voeding 230V AC , die geschakeld wordt vanuit de centrale? ', 'Algemene beveiliging: Beveiligingscel: merk, type met zekering, type met relais en vermogenschakelaar, vermogen, relais.'],
+    ['Geef een overzicht van allemogelijke geldstromen in de verschillende transfer of energy regimes', 'Taksen, heffingen & accijnzen: Belastingen op elektriciteit.'],
 ]
 scores = model.predict(pairs)
 print(scores.shape)
 # Or rank different texts based on similarity to a single text
 ranks = model.rank(
+    'Dus de einklant betaalt in totaal ook de onbalansprijs? Die dus bestaat uit het gewone tarief + verschil om tot onbalansprijs te komen?',
     [
+        'Imbalance Price (Electricity Balancing Market): (a) each imbalance settlement period; (b) its imbalance price areas; (c) each imbalance direction. 4. The imbalance price for negative imbalance ...',
+        'Handmelders: Manuele brandmelders.',
+        'geen nummers op tellers. Facturatiegegevens?',
+        'Algemene beveiliging: Beveiligingscel: merk, type met zekering, type met relais en vermogenschakelaar, vermogen, relais.',
+        'Taksen, heffingen & accijnzen: Belastingen op elektriciteit.',
     ]
 )
 # [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
 | Metric      | NanoMSMARCO_R100     | NanoNFCorpus_R100    | NanoNQ_R100          |
 |:------------|:---------------------|:---------------------|:---------------------|
+| map         | 0.5976 (+0.1081)     | 0.4056 (+0.1446)     | 0.6834 (+0.2638)     |
+| mrr@10      | 0.5901 (+0.1126)     | 0.6538 (+0.1540)     | 0.7047 (+0.2780)     |
+| **ndcg@10** | **0.6560 (+0.1155)** | **0.4606 (+0.1355)** | **0.7415 (+0.2409)** |
 #### Cross Encoder Nano BEIR
 | Metric      | Value                |
 |:------------|:---------------------|
+| map         | 0.5622 (+0.1721)     |
+| mrr@10      | 0.6495 (+0.1815)     |
+| **ndcg@10** | **0.6194 (+0.1640)** |
 <!--
 ## Bias, Risks and Limitations
 ### Training Dataset
+#### arcade-reranker-data
+* Dataset: [arcade-reranker-data](https://huggingface.co/datasets/amanwithaplan/arcade-reranker-data) at [9e3c538](https://huggingface.co/datasets/amanwithaplan/arcade-reranker-data/tree/9e3c53897213f5842b1ae641563dd47d60b266ab)
+* Size: 2,277 training samples
+* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>label</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | sentence1                                                                                       | sentence2                                                                                          | label                                                          |
+  |:--------|:------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------|:---------------------------------------------------------------|
+  | type    | string                                                                                          | string                                                                                             | float                                                          |
+  | details | <ul><li>min: 2 characters</li><li>mean: 103.67 characters</li><li>max: 558 characters</li></ul> | <ul><li>min: 13 characters</li><li>mean: 518.43 characters</li><li>max: 25528 characters</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.31</li><li>max: 1.0</li></ul> |
 * Samples:
+  | sentence1                                                                                                               | sentence2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      | label                           |
+  |:------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|
+  | <code>Kan je daarvoor op het internet kijken?</code>                                                                    | <code>Er wordt gewerkt aan de datanetwerk-infrastructuur voor het project, waarbij energiemeters worden aangesloten op een fibernetwerk [5], [6], [7]. Er is een vaste internetverbinding aangevraagd, die door EXV wordt verzorgd en bij oplevering wordt overgedragen [4], [6], [8]. De Gateway van Tibo moet worden geïnstalleerd en verbonden met het netwerk, waarbij zowel 4G als een internetverbinding opties zijn, met redundantie als aanbeveling [2], [4], [6], [8]. Extravolt is verantwoordelijk voor het opzetten van de netwerkconfiguratie en stemt af met Tibo [4], [6]. Er wordt gekeken welke componenten verbinding maken met de cloud of internet, naast het EMS van Tibo, en hoe de batterij wordt uitgelezen door EXV voor de beschikbaarheidsgarantie, waarschijnlijk via VPN [2], [4], [6], [7], [8]. De meti</code>                                                                                                                                                                                                                                                                                                  | <code>0.6666666666666666</code> |
+  | <code>Geef een generieke template voor verlichtingsberekingen in een lastenboek</code>                                  | <code>Issue: nu blijkt dat er ook een datacenter aangesloten gaat moeten worden.<br>In welke mate kan dat om met +-10% -> dit gaat meer algemeen moeten bekeken worden.<br>- Hier is logica van antwoord dat de neteheerders zowiezo moeten voldoen aan een maximale marge van +-10% van hun uitgangsspanning.<br>- Die norm is aangeleverd door Infrabel.<br>- Dit betekent dat elektrische apparatuur die in het belgische net gezet wordt, moet bestand zijn aan schommelingen van +-10% Artikel 10. Variaties in spanning en frequ</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  | <code>0.0</code>                |
+  | <code>Moet er oven brandhaspels altijd een noodverlichting voorzien worden? In welke norm vind ik hier info over</code> | <code>REFERENTIENORMEN \| Standard \| Description \|<br>\|---\|---\|<br>\| NBN 01 \| Woordenlijst voor de verlichtingskunde (2001) \|<br>\| NBN EN 60598 (1989) \| Elektrische verlichtingstoestellen (1989) \|<br>\| NBN EN 60598-2-2 \| Verlichtingstoestellen - Deel twee : Bijzondere regels - Sectie twee : Inbouw verlichtingstoestellen (1990) \|<br>\| Reeks NBN 60598 \| Verlichtingsarmaturen \|<br>\| NBN C 20-530 \| Beschermingsgraden gegeven door de omhulsels (IP-Code) (1992) + add (1000) \|<br>\| NBN EN 60001 \| Lampen en in - houders alsmede kalibers voor controle van uitwisselbaarheid & veiligheid 1-3 (2003) \|<br>\| NBN EN 1838 \| Toegepaste verlichtingstechniek - Noodverlichting (1999) \|<br>\| NBN L 14-001 & 002 \| Binnenverlichting van de gebouwen (1974) \|<br>\| NBN EN 60335-1 \| Huishoudelijke en soortgelijke elektrische toestellen - Veiligheid - Deel 1 : Algemene eisen (2003) \|<br>\| NBN EN 12464 \| Binnenverlichting (2008) \|<br>\| NBN EN 1838 \| Veiligheidsverlichting (2013) \|<br>\| EN 12464-1 \| werkplekverlichting (2002) \|<br>\| ISO 3864-1 en ISO 3864-4 \| (fot...</code> | <code>0.0643</code>             |
 * Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
   ```json
   {
       "activation_fn": "torch.nn.modules.linear.Identity",
+      "pos_weight": null
+  }
+  ```
+### Evaluation Dataset
+#### arcade-reranker-data
+* Dataset: [arcade-reranker-data](https://huggingface.co/datasets/amanwithaplan/arcade-reranker-data) at [9e3c538](https://huggingface.co/datasets/amanwithaplan/arcade-reranker-data/tree/9e3c53897213f5842b1ae641563dd47d60b266ab)
+* Size: 400 evaluation samples
+* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>label</code>
+* Approximate statistics based on the first 400 samples:
+  |         | sentence1                                                                                        | sentence2                                                                                          | label                                                          |
+  |:--------|:-------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------|:---------------------------------------------------------------|
+  | type    | string                                                                                           | string                                                                                             | float                                                          |
+  | details | <ul><li>min: 27 characters</li><li>mean: 108.77 characters</li><li>max: 558 characters</li></ul> | <ul><li>min: 13 characters</li><li>mean: 404.07 characters</li><li>max: 11988 characters</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.32</li><li>max: 1.0</li></ul> |
+* Samples:
+  | sentence1                                                                                                                                            | sentence2                                                                                                                                                                                                         | label               |
+  |:-----------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------|
+  | <code>Dus de einklant betaalt in totaal ook de onbalansprijs? Die dus bestaat uit het gewone tarief + verschil om tot onbalansprijs te komen?</code> | <code>Imbalance Price (Electricity Balancing Market): (a) each imbalance settlement period; (b) its imbalance price areas; (c) each imbalance direction. 4. The imbalance price for negative imbalance ...</code> | <code>0.3</code>    |
+  | <code>Kun je een lijst geven van alle technische specificaties geven waar je rekening mee moet houden bij een transformator</code>                   | <code>Handmelders: Manuele brandmelders.</code>                                                                                                                                                                   | <code>0.2222</code> |
+  | <code>Wat weetje van dataloggers?</code>                                                                                                             | <code>geen nummers op tellers. Facturatiegegevens?</code>                                                                                                                                                         | <code>0.0256</code> |
+* Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
+  ```json
+  {
+      "activation_fn": "torch.nn.modules.linear.Identity",
+      "pos_weight": null
   }
   ```
 #### Non-Default Hyperparameters
 - `per_device_train_batch_size`: 16
+- `learning_rate`: 1e-05
 - `warmup_steps`: 0.1
 - `bf16`: True
+- `eval_strategy`: steps
+- `per_device_eval_batch_size`: 16
 - `push_to_hub`: True
+- `hub_model_id`: idqo/arcade-reranker
 - `load_best_model_at_end`: True
 #### All Hyperparameters
 - `per_device_train_batch_size`: 16
 - `num_train_epochs`: 3
 - `max_steps`: -1
+- `learning_rate`: 1e-05
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: None
 - `warmup_steps`: 0.1
 - `disable_tqdm`: False
 - `project`: huggingface
 - `trackio_space_id`: trackio
+- `eval_strategy`: steps
+- `per_device_eval_batch_size`: 16
 - `prediction_loss_only`: True
 - `eval_on_start`: False
 - `eval_do_concat_batches`: True
 - `enable_jit_checkpoint`: False
 - `push_to_hub`: True
 - `hub_private_repo`: None
+- `hub_model_id`: idqo/arcade-reranker
 - `hub_strategy`: every_save
 - `hub_always_push`: False
 - `hub_revision`: None
 </details>
 ### Training Logs
+| Epoch      | Step    | Training Loss | Validation Loss | NanoMSMARCO_R100_ndcg@10 | NanoNFCorpus_R100_ndcg@10 | NanoNQ_R100_ndcg@10  | NanoBEIR_R100_mean_ndcg@10 |
+|:----------:|:-------:|:-------------:|:---------------:|:------------------------:|:-------------------------:|:--------------------:|:--------------------------:|
+| 0.0070     | 1       | 0.9207        | -               | -                        | -                         | -                    | -                          |
+| 0.1748     | 25      | 0.7369        | 0.6563          | 0.6888 (+0.1484)         | 0.4617 (+0.1367)          | 0.7657 (+0.2651)     | 0.6387 (+0.1834)           |
+| 0.3497     | 50      | 0.6174        | 0.5945          | 0.6764 (+0.1360)         | 0.4403 (+0.1153)          | 0.7658 (+0.2652)     | 0.6275 (+0.1722)           |
+| 0.5245     | 75      | 0.5744        | 0.5895          | 0.6830 (+0.1426)         | 0.4403 (+0.1152)          | 0.7611 (+0.2605)     | 0.6281 (+0.1728)           |
+| 0.6993     | 100     | 0.5693        | 0.5709          | 0.6668 (+0.1264)         | 0.4510 (+0.1259)          | 0.7652 (+0.2646)     | 0.6277 (+0.1723)           |
+| 0.8741     | 125     | 0.5413        | 0.5636          | 0.6712 (+0.1308)         | 0.4434 (+0.1184)          | 0.7618 (+0.2611)     | 0.6255 (+0.1701)           |
+| 1.0490     | 150     | 0.5437        | 0.5832          | 0.6706 (+0.1302)         | 0.4441 (+0.1191)          | 0.7574 (+0.2568)     | 0.6240 (+0.1687)           |
+| 1.2238     | 175     | 0.5229        | 0.5676          | 0.6712 (+0.1308)         | 0.4608 (+0.1358)          | 0.7527 (+0.2521)     | 0.6283 (+0.1729)           |
+| 1.3986     | 200     | 0.5015        | 0.5471          | 0.6712 (+0.1308)         | 0.4611 (+0.1361)          | 0.7527 (+0.2520)     | 0.6283 (+0.1729)           |
+| 1.5734     | 225     | 0.4994        | 0.5501          | 0.6712 (+0.1308)         | 0.4641 (+0.1390)          | 0.7581 (+0.2575)     | 0.6311 (+0.1757)           |
+| 1.7483     | 250     | 0.4999        | 0.5465          | 0.6707 (+0.1303)         | 0.4570 (+0.1319)          | 0.7544 (+0.2537)     | 0.6274 (+0.1720)           |
+| 1.9231     | 275     | 0.4806        | 0.5441          | 0.6657 (+0.1253)         | 0.4646 (+0.1396)          | 0.7561 (+0.2555)     | 0.6288 (+0.1734)           |
+| **2.0979** | **300** | **0.4568**    | **0.5437**      | **0.6572 (+0.1168)**     | **0.4661 (+0.1411)**      | **0.7508 (+0.2502)** | **0.6247 (+0.1694)**       |
+| 2.2727     | 325     | 0.4482        | 0.5479          | 0.6556 (+0.1152)         | 0.4606 (+0.1355)          | 0.7579 (+0.2573)     | 0.6247 (+0.1693)           |
+| 2.4476     | 350     | 0.4549        | 0.5561          | 0.6560 (+0.1155)         | 0.4643 (+0.1392)          | 0.7494 (+0.2488)     | 0.6232 (+0.1679)           |
+| 2.6224     | 375     | 0.4399        | 0.5529          | 0.6560 (+0.1155)         | 0.4606 (+0.1355)          | 0.7415 (+0.2409)     | 0.6194 (+0.1640)           |
 * The bold row denotes the saved checkpoint.

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:164a7abb01147f2799c2712feaee2d0ee8b5bf6639d3cee2b4016c55df2eb058
 size 598436708

 version https://git-lfs.github.com/spec/v1
+oid sha256:8523ca4f076d27aef56aca3bc0a73def0de3230343682cb265084a24d8a763cb
 size 598436708