aimarsg's picture
Add new SentenceTransformer model
603963c verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - dense
  - generated_from_trainer
  - dataset_size:8700
  - loss:MultipleNegativesRankingLoss
base_model: intfloat/multilingual-e5-large
widget:
  - source_sentence: >-
      Zein da Mendizabal Mendizabalen iritzia Legebiltzarrean gauzez hitz
      egiteari buruz?
    sentences:
      - >-
        [TOPIC: Mozioa, Xabier Isasi Balanzategi EH Bildu taldeko
        legebiltzarkideak aurkeztua, euskaldunen hizkuntza eskubideak
        errespetarazteko Eusko Jaurlaritzak dituen asmoei buruz. Eztabaida eta
        behin betiko ebazpena]

        [MENDIZABAL MENDIZABAL, (EA-NV)]:

        Eskerrik asko, presidente andrea. Egia esan, ez nuen asmorik jaisteko,
        zeren eta, lehenago esan dudan bezala, erraza izan da hiruren artean
        gauzak adostea. Eta azkenetik hasiko naiz. Nik uste dut, Oyarzabal
        jauna, gauzez hitz egitea eta Legebiltzarrean hitz egitea baino
        aproposagorik ez dagoela eta gauzez hitz egin behar dela. Eta zuk esaten
        duzun bezala, "aunque el papel lo aguante todo", nik uste dut gauzez
        hitz egin behar dela eta hori dela (Date: 31.10.2013)
      - >-
        [TOPIC: Legez besteko proposamen hauek batera eztabaidatu eta behin
        betiko ebazpena hartzea: Elkarrekin Podemos-IU talde parlamentarioak
        egindako legez besteko proposamena, anbulantziak publifikatzeari buruz
        eta Euskal Talde Popularra-Ciudadanos talde parlamentarioak egindako
        legez besteko proposamena, Eusko Jaurlaritzak Arabako Lurralde
        Historikoan anbulantzia medikalizatuen hornidura handitu beharrari
        buruz]

        [GARRIDO KNÖRR, (PV-ETP)]:

        nolabaiteko eszeptizismoari eutsi behar diogula, alor horretako
        sailburua bera, Gobernu honetako diruak administratzen dituena denean…,
        eta berak esaten digunean aurrekontuak askotan ez direla egikaritzen,
        atzerapenak daudela eta diru-partida batzuk ez direla egikaritzen.
        Beraz, uste dut normala dela, sailburuak azaldu zuen eta baliabide
        horrekin lotuta dauden funtzionamendu-gastuekin zerikusia duen partida
        bat handitzeko konpromisoaz gain, behar besteko zuhurtasuna eduki
        dezagula hori egitate bihurtzen dela ikusi ahal izateko. Baina, (Date:
        15.12.2022)
      - >-
        Edozein eratara ere, gure taldeak hirueletasunaz hitz egitea baino
        gehiago nahiago du eleaniztasunez hitz egitea, aspaldi egin baikenuen
        eleaniztasunaren aldeko apustua. Ez da atzo goizeko gauza.
  - source_sentence: >-
      Zenbat kostatzen zaio Eusko Jaurlaritzari Bizigune programa erabiltzea
      etxebizitzak alokairuen merkatura ateratzeko?
    sentences:
      - >-
        [TOPIC: Galdera, Eneko Andueza Lorenzo Euskal Sozialistak taldeko
        legebiltzarkideak Ingurumen, Lurralde Plangintza eta Etxebizitzako
        sailburuari egina, Bizigune programaren helburuak betetzeari buruz]

        [ANDUEZA LORENZO, (SV-ES)]:

        badituzue eta argi erakusten dute: etxebizitza sozial bat Gobernutik
        bertatik sustatzeak 120.000 euro inguruko kostua du. Hori, jakina, askoz
        merkeagoa da helburuak kontuan hartzen baditugu eta aintzat hartzen
        badugu etxebizitzak abian jartzean edo alokairuen merkatura ateratzean,
        Bizigune programa erabiltzen bada, Sailari urtean 4.600 euro inguruko
        kostua eragiten diola. Hortaz, halako programek duten garrantzia kontuan
        hartuta, eta Gobernuak alokatzeko etxebizitzen politikak abian jartzeko
        orduan zehaztu dituen helburuak aintzat hartuta, (Date: 14.12.2018)
      - >-
        [TOPIC: Interpelazioa, María del Carmen López de Ocariz López de Munain
        Euskal Talde Popularreko legebiltzarkideak Ekonomiaren Garapen eta
        Lehiakortasuneko sailburuari egina, Kantauriko antxoaren elikadura
        kalitate eta segurtasunaren inguruan Eusko Jaurlaritzako Osasun eta
        Arrantza sailen artean izandako deskoordinazioari buruz]

        [LÓPEZ DE OCARIZ LÓPEZ DE MUNAIN, (PV-ETP)]:

        dagoela elikagaietan. Eta kontzeptu hori ere, ehuneko onargarriaren
        kontzeptu hori bera ere, batzuek ondo ulertzen badugu ere, beste batzuek
        ez. Hori horrela da. Betidanik egon da anisakisa; ez dugu ulertzen,
        beraz, alarma hori piztea, kalte egiten digu eta. Bizi guztian egon bada
        anisakisa, eta, azken bi urteotako kontua bada anisakisak gaixotutako
        pertsona-kopurua igo izana, zergatik egin da oraintxe justu, antxoaren
        kanpainaren hastapenetan, ohar hori? Zergatik? Hori al da (Date:
        30.05.2014)
      - >-
        [TOPIC: Galdera, Maddalen Iriarte Okiñena EH Bildu taldeko
        legebiltzarkideak lehendakariari egina, erabakitzeko eskubideari eta
        Araba, Bizkai eta Gipuzkoako estatus politiko berriari buruz]

        [JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]:

        eta printzipioak adostu daitezen". Adostasun hori lortzeko, duela
        bakarrik lau hilabete (herriari, eskatzen didazuna, herriari), duela lau
        hilabete, hemen bertan, ekarpen sakon bat egin nuen. Bost gogoeta izan
        ziren, Iriarte andrea, eta ez ditut errepikatuko. Badakit Alderdi
        Sozialistak bere planteamendua daukala, ezberdina, noski. Baina gauza
        bera gertatzen da EH Bildu, Elkarrekin Podemos eta Alderdi
        Popularrarekin. Bost alderdi, bost ikuspegi eta proposamen desberdinak.
        Euzko Alderdi Jeltzaleak ere argi (Date: 02.02.2018)
  - source_sentence: >-
      Noiz jarri zion Espainiako Gobernuak errekurtsoa Indarkeria Polizialen
      Biktimen Legeari?
    sentences:
      - >-
        [TOPIC: Galdera, Julen Arzuaga Gumuzio EH Bildu taldeko
        legebiltzarkideak Gobernantza Publiko eta Autogobernuko sailburuari
        egina, Indarkeria Polizialen Biktimen Legearen eteteari buruz]

        [ARZUAGA GUMUZIO, (EH Bildu)]:

        Erabaki bat hartu dugu Estatuaren biktimak errekonozitzeko eta
        erreparatzeko, eta Estatuak hori suspenditu du, eten du, eta lege gabe
        gaude momentu honetan. Eta jakin nahi dut nola kudeatu duzun errekurtso
        honen ibilbidea. Para ello, permítame ofrecerle una rápida secuencia
        cronológica: 2016ko abenduaren 1a, Deia egunkariko albistea: "Kontuak
        negoziatzen hasi aurretik, Rajoyk euskal legeei errekurtsoak jartzeari
        utz diezaiola eskatzen du Ortuzarrek". 2016ko abenduaren 14a, El País
        egunkarian: "Euskadiren (Date: 20.10.2017)
      - >-
        [TOPIC: Galdera, Amaia Martínez Grisaleña Talde Mistoko
        legebiltzarkideak lehendakariari egina, erakundeen egonkortasunari eta
        herritarrek erakundeetan sinetsi beharrari buruz]

        [JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]:

        egin duzu galdera. Sailburuak berak azaldu zituen hemen, eta abian
        jarritako neurrien berri eman du jada. Eguneratu egin da orain arte
        erabiltzen zen eta gripearen kanpainarekin bat zetorren txertaketaren
        barneko antolaketa-metodologia. Orain, Osakidetzako Asistentzia
        Zuzendaritzan zentralizatu da txertaketaren ardura, eguneratu egin da
        erakunde sanitario integratuekin eta osasun-zentroekin harremanetan
        jartzeko protokoloa, eta bitartekoak eta kontrolak indartu egin dira,
        hori berriro gerta ez dadin. Euzko Alderdi Jeltzaleari eta abarri (Date:
        05.02.2021)
      - >-
        Ebazpena eman ere eman zuen, errekurtsoa aztertzerakoan bazter utzi
        zuenean, legearen artikulu batzuk bakarrik kautelaz indargabetu
        zituenean, eta ez lege osoa.
  - source_sentence: Noiz hasi zen Frantzia familia-politikak aplikatzen?
    sentences:
      - >-
        [TOPIC: Mozioa, Laura Garrido Knörr Euskal Talde Popularreko
        legebiltzarkideak aurkeztua, euskal familiei laguntzeko politikak
        aldatzeari buruz. Eztabaida eta behin betiko ebazpena]

        [URRUTIA OIANGUREN, (EA-NV)]:

        familia-bizimodua bateratzeko laguntzak, eta seme-alabentzako eta
        kontziliaziorako familiapolitiketarako laguntzak. Frantziako adibidea
        ipini duzu, eta egia da, baina sailburuak ez dizu esan egia ez den ezer.
        Alegia, Frantziak hori Bigarren Mundu Gerraren ondoren abiarazi zuela
        ziurra da; ziurra den bezala une honetan ez dela bere helburuetara
        iristen, une honetan, eta hori egitate bat da; eta hori, tira, ez du
        izan behar demeritu bat sailburu andrearentzat. Gero, askotan esaten
        duzu zuk (Date: 07.02.2019)
      - >-
        [TOPIC: EH Bildu talde parlamentarioak egindako lege-proposamena,
        euskara jakiteko eskubidea bermatzeko. Aintzat hartzeari buruzko
        eztabaida eta behin betiko ebazpena]

        [ALDASORO ITURBE, (EA-NV)]:

        den, nik, horregatik, esan dut tristura lehen, debatea hori al da? Gaur
        egungo euskararen debatea horretara mugatu behar dugu edo horretara
        mugatzeak eramaten gaitu pentsatzera beste guztian dauzkagun gabeziak?
        Hau da, erabilera, inoiz ez du euskarak eduki gaur egun dituen hainbeste
        euskaldun. Nola jarriko ditugu horiek euskaraz bizitzen? Horrek behar du
        erronka, eta nik uste dut erronka zoragarri bat dela, elkarrekin egin
        beharrekoa: udalak, aldundiak, Jaurlaritzak eta alderdi ezberdinok;
        debate politikotik (Date: 19.11.2020)
      - >-
        [TOPIC: Galdera, Natalia Rojo Solana Euskal Sozialistak taldeko
        legebiltzarkideak Ekonomiaren Garapen eta Lehiakortasuneko sailburuari
        egina, hornidura elektrikoaren bermeei buruz]

        [ROJO SOLANA, (SV-ES)]:

        diru-sarrerak bermatzeko gure errenta edo gizartelarrialdietarako gure
        laguntza; ez ei daki eguneroegunero mozten diotela argia baten bati.
        Hala, bada, beste erkidego batzuetako gobernuek ez bezala, besoak
        gurutzatzen ditu Euskadikoak, eta isilik geratu. Horregatik, sailburu
        andrea, jakin nahi dugu zer kudeaketa-lan egin dituen Eusko
        Jaurlaritzak, Rajoyren Gobernuarekin dituen komunikazio-bide oparo
        horien bitartez, bermatzeko Euskadiko herritarrek ez dutela jasaten
        jarraitu beharko energia-fakturen igoera lazgarri hori. (Date:
        21.02.2014)
  - source_sentence: Zein da Eusko Jaurlaritzaren plana itsas ingurumena babesteko?
    sentences:
      - >-
        [TOPIC: Galdera, Muriel Larrea Laso Euskal Talde PopularraCiudadanos
        taldeko legebiltzarkideak Ekonomiaren Garapen, Jasangarritasun eta
        Ingurumeneko sailburuari egina, gure kostaldean itsas ingurumena
        babesteari buruz]

        [LARREA LASO, (PV-ETP)]:

        Egun on. Eskerrik asko, presidente andrea. Sailburu andrea, konturatuko
        zinen gertutik jarraitzen ditugula arestian itsas ingurumena zaintzeko
        eman diren aurrerapausoak. Horri buruz galdetu nizun azken aldian; zuk
        erantzun zenidan Ingurumen Sailak plastikoak eta hondakinak biltzeko
        zerabiltzan planak azalduz. Eta adibide bat jarriko dizut; izan ere,
        duela hilabete batzuk, Urumea ibaiko zaborra jaso behar izan zuena
        Donostiako Udaleko brigada izan zen, udal-brigada. Gaur beste zerbaiti
        buruz hitz egin nahi (Date: 20.05.2022)
      - >-
        Zera dio: "Eusko Jaurlaritzari eskatzen zaio bultza dezala Estatuko
        Administrazio Orokorraren aurrean eremua babesteko beharrezko diren
        ekintzak gauzatzea"; baina ekintza horiek ez dira zehazten, jakinik
      - >-
        [TOPIC: Mozioa, Gorka Maneiro Labayen Mistoa-UPyD taldeko
        legebiltzarkideak aurkeztua, Administrazio publikoari buruzko beste lege
        bat planteatzeko egin beharreko urratsei buruz. Eztabaida eta behin
        betiko ebazpena]

        [SÉMPER PASCUAL, (PV-ETP)]:

        eztabaidatzen arituko ginateke eta uztaila zein abuztua gaitu ahal
        izango genituzke, eta, begira, Jaurlaritzari orain eskatu diogunean
        –espero dut, lehendakari andrea, zurrumurrua ez zela izango uztaila eta
        abuztua gaitzeagatik–..., Jaurlaritzari Ganbera honi legeproiektu bat
        bidal diezaiola eskatzen ari garen une honetan, ziur asko, lege hori
        onartzeko zorian egongo ginateke. Beno, edozelan ere, aukera bat galdu
        dugu. Beste batzuk etorriko dira. Baina, mesedez, mesedez,... Ez gara
        uste dugun (Date: 18.06.2015)
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy
model-index:
  - name: SentenceTransformer based on intfloat/multilingual-e5-large
    results:
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: multilingual e5 large
          type: multilingual-e5-large
        metrics:
          - type: cosine_accuracy
            value: 0.9115552306175232
            name: Cosine Accuracy

SentenceTransformer based on intfloat/multilingual-e5-large

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-large
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("aimarsg/mle5_parl_contrastive")
# Run inference
sentences = [
    'Zein da Eusko Jaurlaritzaren plana itsas ingurumena babesteko?',
    '[TOPIC: Galdera, Muriel Larrea Laso Euskal Talde PopularraCiudadanos taldeko legebiltzarkideak Ekonomiaren Garapen, Jasangarritasun eta Ingurumeneko sailburuari egina, gure kostaldean itsas ingurumena babesteari buruz]\n[LARREA LASO, (PV-ETP)]:\nEgun on. Eskerrik asko, presidente andrea. Sailburu andrea, konturatuko zinen gertutik jarraitzen ditugula arestian itsas ingurumena zaintzeko eman diren aurrerapausoak. Horri buruz galdetu nizun azken aldian; zuk erantzun zenidan Ingurumen Sailak plastikoak eta hondakinak biltzeko zerabiltzan planak azalduz. Eta adibide bat jarriko dizut; izan ere, duela hilabete batzuk, Urumea ibaiko zaborra jaso behar izan zuena Donostiako Udaleko brigada izan zen, udal-brigada. Gaur beste zerbaiti buruz hitz egin nahi (Date: 20.05.2022)',
    'Zera dio: "Eusko Jaurlaritzari eskatzen zaio bultza dezala Estatuko Administrazio Orokorraren aurrean eremua babesteko beharrezko diren ekintzak gauzatzea"; baina ekintza horiek ez dira zehazten, jakinik',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6245, 0.2563],
#         [0.6245, 1.0000, 0.0706],
#         [0.2563, 0.0706, 1.0000]])

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.9116

Training Details

Training Dataset

Unnamed Dataset

  • Size: 8,700 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 11 tokens
    • mean: 25.94 tokens
    • max: 64 tokens
    • min: 147 tokens
    • mean: 207.39 tokens
    • max: 306 tokens
  • Samples:
    anchor positive
    Zergatik ez zuen alde bozkatu EH Bilduk Lanbiden aztarna digitala ezartzeari buruzko proposamenean? [TOPIC: Euskal Legebiltzar Talde Popularrak egindako legez besteko proposamena, Lanbiden aztarna digitala ezartzeari buruz. Eztabaida eta behin betiko ebazpena]
    [BLANCO DE ANGULO, (EH Bildu)]:
    erabili du hauteskunde-kanpaina egiteko, eta horretarako, beti egin ohi duen bezala, gizarte-eskubideak lokaztu ditu. Lehen, beste bozeramaile batek esan du pertsona batzuk sistematik at gelditzen direla. Noski! Nola hurbilduko da, bada, jendea Lanbidera, nola hurbilduko da, bada, oinarrizko gizarte-zerbitzu batera, gurutze batez markatzen badiote kopeta! Nola, bada, kalean entzuten ari diren guztia kontuan izanda! Hori ari zara lortzen. Horregatik, begi-bistakoa denez, gaur ez dugu alde bozkatuko, ez (Date: 30.04.2015)
    Zein urtetan baztertu zuen Urkullu lehendakariak aurkeztutako aurrekontuen lege-proiektua, babes faltagatik? [TOPIC: Galdera, Susana Corcuera Leunda Euskal Sozialistak taldeko legebiltzarkideak Ogasun eta Finantzetako sailburuari egina, aurrekontu-luzapenari buruzko legezkotasuna 2013an ez betetzeari buruz]
    [CORCUERA LEUNDA, (SV-ES)]:
    Eskerrik asko, presidente andrea. Sailburuok, jaun-andreok, egun on. Sailburu jauna, orain dela astebete jaso genuen Herri Kontuen Euskal Epaitegiak 2013. ekitaldirako egin zuen Euskal Autonomia Erkidegoko Administrazio orokorraren kontuaren fiskalizazio-txostena. Eusko Jaurlaritzak gauzatu zuen 2013ko aurrekontu-ekitaldiaren luzapena fiskalizatzea da kontua, Urkullu lehendakariak baztertu egin behar izan baitzuen 2013. urterako aurkeztu zuen aurrekontuen lege-proiektua, onartua izateko behar besteko babesik lortu ez zuelako, zenbait taldek, besteak beste Talde (Date: 26.06.2015)
    Zein da Euskal Autonomia Erkidegoko Kultura Ondarearen Kontseiluaren osaera, antolamendua, funtzionamendua eta zereginen inguruan Eusko Jaurlaritzak dituen irizpideak? [TOPIC: Mozioa, Carmelo Barrio Baroja Euskal Talde Popularreko legebiltzarkideak aurkeztua, Eusko Jaurlaritzak Kultura Ondarearen Euskal Autonomia Erkidegoko Kontseiluaren osaerari, antolamenduari, funtzionamenduari eta zereginei dagokienez dituen irizpideen inguruan. Eztabaida eta behin betiko ebazpena]
    [BARRIO BAROJA, (PV-ETP)]:
    konbentzitzen erraza izan zen, Estarrona jaunaren zuzenketa zela eta. Jakina, Gobernuak ezetz proposatzen dio: "ez dugu hori lege honetan erregulatuko; egin dezala Gobernuak nahi duenean, diskrezionalki". Bada, noski izan zela konbentzitzen erraza. Inoiz ez dut ikusi zuzenketarik..., tira, Gobernuari sostengua ematen dioten legebiltzarkideek argiago onartzen zutenik, jakinik hura onartu egin behar zela bai ala bai. Laugarren artikuluaren eztabaida beheratu egin zen ponentzian, eta Gobernuari uzten zitzaion (Date: 06.02.2020)
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 8,706 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 11 tokens
    • mean: 26.11 tokens
    • max: 78 tokens
    • min: 143 tokens
    • mean: 206.86 tokens
    • max: 269 tokens
    • min: 2 tokens
    • mean: 104.9 tokens
    • max: 268 tokens
  • Samples:
    anchor positive negative
    Zein da Euskal Hezkuntza Sistemaren etorkizunari buruzko hitzarmenaren oinarriak zehazteko ponentziaren helburua? [TOPIC: Txostena, etorkizuneko euskal hezkuntza-sistemari buruzko hitzarmenaren oinarriak zehazteko ponentziak egindakoa. Eztabaida eta behin betiko ebazpena]
    [GORROTXATEGI AZURMENDI, (EP-IU)]:
    egitea. Dena dela, esan bezala, lehenik, etorkizunari begira jarri behar dugu gaur. Etorkizuna da orain kontuan hartu behar duguna; eta etorkizunean, halaber, eskerrak eman nahiko nizkizueke, fio naizelako arestian aipatu ditudan eragile guztiak, gainerako alderdi politikoak ere, bere interes propioak albo batera utzi eta interes orokorraren alde egiteko gai izango direla. Baita sailari ere, erdietsi ditugun akordioak, bestelako presiorik gabe, lantzeko gai eta arduradun izango delakoan. Betiere gizarte-mugimenduen eta (Date: 07.04.2022)
    Honezkero ia urte eta erdia pasatu da hezkuntza-sistemaren oinarriak ezartzeko ponentzia eratu zela.
    Zein da Martínez Hierroren iritzia errelato partekatu bat eraikitzeari buruz Euskal Herrian? [TOPIC: Lehenbailehen eztabaidatzeko Euzko Abertzaleak eta Euskal Sozialistak talde parlamentarioek egindako legez besteko proposamena, ETAren armagabetzeari buruz. Eztabaida eta behin betiko ebazpena]
    [MARTÍNEZ HIERRO, (EP)]:
    aurrera, egia da etorkizunera begiratu behar dela iragana ahaztu gabe, biolentzia deslegitimatuz, eta, baita ere, errelato bat ireki nahi badugu, errelato partekatu bat eraikitzea, eta errelato partekatu hori izatea oinarri bezala biolentzia honen deslegitimazioa. Eta lehen esan dudan bezala, ez bakarrik biolentzia zuzena edo armek sortu duten biolentzia, baizik eta, baita ere, oraindik gizartean badaukagun hainbat biolentzia forma ezberdin, biolentzia kulturala eta herri honetan oraindik instalatuta dauden hainbat gauza. (Date: 06.04.2017)
    Badakit, Martínez jauna, gogorra da. Baina aitor ezazu, hausnar ezazue. Aukera duzue Legebiltzar honetan egiteko, baina ez zaitez etorri argudio-zerrendarekin halakoari buruz...
    Zein da Ertzaintzaren hasierako prestakuntzaren iraupena polizia-prozedurei eta autobabesari dagokionez? [TOPIC: Galdera, Miren Gallastegui Oyarzábal Euskal Sozialistak taldeko legebiltzarkideak Segurtasuneko sailburuari egina, Ertzaintzaren aurkako agresioak ekiditeko Segurtasun Sailak hartu beharreko neurriei buruz]
    [SEGURTASUNEKO SAILBURUAK (BELTRÁN DE HEREDIA ARRONIZ), (EA-NV)]:
    Eskerrik asko, presidente andrea. Legebiltzarkideok, egun on berriro ere. Gallastegui andrea, segurtasun-neurriei buruz agerikoak diren gauza batzuk gogorarazi behar dizkizut: adibidez, ertzain guztiek hasieran prestakuntza handia jasotzen dutela polizia-prozedurei eta autobabesari buruz. Bederatzi hilabete akademian eta beste hainbeste polizia-unitateetan praktikak egiten. Hasierako prestakuntza hori sakondu eta zabaldu egiten da gero, ertzainen karreran zehar, eguneratze-ikastaroekin, birziklatze-ikastaroekin, espezializazio-ikastaroekin... Baina, era berean, garrantzitsuak dira oso ekintza (Date: 13.03.2015)
    Gainera, prestakuntza berria jasotzen ari dira autobabeseko polizia-taktika eta -tekniketan, kriminalitate eta terrorismo mota berri hauei aurre egiteko polizia-taktika eta -tekniketan.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • learning_rate: 2e-05
  • warmup_ratio: 0.1
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss multilingual-e5-large_cosine_accuracy
0.0919 100 0.5062 - -
0.1838 200 0.0393 - -
0.2757 300 0.0324 - -
0.3676 400 0.0298 - -
0.4596 500 0.0402 - -
0.5515 600 0.0317 - -
0.6434 700 0.0175 - -
0.7353 800 0.0232 - -
0.8272 900 0.0378 - -
0.9191 1000 0.0232 - -
1.0 1088 - 0.3340 0.8724
1.0110 1100 0.0191 - -
1.1029 1200 0.0114 - -
1.1949 1300 0.0118 - -
1.2868 1400 0.0167 - -
1.3787 1500 0.008 - -
1.4706 1600 0.0087 - -
1.5625 1700 0.0087 - -
1.6544 1800 0.013 - -
1.7463 1900 0.0105 - -
1.8382 2000 0.0143 - -
1.9301 2100 0.0092 - -
2.0 2176 - 0.2349 0.9048
2.0221 2200 0.0103 - -
2.1140 2300 0.0097 - -
2.2059 2400 0.0012 - -
2.2978 2500 0.0018 - -
2.3897 2600 0.0071 - -
2.4816 2700 0.003 - -
2.5735 2800 0.0049 - -
2.6654 2900 0.0051 - -
2.7574 3000 0.0071 - -
2.8493 3100 0.0019 - -
2.9412 3200 0.002 - -
3.0 3264 - 0.2200 0.9116

Framework Versions

  • Python: 3.10.8
  • Sentence Transformers: 5.1.0
  • Transformers: 4.56.0
  • PyTorch: 2.8.0+cu128
  • Accelerate: 1.10.1
  • Datasets: 4.0.0
  • Tokenizers: 0.22.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}