Update model card with dataset details and performance metrics
Browse files
README.md
CHANGED
|
@@ -1,602 +1,125 @@
|
|
| 1 |
---
|
| 2 |
language:
|
| 3 |
-
-
|
|
|
|
| 4 |
- da
|
| 5 |
- sv
|
|
|
|
| 6 |
tags:
|
| 7 |
- sentence-transformers
|
| 8 |
- sentence-similarity
|
| 9 |
- feature-extraction
|
| 10 |
-
-
|
| 11 |
-
-
|
| 12 |
-
-
|
| 13 |
-
-
|
| 14 |
-
|
| 15 |
-
widget:
|
| 16 |
-
- source_sentence: Hvor mange stater er der i indien, og hvad er de?
|
| 17 |
-
sentences:
|
| 18 |
-
- "List of state and union territory capitals in India\nNej.\nstat eller\nunionsterritorium\n\
|
| 19 |
-
Administrative hovedstæder\nLovgivende hovedstæder\nRetsvæsenets hovedstæder\n\
|
| 20 |
-
År, hvor kapitalen blev oprettet\nDen tidligere hovedstad\n\n\n1\nAndamanerne\
|
| 21 |
-
\ og Nicobarerne\nPort Blair\nPort Blair\nKolkata\n1955\nCalcutta (1945-1955)\n\
|
| 22 |
-
\n\n2\nAndhra Pradesh\nHyderabad (de jure til 2024)\nAmaravati (de facto fra 2017)\
|
| 23 |
-
\ [a]\nAmaravati\nHyderabad\n1956\n2017\nKurnool (1953-1956)\n\n\n3\nArunachal\
|
| 24 |
-
\ Pradesh\nItanagar\nItanagar\nGuwahati\n1986\n\n\n\n4\nAssam\nDispur\nGuwahati\n\
|
| 25 |
-
Guwahati\n1975\nShillong[b] (1874-1952)\n\n\n5\nBihar\nPatna\nPatna\nPatna\n1912\n\
|
| 26 |
-
\n\n\n6\nChandigarh\nChandigarh[c]\n -\nChandigarh\n1966\n -\n\n\n7\nChhattisgarh\n\
|
| 27 |
-
Naya Raipur[d]\nRaipur\nBilaspur\n2000\n -\n\n\n8\nDadra og Nagar Haveli\nSilvassa\n\
|
| 28 |
-
\ -\nMumbai\n1945\nMumbai (1954-1961)\nPanaji (1961-1987)\n\n\n9\nDaman og Diu\n\
|
| 29 |
-
Daman\n -\nMumbai\n1987\nAhmedabad (1961-1963)\nPanaji (1963-1987)\n\n\n10\nDet\
|
| 30 |
-
\ nationale hovedstadsområde Delhi\nNew Delhi\nNew Delhi\nNew Delhi\n1931\n -\n\
|
| 31 |
-
\n\n11\nGoa\nPanaji[e]\nPorvorim\nMumbai\n1961\nPanaji (1961-1987)\n\n\n12\nGujarat\n\
|
| 32 |
-
Gandhinagar\nGandhinagar\nAhmedabad\n1960\nAhmedabad (1960-1970)\n\n\n13\nHaryana\n\
|
| 33 |
-
Chandigarh\nChandigarh\nChandigarh\n1966\n -\n\n\n14\nHimachal Pradesh\nShimla\n\
|
| 34 |
-
Dharamshala (W/2nd)\n\nShimla (sommer)\nDharamsala(Vinter)\n\nShimla\n1971\n2017\n\
|
| 35 |
-
\nBilaspur (1950-1956)\n\n\n15\nJammu og Kashmir\nSrinagar (sommer)\nJammu (vinter)\n\
|
| 36 |
-
Srinagar (sommer)\nJammu (vinter)\nSrinagar (sommer)\nJammu (vinter)\n1947\n -\n\
|
| 37 |
-
\n\n16\nJharkhand\nRanchi\nRanchi\nRanchi\n2000\n\n\n\n17\nKarnataka\nBengaluru\n\
|
| 38 |
-
Bengaluru\nBengaluru\n1940\n(Mysore)\n\n\n18\nKerala\nThiruvananthapuram\nThiruvananthapuram\n\
|
| 39 |
-
Kochi\n1956\n\n\n\n19\nLakshadweep\nKavaratti\nKavaratti\nKochi\n1956\n\n\n\n\
|
| 40 |
-
20\nMadhya Pradesh\nBhopal\nBhopal\nJabalpur\n1956\nNagpur [f] (1861-1956)\n\n\
|
| 41 |
-
\n21\nMaharashtra\nMumbai[g]\nNagpur (W/2nd)[h]\nMumbai (S+B)\nNagpur (W)[i]\n\
|
| 42 |
-
Mumbai\n1818\n1960\n -\n\n\n22\nManipur\nImphal\nImphal\nImphal\n1947\n -\n\n\n\
|
| 43 |
-
23\nMeghalaya\nShillong\nShillong\nShillong\n1970\n -\n\n\n24\nMizoram\nAizawl\n\
|
| 44 |
-
Aizawl\nGuwahati\n1972\n -\n\n\n25\nNagaland\nKohima\nKohima\nGuwahati\n1963\n\
|
| 45 |
-
\ -\n\n\n26\nOdisha\nBhubaneswar\nBhubaneswar\nCuttack\n1948\nCuttack (1936-1948)\n\
|
| 46 |
-
\n\n27\nPuducherry\nPuducherry\nPuducherry\nChennai\n1954\nMadras (1948-1954)\n\
|
| 47 |
-
\n\n28\nPunjab\nChandigarh\nChandigarh\nl\n1966\n\n\n29\nRajasthan\nJaipur\nJaipur\n\
|
| 48 |
-
Jodhpur\n1950\n -\n\n\n30\nSikkim\nGangtok[j]\nGangtok\nGangtok\n1890\n -\n\n\n\
|
| 49 |
-
31\nTamil Nadu\nChennai[k]\nChennai\nChennai\n1956\n \n\n\n32\nTelangana\nHyderabad[l]\n\
|
| 50 |
-
Hyderabad\nHyderabad\n2014\n -\n\n\n33\nTripura\nAgartala\nAgartala\nAgartala\n\
|
| 51 |
-
1956\n -\n\n\n34\nUttar Pradesh\nLucknow\nLucknow\nAllahabad\n1938\n -\n\n\n35\n\
|
| 52 |
-
Uttarakhand\nDehradun[m]\nDehradun\nNainital\n2000\n -\n\n\n36\nVestbengalen\n\
|
| 53 |
-
Kolkata\nKolkata\nKolkata\n1947"
|
| 54 |
-
- "\n \nMen først troede du, at han blev myrdet, ikke?\n \n "
|
| 55 |
-
- "\n \nHvilken del af fysikken arbejder du med?\n \n "
|
| 56 |
-
- source_sentence: En mann i sin egen verden med seg selv og musikken sin, bare underholder
|
| 57 |
-
på gatehjørnet.
|
| 58 |
-
sentences:
|
| 59 |
-
- En jente er ute.
|
| 60 |
-
- En mann spiser på en lokal diner.
|
| 61 |
-
- En mann er på et gatehjørne.
|
| 62 |
-
- source_sentence: En mann lager et sandmaleri på gulvet.
|
| 63 |
-
sentences:
|
| 64 |
-
- En mann lager kunst.
|
| 65 |
-
- En kvinne ødelegger et sandmaleri.
|
| 66 |
-
- En jente med hendene i et badekar.
|
| 67 |
-
- source_sentence: En ung kvinne sitter i lotusstilling ved vesken sin på gresset
|
| 68 |
-
blant en mengde hunder.
|
| 69 |
-
sentences:
|
| 70 |
-
- Hundene står rundt en kryssbeinet kvinne på gresset.
|
| 71 |
-
- Barn går forbi foreldrene sine.
|
| 72 |
-
- Kvinnen er på sofaen med hundene.
|
| 73 |
-
- source_sentence: Hvordan kan maskinlæring brukes til å detektere kreft tidlig via
|
| 74 |
-
medisinske bilder?
|
| 75 |
-
sentences:
|
| 76 |
-
- 'Informasjonsteknologi spiller en stadig viktigere rolle i moderne medisin. Fra
|
| 77 |
-
elektroniske pasientjournaler til telemedisin har teknologi endret måten leger
|
| 78 |
-
behandler pasienter på. Maskinlæring er en av de mest lovende teknologiene innen
|
| 79 |
-
medisin i dag. Den brukes allerede til å diagnostisere sykdommer, utvikle nye
|
| 80 |
-
legemidler og personnalisere behandlingsplaner. Dessuten kan maskinlæring analysere
|
| 81 |
-
store mengder data fra kliniske prøver og medisinske bilder for å identifisere
|
| 82 |
-
nye biomarkers og behandlingsmål. '
|
| 83 |
-
- Postmodernismen afviser tanken om en universel sandhed og hævder, at vores forståelse
|
| 84 |
-
af verden er formet af kulturelle og historiske kontekster.
|
| 85 |
-
- "Moderne medisin står overfor en betydelig utfordring i å oppdage kreft i tidlige\
|
| 86 |
-
\ stadier. Tidlig diagnose er avgjørende for å forbedre behandlingsresultater\
|
| 87 |
-
\ og pasientens overlevelse. Nye teknologier som maskinlæring, en gren av kunstig\
|
| 88 |
-
\ intelligens, viser stort potensiale innen kreftdiagnostikk. Ved å analysere\
|
| 89 |
-
\ store mengder medisinske bilder, som røntgenbilder, CT-skanninger og patologiske\
|
| 90 |
-
\ prøver, kan maskinlæringssystemer trenes til å gjenkjenne subtile mønstre og\
|
| 91 |
-
\ anomali som kan indikere kreft. Disse modellene kan bistå leger i å identifisere\
|
| 92 |
-
\ potensielle kreftsvulster med høy nøyaktighet og effektivitet.\n\nMaskinlæring\
|
| 93 |
-
\ er spesielt nyttig for å analysere komplekse medisinske bilder som kan være\
|
| 94 |
-
\ vanskelige å tolke for det menneskelige øyet. Algoritmer kan trenes til å fokusere\
|
| 95 |
-
\ på spesifikke egenskaper og teksturer som er assosiert med kreftceller. Dette\
|
| 96 |
-
\ kan føre til tidligere og mer pålitelige diagnoser, noe som kan gi pasienter\
|
| 97 |
-
\ tilgang til behandling tidligere i sykdomsforløpet. \n\nI tillegg til tidlig\
|
| 98 |
-
\ deteksjon, kan maskinlæring også brukes til å prediktere kreftens aggressivitet\
|
| 99 |
-
\ og respons på behandling. Ved å analysere genetiske data og andre relevante\
|
| 100 |
-
\ faktorer, kan maskinlæringssystemer gi viktige innsikter som kan personnalere\
|
| 101 |
-
\ behandlingen og forbedre pasientutfallet."
|
| 102 |
-
datasets:
|
| 103 |
-
- Fremtind/all-nli-norwegian
|
| 104 |
-
- DDSC/nordic-embedding-training-data
|
| 105 |
pipeline_tag: sentence-similarity
|
| 106 |
-
library_name: sentence-transformers
|
| 107 |
---
|
| 108 |
|
| 109 |
-
#
|
| 110 |
|
| 111 |
-
|
| 112 |
|
| 113 |
## Model Details
|
| 114 |
|
| 115 |
-
|
| 116 |
-
- **
|
| 117 |
-
- **
|
| 118 |
-
- **
|
| 119 |
-
- **
|
| 120 |
-
- **Similarity Function:** Cosine Similarity
|
| 121 |
-
- **Training Datasets:**
|
| 122 |
-
- [nli](https://huggingface.co/datasets/Fremtind/all-nli-norwegian)
|
| 123 |
-
- group-b-qa
|
| 124 |
-
- [group-a-ddsc](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data)
|
| 125 |
-
- **Languages:** no, da, sv
|
| 126 |
-
<!-- - **License:** Unknown -->
|
| 127 |
|
| 128 |
-
##
|
| 129 |
|
| 130 |
-
|
| 131 |
-
- **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
|
| 132 |
-
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 133 |
|
| 134 |
-
###
|
|
|
|
|
|
|
|
|
|
| 135 |
|
| 136 |
-
|
| 137 |
-
|
| 138 |
-
|
| 139 |
-
|
| 140 |
-
|
| 141 |
-
|
| 142 |
-
|
| 143 |
-
## Usage
|
| 144 |
-
|
| 145 |
-
### Direct Usage (Sentence Transformers)
|
| 146 |
-
|
| 147 |
-
First install the Sentence Transformers library:
|
| 148 |
-
|
| 149 |
-
```bash
|
| 150 |
-
pip install -U sentence-transformers
|
| 151 |
-
```
|
| 152 |
-
|
| 153 |
-
Then you can load this model and run inference.
|
| 154 |
-
```python
|
| 155 |
-
from sentence_transformers import SentenceTransformer
|
| 156 |
-
|
| 157 |
-
# Download from the 🤗 Hub
|
| 158 |
-
model = SentenceTransformer("thivy/norbert4-exp1-multidataset-roundrobin")
|
| 159 |
-
# Run inference
|
| 160 |
-
queries = [
|
| 161 |
-
"Hvordan kan maskinl\u00e6ring brukes til \u00e5 detektere kreft tidlig via medisinske bilder?",
|
| 162 |
-
]
|
| 163 |
-
documents = [
|
| 164 |
-
'Moderne medisin står overfor en betydelig utfordring i å oppdage kreft i tidlige stadier. Tidlig diagnose er avgjørende for å forbedre behandlingsresultater og pasientens overlevelse. Nye teknologier som maskinlæring, en gren av kunstig intelligens, viser stort potensiale innen kreftdiagnostikk. Ved å analysere store mengder medisinske bilder, som røntgenbilder, CT-skanninger og patologiske prøver, kan maskinlæringssystemer trenes til å gjenkjenne subtile mønstre og anomali som kan indikere kreft. Disse modellene kan bistå leger i å identifisere potensielle kreftsvulster med høy nøyaktighet og effektivitet.\n\nMaskinlæring er spesielt nyttig for å analysere komplekse medisinske bilder som kan være vanskelige å tolke for det menneskelige øyet. Algoritmer kan trenes til å fokusere på spesifikke egenskaper og teksturer som er assosiert med kreftceller. Dette kan føre til tidligere og mer pålitelige diagnoser, noe som kan gi pasienter tilgang til behandling tidligere i sykdomsforløpet. \n\nI tillegg til tidlig deteksjon, kan maskinlæring også brukes til å prediktere kreftens aggressivitet og respons på behandling. Ved å analysere genetiske data og andre relevante faktorer, kan maskinlæringssystemer gi viktige innsikter som kan personnalere behandlingen og forbedre pasientutfallet.',
|
| 165 |
-
'Informasjonsteknologi spiller en stadig viktigere rolle i moderne medisin. Fra elektroniske pasientjournaler til telemedisin har teknologi endret måten leger behandler pasienter på. Maskinlæring er en av de mest lovende teknologiene innen medisin i dag. Den brukes allerede til å diagnostisere sykdommer, utvikle nye legemidler og personnalisere behandlingsplaner. Dessuten kan maskinlæring analysere store mengder data fra kliniske prøver og medisinske bilder for å identifisere nye biomarkers og behandlingsmål. ',
|
| 166 |
-
'Postmodernismen afviser tanken om en universel sandhed og hævder, at vores forståelse af verden er formet af kulturelle og historiske kontekster.',
|
| 167 |
-
]
|
| 168 |
-
query_embeddings = model.encode_query(queries)
|
| 169 |
-
document_embeddings = model.encode_document(documents)
|
| 170 |
-
print(query_embeddings.shape, document_embeddings.shape)
|
| 171 |
-
# [1, 640] [3, 640]
|
| 172 |
-
|
| 173 |
-
# Get the similarity scores for the embeddings
|
| 174 |
-
similarities = model.similarity(query_embeddings, document_embeddings)
|
| 175 |
-
print(similarities)
|
| 176 |
-
# tensor([[0.8565, 0.3872, 0.0083]])
|
| 177 |
-
```
|
| 178 |
-
|
| 179 |
-
<!--
|
| 180 |
-
### Direct Usage (Transformers)
|
| 181 |
-
|
| 182 |
-
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 183 |
-
|
| 184 |
-
</details>
|
| 185 |
-
-->
|
| 186 |
-
|
| 187 |
-
<!--
|
| 188 |
-
### Downstream Usage (Sentence Transformers)
|
| 189 |
-
|
| 190 |
-
You can finetune this model on your own dataset.
|
| 191 |
-
|
| 192 |
-
<details><summary>Click to expand</summary>
|
| 193 |
-
|
| 194 |
-
</details>
|
| 195 |
-
-->
|
| 196 |
-
|
| 197 |
-
<!--
|
| 198 |
-
### Out-of-Scope Use
|
| 199 |
-
|
| 200 |
-
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 201 |
-
-->
|
| 202 |
|
| 203 |
-
|
| 204 |
-
|
| 205 |
-
|
| 206 |
-
*
|
| 207 |
-
-
|
| 208 |
-
|
| 209 |
-
<!--
|
| 210 |
-
### Recommendations
|
| 211 |
-
|
| 212 |
-
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 213 |
-
-->
|
| 214 |
|
| 215 |
## Training Details
|
| 216 |
|
| 217 |
-
|
| 218 |
-
|
| 219 |
-
|
| 220 |
-
|
| 221 |
-
|
| 222 |
-
*
|
| 223 |
-
|
| 224 |
-
* Approximate statistics based on the first 1000 samples:
|
| 225 |
-
| | anchor | positive | negative |
|
| 226 |
-
|:--------|:---------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
|
| 227 |
-
| type | string | string | string |
|
| 228 |
-
| details | <ul><li>min: 6 tokens</li><li>mean: 9.53 tokens</li><li>max: 47 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 12.03 tokens</li><li>max: 40 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 12.7 tokens</li><li>max: 49 tokens</li></ul> |
|
| 229 |
-
* Samples:
|
| 230 |
-
| anchor | positive | negative |
|
| 231 |
-
|:---------------------------------------------------------------|:------------------------------------------------|:---------------------------------------------------------------|
|
| 232 |
-
| <code>En person på en hest hopper over et havarert fly.</code> | <code>En person er utendørs, på en hest.</code> | <code>En person er på en diner og bestiller en omelett.</code> |
|
| 233 |
-
| <code>Barn smiler og vinker til kameraet</code> | <code>Det er barn til stede</code> | <code>Barna rynker pannen</code> |
|
| 234 |
-
| <code>En gutt hopper på skateboard midt på en rød bro.</code> | <code>Gutten gjør et skateboardtriks.</code> | <code>Gutten skater nedover fortauet.</code> |
|
| 235 |
-
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 236 |
-
```json
|
| 237 |
-
{
|
| 238 |
-
"scale": 20.0,
|
| 239 |
-
"similarity_fct": "cos_sim",
|
| 240 |
-
"gather_across_devices": false
|
| 241 |
-
}
|
| 242 |
-
```
|
| 243 |
-
|
| 244 |
-
#### group-b-qa
|
| 245 |
|
| 246 |
-
|
| 247 |
-
* Size: 93,501 training samples
|
| 248 |
-
* Columns: <code>query</code> and <code>positive</code>
|
| 249 |
-
* Approximate statistics based on the first 1000 samples:
|
| 250 |
-
| | query | positive |
|
| 251 |
-
|:--------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
| 252 |
-
| type | string | string |
|
| 253 |
-
| details | <ul><li>min: 6 tokens</li><li>mean: 25.29 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 1 tokens</li><li>mean: 144.38 tokens</li><li>max: 256 tokens</li></ul> |
|
| 254 |
-
* Samples:
|
| 255 |
-
| query | positive |
|
| 256 |
-
|:------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 257 |
-
| <code>Indonesisk teenager har overlevet 49 dage alene til havs</code> | <code>Det skulle have været en normal arbejdsdag for Aldi Novel Adilang.<br>Alene på en rompong, der er specialbygget båd med en tilhørende hytte og et fiskenet under båden, skulle den 19-årige teenager passe sit job ved at lyse ned i havet for at lokke fisk til. Båden lå fortøjet omkring 125 kilometer fra kysten nær Manado i Indonesien.<br>En gang om ugen fik Aldi Novel Adilang besøg. En medarbejder fra firmaet, der ejede båden, kom med proviant til Aldi, og tog ugens indfangede fisk med sig tilbage.<br>Her er en mand, der overlevede to døgn på havet på sit hustag<br>Arbejdet fik Aldi Novel Aldilang, da han var 16, og alt forløb uden de store problemer, indtil en dag midt i juli i år. Her fik en kraftig vind rusket op i fortøjningerne, der indtil da havde holdt båden fast til havbunden. Den kraftige vind fik båden til at drive længere og længere væk fra den indonesiske kyst.<br>Provianten slap hurtigt op og dagene blev til uger for den unge indoneser.<br>Ugerne gik uden nogle kom Aldi til undsætning. 10 skib...</code> |
|
| 258 |
-
| <code>Hvilken politisk struktur kendetegnede Samhan-perioden i Korea? <br><br></code> | <code>I sin sidste fase efterfølges Koreas bronzekultur politisk af Samhan-perioden (3. århundrede f.Kr.- 3. århundrede e.Kr.), som havde samme etniske og kulturelle grundlag. Det var en tid, hvor byerne begynder at blive befæstet med bymure, hvor der bliver etableret en hierarkisk politisk struktur, og som stod i modsætning til det stammepolitiske system, der havde været reglen tidligere.</code> |
|
| 259 |
-
| <code>Hvilken af sangene på albummet "Brygmann's Bedste Sange" er komponeret af Nikolaj Steen?</code> | <code>Sangen "Kom lad os gå" (nr. 13) er komponeret af Nikolaj Steen på albummet "Brygmann's Bedste Sange".</code> |
|
| 260 |
-
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 261 |
-
```json
|
| 262 |
-
{
|
| 263 |
-
"scale": 20.0,
|
| 264 |
-
"similarity_fct": "cos_sim",
|
| 265 |
-
"gather_across_devices": false
|
| 266 |
-
}
|
| 267 |
-
```
|
| 268 |
|
| 269 |
-
|
| 270 |
|
| 271 |
-
|
| 272 |
-
|
| 273 |
-
*
|
| 274 |
-
|
| 275 |
-
| | query | positive | negative |
|
| 276 |
-
|:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
| 277 |
-
| type | string | string | string |
|
| 278 |
-
| details | <ul><li>min: 3 tokens</li><li>mean: 23.23 tokens</li><li>max: 72 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 104.25 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 1 tokens</li><li>mean: 68.97 tokens</li><li>max: 256 tokens</li></ul> |
|
| 279 |
-
* Samples:
|
| 280 |
-
| query | positive | negative |
|
| 281 |
-
|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 282 |
-
| <code>Klimatförändringen är en av de största utmaningarna för vår tid. Den påverkar ekosystemen, vår hälsa och den globala ekonomin.</code> | <code>Vår tid präglas av klimatförändringen, en enorm utmaning som hotar ekosystemen, människors hälsa och världsekonomin.</code> | <code>Fenomenet klimatförändring har blivit en debatt som engagerar forskare, politiker och allmänheten. Dess effekter på miljön är allvarliga och kräver omedelbara åtgärder.</code> |
|
| 283 |
-
| <code>Hva var den økonomiske betydningen av bomkadeblokkaden av sørstatene under den amerikanske borgerkrigen, og hvordan påvirket det den europeiske tekstilindustrien?</code> | <code>Den amerikanske borgerkrigen var en krise for den europeiske tekstilindustrien. Unionens blokade av Sørstatene førte til knapphet på bomull, Sørstatenes viktigste avling. Storbritannia, som var avhengig av sørlig bomull, opplevde en kraftig reduksjon i produksjonen. Fabrikkene stengte, arbeidsledigheten steg og den britiske industrien ble hardt rammet. Mange europeiske land søkte nye bomkullsleverandører, men ingen klarte å erstatte den amerikanske bomullen fullt ut. Dette førte til en global bomullskrise som varte i flere år. Avhengigheten av en enkelt leverandør viste seg å være sårbart, og europeiske land begynte å investere i bomullsdyrking i koloniene sine for å sikre fremtidige forsyninger.</code> | <code>Den amerikanske borgerkrigen var en blodig konflikt som ravde landet i fire år. Slavene i Sørstatene ble frigjort avgjørende Deklarasjon om frigjøring, men den fullstendige avskaffelsen av slaveriet ble først sikret med den 13. grunnloven. Krigen endte med en nordlig seier, men den etterlot dype sår og en nasjon i ruiner. Reconstructing the South and reintegrating the former Confederate states into the Union, proved to be a lengthy and complex process. </code> |
|
| 284 |
-
| <code>Familien samles rundt bordet for å spise middag, og stemningen er varm og koselig.</code> | <code>Middagsbordet er dekket, og familien er samlet for å nyte en deilig måltid sammen.</code> | <code>Han tok en bit av kaken og satt seg ved vinduet for å lese en bok.</code> |
|
| 285 |
-
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 286 |
-
```json
|
| 287 |
-
{
|
| 288 |
-
"scale": 20.0,
|
| 289 |
-
"similarity_fct": "cos_sim",
|
| 290 |
-
"gather_across_devices": false
|
| 291 |
-
}
|
| 292 |
-
```
|
| 293 |
|
| 294 |
-
##
|
| 295 |
-
|
| 296 |
-
#### nli
|
| 297 |
-
|
| 298 |
-
* Dataset: [nli](https://huggingface.co/datasets/Fremtind/all-nli-norwegian) at [98cabde](https://huggingface.co/datasets/Fremtind/all-nli-norwegian/tree/98cabded09bfe5f505757840026ecdf6a357a04c)
|
| 299 |
-
* Size: 1,000 evaluation samples
|
| 300 |
-
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
| 301 |
-
* Approximate statistics based on the first 1000 samples:
|
| 302 |
-
| | anchor | positive | negative |
|
| 303 |
-
|:--------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|:--------------------------------------------------------------------------------|
|
| 304 |
-
| type | string | string | string |
|
| 305 |
-
| details | <ul><li>min: 5 tokens</li><li>mean: 17.72 tokens</li><li>max: 74 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 8.98 tokens</li><li>max: 31 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 9.5 tokens</li><li>max: 29 tokens</li></ul> |
|
| 306 |
-
* Samples:
|
| 307 |
-
| anchor | positive | negative |
|
| 308 |
-
|:------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------|:----------------------------------------------------|
|
| 309 |
-
| <code>Mann i skjelett-trykt lærantrekk som sitter på en rød motorsykkel.</code> | <code>En mann sitter på en motorsykkel.</code> | <code>Mannen er naken.</code> |
|
| 310 |
-
| <code>En far hjelper sønnen sin med å sykle over tørr og støvete jord, akkompagnert av søsteren hans kledd i en grønn kjole.</code> | <code>En far hjelper sønnen sin</code> | <code>Noen sover</code> |
|
| 311 |
-
| <code>En afroamerikaner med en rød ryggsekk ser på fotografen mens han går forbi en betongvegg dekket av graffiti.</code> | <code>en person har på seg en ryggsekk</code> | <code>en asiatisk person har en rød ryggsekk</code> |
|
| 312 |
-
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 313 |
-
```json
|
| 314 |
-
{
|
| 315 |
-
"scale": 20.0,
|
| 316 |
-
"similarity_fct": "cos_sim",
|
| 317 |
-
"gather_across_devices": false
|
| 318 |
-
}
|
| 319 |
-
```
|
| 320 |
-
|
| 321 |
-
#### group-b-qa
|
| 322 |
-
|
| 323 |
-
* Dataset: group-b-qa
|
| 324 |
-
* Size: 500 evaluation samples
|
| 325 |
-
* Columns: <code>query</code> and <code>positive</code>
|
| 326 |
-
* Approximate statistics based on the first 500 samples:
|
| 327 |
-
| | query | positive |
|
| 328 |
-
|:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
| 329 |
-
| type | string | string |
|
| 330 |
-
| details | <ul><li>min: 7 tokens</li><li>mean: 15.13 tokens</li><li>max: 121 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 39.93 tokens</li><li>max: 256 tokens</li></ul> |
|
| 331 |
-
* Samples:
|
| 332 |
-
| query | positive |
|
| 333 |
-
|:--------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 334 |
-
| <code><br> <br>Du vet vel at det må være en slags kode.<br> <br> </code> | <code><br>Det må være en slags kode.<br> <br> </code> |
|
| 335 |
-
| <code><br> <br>Kan du ikke sende noen til moloen.<br> </code> | <code><br> <br>Vil du ikke sende nogen til molen.<br> </code> |
|
| 336 |
-
| <code>P diddy nicki minaj hello good morning tekst?</code> | <code>Flere officielle remixes blev udgivet sammen med videoen for at promovere sangen. Den første af disse remixes tilføjede et indledende vers fra rapperen Rick Ross og senere i sangen et nyt vers fra den kvindelige rapper Nicki Minaj. Den blev mærket som "Official Remix" og blev udgivet i USA den 29. juni 2010 til digital download. Der blev skabt en musikvideo til denne version ved at tilføje yderligere optagelser til den oprindelige video. Den havde premiere den 21. juni 2010. Et andet remix, der kun indeholder Ross' ekstra vers, blev brugt til sangens primære musikvideo, der havde premiere den 11. maj 2010 Et tredje remix blev lavet til Storbritannien med titlen "Team UK Remix". I denne version var Tinie Tempah og Tinchy Stryder med i stedet for Minaj og Ross. Den havde premiere den 11. juni 2010 på Tim Westwoods Radio 1Xtra-dagshow Westwood på Radio 1Xtra. Den blev udgivet som nummer to på den britiske digitale EP-single, der blev udgivet den 20. juni 2010. Et sidste remix blev lavet, ...</code> |
|
| 337 |
-
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 338 |
-
```json
|
| 339 |
-
{
|
| 340 |
-
"scale": 20.0,
|
| 341 |
-
"similarity_fct": "cos_sim",
|
| 342 |
-
"gather_across_devices": false
|
| 343 |
-
}
|
| 344 |
-
```
|
| 345 |
-
|
| 346 |
-
#### group-a-ddsc
|
| 347 |
|
| 348 |
-
|
| 349 |
-
|
| 350 |
-
* Columns: <code>query</code>, <code>positive</code>, and <code>negative</code>
|
| 351 |
-
* Approximate statistics based on the first 500 samples:
|
| 352 |
-
| | query | positive | negative |
|
| 353 |
-
|:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
| 354 |
-
| type | string | string | string |
|
| 355 |
-
| details | <ul><li>min: 3 tokens</li><li>mean: 22.44 tokens</li><li>max: 67 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 103.04 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 68.37 tokens</li><li>max: 256 tokens</li></ul> |
|
| 356 |
-
* Samples:
|
| 357 |
-
| query | positive | negative |
|
| 358 |
-
|:------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 359 |
-
| <code>Postmodernismen udfordrer den traditionelle opfattelse af meta-fortællinger og privilegerede perspektiver.</code> | <code>Postmodernismens afvisning af universelle sandheder og fokus på fragmenterede identiteter gør den til en kompleks filosofisk strømning.</code> | <code>Mange litterære værker fra 20. århundredede reflekterer postmodernismens fokus på subjektivitet og dekonstruktionsmetoder.</code> |
|
| 360 |
-
| <code>Drengen legede sin blå bold i vandet</code> | <code>Bøgen spillede med den blå bold på græsset</code> | <code>Pigen løb med sin gule bold i haven</code> |
|
| 361 |
-
| <code>Nya upptäckter rymden</code> | <code>Det senaste decenniet har varit en guldålder för rymdforskning. Nyligen lanserade teleskop, som James Webb Space Telescope, har gett oss bilder av universum med en detaljeradhet vi aldrig tidigare sett. Dessutom har rymdsonder samlat in värdefulla data om planeter utanför vårt solsystem, exoplaneter. Forskarna har även gjort framsteg i förståelsen av svarta hål, mörk materia och universums ut expansion.</code> | <code>Astronomi är en fascinerande vetenskap som studerar himlakroppar och fenomen. Det finns många olika grenar inom astronomi, inklusive stjärnklara, planetvetenskap och kosmologi. Teleskop är viktiga verktyg för astronomer, och de har utvecklats enormt sedan det första teleskopet uppfanns. </code> |
|
| 362 |
-
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 363 |
-
```json
|
| 364 |
-
{
|
| 365 |
-
"scale": 20.0,
|
| 366 |
-
"similarity_fct": "cos_sim",
|
| 367 |
-
"gather_across_devices": false
|
| 368 |
-
}
|
| 369 |
-
```
|
| 370 |
|
| 371 |
-
|
| 372 |
-
#### Non-Default Hyperparameters
|
| 373 |
|
| 374 |
-
|
| 375 |
-
|
| 376 |
-
|
| 377 |
-
|
| 378 |
-
|
| 379 |
-
|
| 380 |
-
- `num_train_epochs`: 1
|
| 381 |
-
- `lr_scheduler_type`: cosine
|
| 382 |
-
- `bf16`: True
|
| 383 |
-
- `load_best_model_at_end`: True
|
| 384 |
-
- `push_to_hub`: True
|
| 385 |
-
- `hub_model_id`: thivy/norbert4-exp1-multidataset-roundrobin
|
| 386 |
-
- `hub_strategy`: end
|
| 387 |
-
- `hub_private_repo`: False
|
| 388 |
-
- `multi_dataset_batch_sampler`: round_robin
|
| 389 |
|
| 390 |
-
|
| 391 |
-
<details><summary>Click to expand</summary>
|
| 392 |
|
| 393 |
-
|
| 394 |
-
|
| 395 |
-
|
| 396 |
-
|
| 397 |
-
- `per_device_train_batch_size`: 16
|
| 398 |
-
- `per_device_eval_batch_size`: 32
|
| 399 |
-
- `per_gpu_train_batch_size`: None
|
| 400 |
-
- `per_gpu_eval_batch_size`: None
|
| 401 |
-
- `gradient_accumulation_steps`: 2
|
| 402 |
-
- `eval_accumulation_steps`: None
|
| 403 |
-
- `torch_empty_cache_steps`: None
|
| 404 |
-
- `learning_rate`: 5e-06
|
| 405 |
-
- `weight_decay`: 0.015
|
| 406 |
-
- `adam_beta1`: 0.9
|
| 407 |
-
- `adam_beta2`: 0.999
|
| 408 |
-
- `adam_epsilon`: 1e-08
|
| 409 |
-
- `max_grad_norm`: 1.0
|
| 410 |
-
- `num_train_epochs`: 1
|
| 411 |
-
- `max_steps`: -1
|
| 412 |
-
- `lr_scheduler_type`: cosine
|
| 413 |
-
- `lr_scheduler_kwargs`: {}
|
| 414 |
-
- `warmup_ratio`: 0.0
|
| 415 |
-
- `warmup_steps`: 0
|
| 416 |
-
- `log_level`: passive
|
| 417 |
-
- `log_level_replica`: warning
|
| 418 |
-
- `log_on_each_node`: True
|
| 419 |
-
- `logging_nan_inf_filter`: True
|
| 420 |
-
- `save_safetensors`: True
|
| 421 |
-
- `save_on_each_node`: False
|
| 422 |
-
- `save_only_model`: False
|
| 423 |
-
- `restore_callback_states_from_checkpoint`: False
|
| 424 |
-
- `no_cuda`: False
|
| 425 |
-
- `use_cpu`: False
|
| 426 |
-
- `use_mps_device`: False
|
| 427 |
-
- `seed`: 42
|
| 428 |
-
- `data_seed`: None
|
| 429 |
-
- `jit_mode_eval`: False
|
| 430 |
-
- `bf16`: True
|
| 431 |
-
- `fp16`: False
|
| 432 |
-
- `fp16_opt_level`: O1
|
| 433 |
-
- `half_precision_backend`: auto
|
| 434 |
-
- `bf16_full_eval`: False
|
| 435 |
-
- `fp16_full_eval`: False
|
| 436 |
-
- `tf32`: None
|
| 437 |
-
- `local_rank`: 0
|
| 438 |
-
- `ddp_backend`: None
|
| 439 |
-
- `tpu_num_cores`: None
|
| 440 |
-
- `tpu_metrics_debug`: False
|
| 441 |
-
- `debug`: []
|
| 442 |
-
- `dataloader_drop_last`: False
|
| 443 |
-
- `dataloader_num_workers`: 0
|
| 444 |
-
- `dataloader_prefetch_factor`: None
|
| 445 |
-
- `past_index`: -1
|
| 446 |
-
- `disable_tqdm`: False
|
| 447 |
-
- `remove_unused_columns`: True
|
| 448 |
-
- `label_names`: None
|
| 449 |
-
- `load_best_model_at_end`: True
|
| 450 |
-
- `ignore_data_skip`: False
|
| 451 |
-
- `fsdp`: []
|
| 452 |
-
- `fsdp_min_num_params`: 0
|
| 453 |
-
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 454 |
-
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 455 |
-
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 456 |
-
- `parallelism_config`: None
|
| 457 |
-
- `deepspeed`: None
|
| 458 |
-
- `label_smoothing_factor`: 0.0
|
| 459 |
-
- `optim`: adamw_torch_fused
|
| 460 |
-
- `optim_args`: None
|
| 461 |
-
- `adafactor`: False
|
| 462 |
-
- `group_by_length`: False
|
| 463 |
-
- `length_column_name`: length
|
| 464 |
-
- `project`: huggingface
|
| 465 |
-
- `trackio_space_id`: trackio
|
| 466 |
-
- `ddp_find_unused_parameters`: None
|
| 467 |
-
- `ddp_bucket_cap_mb`: None
|
| 468 |
-
- `ddp_broadcast_buffers`: False
|
| 469 |
-
- `dataloader_pin_memory`: True
|
| 470 |
-
- `dataloader_persistent_workers`: False
|
| 471 |
-
- `skip_memory_metrics`: True
|
| 472 |
-
- `use_legacy_prediction_loop`: False
|
| 473 |
-
- `push_to_hub`: True
|
| 474 |
-
- `resume_from_checkpoint`: None
|
| 475 |
-
- `hub_model_id`: thivy/norbert4-exp1-multidataset-roundrobin
|
| 476 |
-
- `hub_strategy`: end
|
| 477 |
-
- `hub_private_repo`: False
|
| 478 |
-
- `hub_always_push`: False
|
| 479 |
-
- `hub_revision`: None
|
| 480 |
-
- `gradient_checkpointing`: False
|
| 481 |
-
- `gradient_checkpointing_kwargs`: None
|
| 482 |
-
- `include_inputs_for_metrics`: False
|
| 483 |
-
- `include_for_metrics`: []
|
| 484 |
-
- `eval_do_concat_batches`: True
|
| 485 |
-
- `fp16_backend`: auto
|
| 486 |
-
- `push_to_hub_model_id`: None
|
| 487 |
-
- `push_to_hub_organization`: None
|
| 488 |
-
- `mp_parameters`:
|
| 489 |
-
- `auto_find_batch_size`: False
|
| 490 |
-
- `full_determinism`: False
|
| 491 |
-
- `torchdynamo`: None
|
| 492 |
-
- `ray_scope`: last
|
| 493 |
-
- `ddp_timeout`: 1800
|
| 494 |
-
- `torch_compile`: False
|
| 495 |
-
- `torch_compile_backend`: None
|
| 496 |
-
- `torch_compile_mode`: None
|
| 497 |
-
- `include_tokens_per_second`: False
|
| 498 |
-
- `include_num_input_tokens_seen`: no
|
| 499 |
-
- `neftune_noise_alpha`: None
|
| 500 |
-
- `optim_target_modules`: None
|
| 501 |
-
- `batch_eval_metrics`: False
|
| 502 |
-
- `eval_on_start`: False
|
| 503 |
-
- `use_liger_kernel`: False
|
| 504 |
-
- `liger_kernel_config`: None
|
| 505 |
-
- `eval_use_gather_object`: False
|
| 506 |
-
- `average_tokens_across_devices`: True
|
| 507 |
-
- `prompts`: None
|
| 508 |
-
- `batch_sampler`: batch_sampler
|
| 509 |
-
- `multi_dataset_batch_sampler`: round_robin
|
| 510 |
-
- `router_mapping`: {}
|
| 511 |
-
- `learning_rate_mapping`: {}
|
| 512 |
|
| 513 |
-
|
| 514 |
|
| 515 |
-
|
| 516 |
-
|
| 517 |
-
|
| 518 |
-
|
| 519 |
-
|
| 520 |
-
| 0.7187 | 6300 | 0.2065 | - | - | - |
|
| 521 |
-
| 0.7301 | 6400 | 0.2162 | - | - | - |
|
| 522 |
-
| 0.7415 | 6500 | 0.2242 | - | - | - |
|
| 523 |
-
| 0.7529 | 6600 | 0.212 | - | - | - |
|
| 524 |
-
| 0.7643 | 6700 | 0.2169 | - | - | - |
|
| 525 |
-
| 0.7757 | 6800 | 0.2206 | - | - | - |
|
| 526 |
-
| 0.7871 | 6900 | 0.2009 | - | - | - |
|
| 527 |
-
| 0.7985 | 7000 | 0.241 | 0.4946 | 0.1162 | 0.1551 |
|
| 528 |
-
| 0.8099 | 7100 | 0.224 | - | - | - |
|
| 529 |
-
| 0.8214 | 7200 | 0.2333 | - | - | - |
|
| 530 |
-
| 0.8328 | 7300 | 0.2237 | - | - | - |
|
| 531 |
-
| 0.8442 | 7400 | 0.2204 | - | - | - |
|
| 532 |
-
| 0.8556 | 7500 | 0.2093 | - | - | - |
|
| 533 |
-
| 0.8670 | 7600 | 0.2129 | - | - | - |
|
| 534 |
-
| 0.8784 | 7700 | 0.2014 | - | - | - |
|
| 535 |
-
| 0.8898 | 7800 | 0.2061 | - | - | - |
|
| 536 |
-
| 0.9012 | 7900 | 0.1983 | - | - | - |
|
| 537 |
-
| **0.9126** | **8000** | **0.2192** | **0.4903** | **0.1176** | **0.1532** |
|
| 538 |
-
| 0.9240 | 8100 | 0.2012 | - | - | - |
|
| 539 |
-
| 0.9354 | 8200 | 0.211 | - | - | - |
|
| 540 |
-
| 0.9468 | 8300 | 0.2142 | - | - | - |
|
| 541 |
-
| 0.9582 | 8400 | 0.2391 | - | - | - |
|
| 542 |
-
| 0.9697 | 8500 | 0.2232 | - | - | - |
|
| 543 |
-
| 0.9811 | 8600 | 0.2248 | - | - | - |
|
| 544 |
-
| 0.9925 | 8700 | 0.2229 | - | - | - |
|
| 545 |
|
| 546 |
-
|
| 547 |
|
| 548 |
-
|
| 549 |
-
-
|
| 550 |
-
-
|
| 551 |
-
- Transformers: 4.57.3
|
| 552 |
-
- PyTorch: 2.9.1
|
| 553 |
-
- Accelerate: 1.12.0
|
| 554 |
-
- Datasets: 4.4.2
|
| 555 |
-
- Tokenizers: 0.22.1
|
| 556 |
|
| 557 |
## Citation
|
| 558 |
|
| 559 |
-
|
| 560 |
-
|
| 561 |
-
#### Sentence Transformers
|
| 562 |
-
```bibtex
|
| 563 |
-
@inproceedings{reimers-2019-sentence-bert,
|
| 564 |
-
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 565 |
-
author = "Reimers, Nils and Gurevych, Iryna",
|
| 566 |
-
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 567 |
-
month = "11",
|
| 568 |
-
year = "2019",
|
| 569 |
-
publisher = "Association for Computational Linguistics",
|
| 570 |
-
url = "https://arxiv.org/abs/1908.10084",
|
| 571 |
-
}
|
| 572 |
-
```
|
| 573 |
|
| 574 |
-
#### MultipleNegativesRankingLoss
|
| 575 |
```bibtex
|
| 576 |
-
@misc{
|
| 577 |
-
|
| 578 |
-
|
| 579 |
-
|
| 580 |
-
|
| 581 |
-
archivePrefix={arXiv},
|
| 582 |
-
primaryClass={cs.CL}
|
| 583 |
}
|
| 584 |
```
|
| 585 |
|
| 586 |
-
|
| 587 |
-
## Glossary
|
| 588 |
-
|
| 589 |
-
*Clearly define terms in order to be accessible across audiences.*
|
| 590 |
-
-->
|
| 591 |
-
|
| 592 |
-
<!--
|
| 593 |
-
## Model Card Authors
|
| 594 |
-
|
| 595 |
-
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 596 |
-
-->
|
| 597 |
-
|
| 598 |
-
<!--
|
| 599 |
-
## Model Card Contact
|
| 600 |
|
| 601 |
-
|
| 602 |
-
--
|
|
|
|
| 1 |
---
|
| 2 |
language:
|
| 3 |
+
- nb
|
| 4 |
+
- nn
|
| 5 |
- da
|
| 6 |
- sv
|
| 7 |
+
license: mit
|
| 8 |
tags:
|
| 9 |
- sentence-transformers
|
| 10 |
- sentence-similarity
|
| 11 |
- feature-extraction
|
| 12 |
+
- mteb
|
| 13 |
+
- scandinavian
|
| 14 |
+
- norwegian
|
| 15 |
+
- danish
|
| 16 |
+
- swedish
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 17 |
pipeline_tag: sentence-similarity
|
|
|
|
| 18 |
---
|
| 19 |
|
| 20 |
+
# NorBERT4-base Scandinavian Embedding Model
|
| 21 |
|
| 22 |
+
Multi-dataset trained embedding model for Norwegian, Danish, and Swedish languages.
|
| 23 |
|
| 24 |
## Model Details
|
| 25 |
|
| 26 |
+
- **Base Model**: [ltg/norbert4-base](https://huggingface.co/ltg/norbert4-base)
|
| 27 |
+
- **Embedding Dimension**: 640
|
| 28 |
+
- **Max Sequence Length**: 256 tokens
|
| 29 |
+
- **Languages**: Norwegian (Bokmål & Nynorsk), Danish, Swedish
|
| 30 |
+
- **Training Approach**: Multi-dataset ROUND_ROBIN sampling
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 31 |
|
| 32 |
+
## Training Data
|
| 33 |
|
| 34 |
+
Total: **1.6M samples** across 3 Scandinavian languages
|
|
|
|
|
|
|
| 35 |
|
| 36 |
+
### 1. NLI Dataset (556k samples, Norwegian)
|
| 37 |
+
- **Source**: [Fremtind/all-nli-norwegian](https://huggingface.co/datasets/Fremtind/all-nli-norwegian)
|
| 38 |
+
- **Format**: (anchor, positive, negative) triplets
|
| 39 |
+
- **Purpose**: Natural language understanding and semantic similarity
|
| 40 |
|
| 41 |
+
### 2. Question-Answering Dataset (100k samples, NO+DA+SV)
|
| 42 |
+
- **NorQuAD**: [ltg/norquad](https://huggingface.co/datasets/ltg/norquad) - Norwegian QA
|
| 43 |
+
- **NorBookQA**: [ltg/norbookqa](https://huggingface.co/datasets/ltg/norbookqa) - Norwegian OpenBookQA
|
| 44 |
+
- **ScandiQA**: [alexandrainst/scandi-qa](https://huggingface.co/datasets/alexandrainst/scandi-qa) - Scandinavian QA (NO+DA+SV)
|
| 45 |
+
- **Supervised-DA**: Danish sentence pairs
|
| 46 |
+
- **Format**: (query, positive) pairs
|
| 47 |
+
- **Purpose**: Question-document retrieval
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 48 |
|
| 49 |
+
### 3. DDSC Nordic Dataset (949k samples, NO+DA+SV)
|
| 50 |
+
- **Source**: [DDSC/nordic-embedding-training-data](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data)
|
| 51 |
+
- **Format**: (query, positive, [negative]) pairs
|
| 52 |
+
- **Composition**: 40% with hard negatives, 60% with in-batch negatives
|
| 53 |
+
- **Purpose**: General retrieval with hard negative mining
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 54 |
|
| 55 |
## Training Details
|
| 56 |
|
| 57 |
+
- **Strategy**: ROUND_ROBIN multi-dataset sampling (prevents catastrophic forgetting)
|
| 58 |
+
- **Batch Size**: 16 (effective batch size: 32 with gradient accumulation)
|
| 59 |
+
- **Learning Rate**: 5e-6 (low LR to prevent overfitting)
|
| 60 |
+
- **Epochs**: 1 epoch through all datasets
|
| 61 |
+
- **Loss**: MultipleNegativesRankingLoss
|
| 62 |
+
- **Early Stopping**: Tracks average loss across all three datasets
|
| 63 |
+
- **Regularization**: weight_decay=0.015, no warmup
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 64 |
|
| 65 |
+
## Performance
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 66 |
|
| 67 |
+
MTEB Retrieval Benchmarks (vs previous models):
|
| 68 |
|
| 69 |
+
| Task | Multi-Dataset | QA-only | NLI-only | Improvement |
|
| 70 |
+
|------|--------------|---------|----------|-------------|
|
| 71 |
+
| NorQuadRetrieval (ndcg@10) | **0.232** | 0.209 | 0.163 | +11.0% |
|
| 72 |
+
| SNLRetrieval (ndcg@10) | **0.818** | 0.765 | 0.519 | +6.9% |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 73 |
|
| 74 |
+
## Usage
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 75 |
|
| 76 |
+
```python
|
| 77 |
+
from sentence_transformers import SentenceTransformer
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 78 |
|
| 79 |
+
model = SentenceTransformer("thivy/norbert4-base-scandinavian-embedding")
|
|
|
|
| 80 |
|
| 81 |
+
# Encode sentences
|
| 82 |
+
sentences = [
|
| 83 |
+
"Dette er en norsk setning",
|
| 84 |
+
"Detta är en svensk mening",
|
| 85 |
+
"Dette er en dansk sætning"
|
| 86 |
+
]
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 87 |
|
| 88 |
+
embeddings = model.encode(sentences)
|
|
|
|
| 89 |
|
| 90 |
+
# Compute similarity
|
| 91 |
+
from sentence_transformers.util import cos_sim
|
| 92 |
+
similarity = cos_sim(embeddings[0], embeddings[1])
|
| 93 |
+
```
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 94 |
|
| 95 |
+
## Intended Use
|
| 96 |
|
| 97 |
+
- Semantic search across Scandinavian languages
|
| 98 |
+
- Document retrieval and ranking
|
| 99 |
+
- Question-answering systems
|
| 100 |
+
- Cross-lingual similarity (NO/DA/SV)
|
| 101 |
+
- Text clustering and classification
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 102 |
|
| 103 |
+
## Limitations
|
| 104 |
|
| 105 |
+
- Max sequence length: 256 tokens (longer texts are truncated)
|
| 106 |
+
- Optimized for Scandinavian languages (Norwegian, Danish, Swedish)
|
| 107 |
+
- Best performance on retrieval tasks (not instruction-following)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 108 |
|
| 109 |
## Citation
|
| 110 |
|
| 111 |
+
If you use this model, please cite:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 112 |
|
|
|
|
| 113 |
```bibtex
|
| 114 |
+
@misc{norbert4-scandi-embedding,
|
| 115 |
+
title={NorBERT4 Scandinavian Embedding Model},
|
| 116 |
+
author={Thivyesh Ahilathasan},
|
| 117 |
+
year={2025},
|
| 118 |
+
url={https://huggingface.co/thivy/norbert4-base-scandinavian-embedding}
|
|
|
|
|
|
|
| 119 |
}
|
| 120 |
```
|
| 121 |
|
| 122 |
+
## Related Models
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 123 |
|
| 124 |
+
- Base: [ltg/norbert4-base](https://huggingface.co/ltg/norbert4-base)
|
| 125 |
+
- Large: [thivy/norbert4-large-scandinavian-embedding](https://huggingface.co/thivy/norbert4-large-scandinavian-embedding) (coming soon)
|