thivy commited on
Commit
4f6197a
·
verified ·
1 Parent(s): f1596b1

Update model card with dataset details and performance metrics

Browse files
Files changed (1) hide show
  1. README.md +80 -557
README.md CHANGED
@@ -1,602 +1,125 @@
1
  ---
2
  language:
3
- - 'no'
 
4
  - da
5
  - sv
 
6
  tags:
7
  - sentence-transformers
8
  - sentence-similarity
9
  - feature-extraction
10
- - dense
11
- - generated_from_trainer
12
- - dataset_size:1026130
13
- - loss:MultipleNegativesRankingLoss
14
- base_model: ltg/norbert4-base
15
- widget:
16
- - source_sentence: Hvor mange stater er der i indien, og hvad er de?
17
- sentences:
18
- - "List of state and union territory capitals in India\nNej.\nstat eller\nunionsterritorium\n\
19
- Administrative hovedstæder\nLovgivende hovedstæder\nRetsvæsenets hovedstæder\n\
20
- År, hvor kapitalen blev oprettet\nDen tidligere hovedstad\n\n\n1\nAndamanerne\
21
- \ og Nicobarerne\nPort Blair\nPort Blair\nKolkata\n1955\nCalcutta (1945-1955)\n\
22
- \n\n2\nAndhra Pradesh\nHyderabad (de jure til 2024)\nAmaravati (de facto fra 2017)\
23
- \ [a]\nAmaravati\nHyderabad\n1956\n2017\nKurnool (1953-1956)\n\n\n3\nArunachal\
24
- \ Pradesh\nItanagar\nItanagar\nGuwahati\n1986\n\n\n\n4\nAssam\nDispur\nGuwahati\n\
25
- Guwahati\n1975\nShillong[b] (1874-1952)\n\n\n5\nBihar\nPatna\nPatna\nPatna\n1912\n\
26
- \n\n\n6\nChandigarh\nChandigarh[c]\n -\nChandigarh\n1966\n -\n\n\n7\nChhattisgarh\n\
27
- Naya Raipur[d]\nRaipur\nBilaspur\n2000\n -\n\n\n8\nDadra og Nagar Haveli\nSilvassa\n\
28
- \ -\nMumbai\n1945\nMumbai (1954-1961)\nPanaji (1961-1987)\n\n\n9\nDaman og Diu\n\
29
- Daman\n -\nMumbai\n1987\nAhmedabad (1961-1963)\nPanaji (1963-1987)\n\n\n10\nDet\
30
- \ nationale hovedstadsområde Delhi\nNew Delhi\nNew Delhi\nNew Delhi\n1931\n -\n\
31
- \n\n11\nGoa\nPanaji[e]\nPorvorim\nMumbai\n1961\nPanaji (1961-1987)\n\n\n12\nGujarat\n\
32
- Gandhinagar\nGandhinagar\nAhmedabad\n1960\nAhmedabad (1960-1970)\n\n\n13\nHaryana\n\
33
- Chandigarh\nChandigarh\nChandigarh\n1966\n -\n\n\n14\nHimachal Pradesh\nShimla\n\
34
- Dharamshala (W/2nd)\n\nShimla (sommer)\nDharamsala(Vinter)\n\nShimla\n1971\n2017\n\
35
- \nBilaspur (1950-1956)\n\n\n15\nJammu og Kashmir\nSrinagar (sommer)\nJammu (vinter)\n\
36
- Srinagar (sommer)\nJammu (vinter)\nSrinagar (sommer)\nJammu (vinter)\n1947\n -\n\
37
- \n\n16\nJharkhand\nRanchi\nRanchi\nRanchi\n2000\n\n\n\n17\nKarnataka\nBengaluru\n\
38
- Bengaluru\nBengaluru\n1940\n(Mysore)\n\n\n18\nKerala\nThiruvananthapuram\nThiruvananthapuram\n\
39
- Kochi\n1956\n\n\n\n19\nLakshadweep\nKavaratti\nKavaratti\nKochi\n1956\n\n\n\n\
40
- 20\nMadhya Pradesh\nBhopal\nBhopal\nJabalpur\n1956\nNagpur [f] (1861-1956)\n\n\
41
- \n21\nMaharashtra\nMumbai[g]\nNagpur (W/2nd)[h]\nMumbai (S+B)\nNagpur (W)[i]\n\
42
- Mumbai\n1818\n1960\n -\n\n\n22\nManipur\nImphal\nImphal\nImphal\n1947\n -\n\n\n\
43
- 23\nMeghalaya\nShillong\nShillong\nShillong\n1970\n -\n\n\n24\nMizoram\nAizawl\n\
44
- Aizawl\nGuwahati\n1972\n -\n\n\n25\nNagaland\nKohima\nKohima\nGuwahati\n1963\n\
45
- \ -\n\n\n26\nOdisha\nBhubaneswar\nBhubaneswar\nCuttack\n1948\nCuttack (1936-1948)\n\
46
- \n\n27\nPuducherry\nPuducherry\nPuducherry\nChennai\n1954\nMadras (1948-1954)\n\
47
- \n\n28\nPunjab\nChandigarh\nChandigarh\nl\n1966\n\n\n29\nRajasthan\nJaipur\nJaipur\n\
48
- Jodhpur\n1950\n -\n\n\n30\nSikkim\nGangtok[j]\nGangtok\nGangtok\n1890\n -\n\n\n\
49
- 31\nTamil Nadu\nChennai[k]\nChennai\nChennai\n1956\n \n\n\n32\nTelangana\nHyderabad[l]\n\
50
- Hyderabad\nHyderabad\n2014\n -\n\n\n33\nTripura\nAgartala\nAgartala\nAgartala\n\
51
- 1956\n -\n\n\n34\nUttar Pradesh\nLucknow\nLucknow\nAllahabad\n1938\n -\n\n\n35\n\
52
- Uttarakhand\nDehradun[m]\nDehradun\nNainital\n2000\n -\n\n\n36\nVestbengalen\n\
53
- Kolkata\nKolkata\nKolkata\n1947"
54
- - "\n \nMen først troede du, at han blev myrdet, ikke?\n \n "
55
- - "\n \nHvilken del af fysikken arbejder du med?\n \n "
56
- - source_sentence: En mann i sin egen verden med seg selv og musikken sin, bare underholder
57
- på gatehjørnet.
58
- sentences:
59
- - En jente er ute.
60
- - En mann spiser på en lokal diner.
61
- - En mann er på et gatehjørne.
62
- - source_sentence: En mann lager et sandmaleri på gulvet.
63
- sentences:
64
- - En mann lager kunst.
65
- - En kvinne ødelegger et sandmaleri.
66
- - En jente med hendene i et badekar.
67
- - source_sentence: En ung kvinne sitter i lotusstilling ved vesken sin på gresset
68
- blant en mengde hunder.
69
- sentences:
70
- - Hundene står rundt en kryssbeinet kvinne på gresset.
71
- - Barn går forbi foreldrene sine.
72
- - Kvinnen er på sofaen med hundene.
73
- - source_sentence: Hvordan kan maskinlæring brukes til å detektere kreft tidlig via
74
- medisinske bilder?
75
- sentences:
76
- - 'Informasjonsteknologi spiller en stadig viktigere rolle i moderne medisin. Fra
77
- elektroniske pasientjournaler til telemedisin har teknologi endret måten leger
78
- behandler pasienter på. Maskinlæring er en av de mest lovende teknologiene innen
79
- medisin i dag. Den brukes allerede til å diagnostisere sykdommer, utvikle nye
80
- legemidler og personnalisere behandlingsplaner. Dessuten kan maskinlæring analysere
81
- store mengder data fra kliniske prøver og medisinske bilder for å identifisere
82
- nye biomarkers og behandlingsmål. '
83
- - Postmodernismen afviser tanken om en universel sandhed og hævder, at vores forståelse
84
- af verden er formet af kulturelle og historiske kontekster.
85
- - "Moderne medisin står overfor en betydelig utfordring i å oppdage kreft i tidlige\
86
- \ stadier. Tidlig diagnose er avgjørende for å forbedre behandlingsresultater\
87
- \ og pasientens overlevelse. Nye teknologier som maskinlæring, en gren av kunstig\
88
- \ intelligens, viser stort potensiale innen kreftdiagnostikk. Ved å analysere\
89
- \ store mengder medisinske bilder, som røntgenbilder, CT-skanninger og patologiske\
90
- \ prøver, kan maskinlæringssystemer trenes til å gjenkjenne subtile mønstre og\
91
- \ anomali som kan indikere kreft. Disse modellene kan bistå leger i å identifisere\
92
- \ potensielle kreftsvulster med høy nøyaktighet og effektivitet.\n\nMaskinlæring\
93
- \ er spesielt nyttig for å analysere komplekse medisinske bilder som kan være\
94
- \ vanskelige å tolke for det menneskelige øyet. Algoritmer kan trenes til å fokusere\
95
- \ på spesifikke egenskaper og teksturer som er assosiert med kreftceller. Dette\
96
- \ kan føre til tidligere og mer pålitelige diagnoser, noe som kan gi pasienter\
97
- \ tilgang til behandling tidligere i sykdomsforløpet. \n\nI tillegg til tidlig\
98
- \ deteksjon, kan maskinlæring også brukes til å prediktere kreftens aggressivitet\
99
- \ og respons på behandling. Ved å analysere genetiske data og andre relevante\
100
- \ faktorer, kan maskinlæringssystemer gi viktige innsikter som kan personnalere\
101
- \ behandlingen og forbedre pasientutfallet."
102
- datasets:
103
- - Fremtind/all-nli-norwegian
104
- - DDSC/nordic-embedding-training-data
105
  pipeline_tag: sentence-similarity
106
- library_name: sentence-transformers
107
  ---
108
 
109
- # SentenceTransformer based on ltg/norbert4-base
110
 
111
- This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [ltg/norbert4-base](https://huggingface.co/ltg/norbert4-base) on the [nli](https://huggingface.co/datasets/Fremtind/all-nli-norwegian), group-b-qa and [group-a-ddsc](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data) datasets. It maps sentences & paragraphs to a 640-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
112
 
113
  ## Model Details
114
 
115
- ### Model Description
116
- - **Model Type:** Sentence Transformer
117
- - **Base model:** [ltg/norbert4-base](https://huggingface.co/ltg/norbert4-base) <!-- at revision 36aeed6233fc19d178b47825ddc6f3389be7ceca -->
118
- - **Maximum Sequence Length:** 256 tokens
119
- - **Output Dimensionality:** 640 dimensions
120
- - **Similarity Function:** Cosine Similarity
121
- - **Training Datasets:**
122
- - [nli](https://huggingface.co/datasets/Fremtind/all-nli-norwegian)
123
- - group-b-qa
124
- - [group-a-ddsc](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data)
125
- - **Languages:** no, da, sv
126
- <!-- - **License:** Unknown -->
127
 
128
- ### Model Sources
129
 
130
- - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
131
- - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
132
- - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
133
 
134
- ### Full Model Architecture
 
 
 
135
 
136
- ```
137
- SentenceTransformer(
138
- (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'GptBertModel'})
139
- (1): Pooling({'word_embedding_dimension': 640, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
140
- )
141
- ```
142
-
143
- ## Usage
144
-
145
- ### Direct Usage (Sentence Transformers)
146
-
147
- First install the Sentence Transformers library:
148
-
149
- ```bash
150
- pip install -U sentence-transformers
151
- ```
152
-
153
- Then you can load this model and run inference.
154
- ```python
155
- from sentence_transformers import SentenceTransformer
156
-
157
- # Download from the 🤗 Hub
158
- model = SentenceTransformer("thivy/norbert4-exp1-multidataset-roundrobin")
159
- # Run inference
160
- queries = [
161
- "Hvordan kan maskinl\u00e6ring brukes til \u00e5 detektere kreft tidlig via medisinske bilder?",
162
- ]
163
- documents = [
164
- 'Moderne medisin står overfor en betydelig utfordring i å oppdage kreft i tidlige stadier. Tidlig diagnose er avgjørende for å forbedre behandlingsresultater og pasientens overlevelse. Nye teknologier som maskinlæring, en gren av kunstig intelligens, viser stort potensiale innen kreftdiagnostikk. Ved å analysere store mengder medisinske bilder, som røntgenbilder, CT-skanninger og patologiske prøver, kan maskinlæringssystemer trenes til å gjenkjenne subtile mønstre og anomali som kan indikere kreft. Disse modellene kan bistå leger i å identifisere potensielle kreftsvulster med høy nøyaktighet og effektivitet.\n\nMaskinlæring er spesielt nyttig for å analysere komplekse medisinske bilder som kan være vanskelige å tolke for det menneskelige øyet. Algoritmer kan trenes til å fokusere på spesifikke egenskaper og teksturer som er assosiert med kreftceller. Dette kan føre til tidligere og mer pålitelige diagnoser, noe som kan gi pasienter tilgang til behandling tidligere i sykdomsforløpet. \n\nI tillegg til tidlig deteksjon, kan maskinlæring også brukes til å prediktere kreftens aggressivitet og respons på behandling. Ved å analysere genetiske data og andre relevante faktorer, kan maskinlæringssystemer gi viktige innsikter som kan personnalere behandlingen og forbedre pasientutfallet.',
165
- 'Informasjonsteknologi spiller en stadig viktigere rolle i moderne medisin. Fra elektroniske pasientjournaler til telemedisin har teknologi endret måten leger behandler pasienter på. Maskinlæring er en av de mest lovende teknologiene innen medisin i dag. Den brukes allerede til å diagnostisere sykdommer, utvikle nye legemidler og personnalisere behandlingsplaner. Dessuten kan maskinlæring analysere store mengder data fra kliniske prøver og medisinske bilder for å identifisere nye biomarkers og behandlingsmål. ',
166
- 'Postmodernismen afviser tanken om en universel sandhed og hævder, at vores forståelse af verden er formet af kulturelle og historiske kontekster.',
167
- ]
168
- query_embeddings = model.encode_query(queries)
169
- document_embeddings = model.encode_document(documents)
170
- print(query_embeddings.shape, document_embeddings.shape)
171
- # [1, 640] [3, 640]
172
-
173
- # Get the similarity scores for the embeddings
174
- similarities = model.similarity(query_embeddings, document_embeddings)
175
- print(similarities)
176
- # tensor([[0.8565, 0.3872, 0.0083]])
177
- ```
178
-
179
- <!--
180
- ### Direct Usage (Transformers)
181
-
182
- <details><summary>Click to see the direct usage in Transformers</summary>
183
-
184
- </details>
185
- -->
186
-
187
- <!--
188
- ### Downstream Usage (Sentence Transformers)
189
-
190
- You can finetune this model on your own dataset.
191
-
192
- <details><summary>Click to expand</summary>
193
-
194
- </details>
195
- -->
196
-
197
- <!--
198
- ### Out-of-Scope Use
199
-
200
- *List how the model may foreseeably be misused and address what users ought not to do with the model.*
201
- -->
202
 
203
- <!--
204
- ## Bias, Risks and Limitations
205
-
206
- *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
207
- -->
208
-
209
- <!--
210
- ### Recommendations
211
-
212
- *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
213
- -->
214
 
215
  ## Training Details
216
 
217
- ### Training Datasets
218
-
219
- #### nli
220
-
221
- * Dataset: [nli](https://huggingface.co/datasets/Fremtind/all-nli-norwegian) at [98cabde](https://huggingface.co/datasets/Fremtind/all-nli-norwegian/tree/98cabded09bfe5f505757840026ecdf6a357a04c)
222
- * Size: 556,367 training samples
223
- * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
224
- * Approximate statistics based on the first 1000 samples:
225
- | | anchor | positive | negative |
226
- |:--------|:---------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
227
- | type | string | string | string |
228
- | details | <ul><li>min: 6 tokens</li><li>mean: 9.53 tokens</li><li>max: 47 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 12.03 tokens</li><li>max: 40 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 12.7 tokens</li><li>max: 49 tokens</li></ul> |
229
- * Samples:
230
- | anchor | positive | negative |
231
- |:---------------------------------------------------------------|:------------------------------------------------|:---------------------------------------------------------------|
232
- | <code>En person på en hest hopper over et havarert fly.</code> | <code>En person er utendørs, på en hest.</code> | <code>En person er på en diner og bestiller en omelett.</code> |
233
- | <code>Barn smiler og vinker til kameraet</code> | <code>Det er barn til stede</code> | <code>Barna rynker pannen</code> |
234
- | <code>En gutt hopper på skateboard midt på en rød bro.</code> | <code>Gutten gjør et skateboardtriks.</code> | <code>Gutten skater nedover fortauet.</code> |
235
- * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
236
- ```json
237
- {
238
- "scale": 20.0,
239
- "similarity_fct": "cos_sim",
240
- "gather_across_devices": false
241
- }
242
- ```
243
-
244
- #### group-b-qa
245
 
246
- * Dataset: group-b-qa
247
- * Size: 93,501 training samples
248
- * Columns: <code>query</code> and <code>positive</code>
249
- * Approximate statistics based on the first 1000 samples:
250
- | | query | positive |
251
- |:--------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
252
- | type | string | string |
253
- | details | <ul><li>min: 6 tokens</li><li>mean: 25.29 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 1 tokens</li><li>mean: 144.38 tokens</li><li>max: 256 tokens</li></ul> |
254
- * Samples:
255
- | query | positive |
256
- |:------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
257
- | <code>Indonesisk teenager har overlevet 49 dage alene til havs</code> | <code>Det skulle have været en normal arbejdsdag for Aldi Novel Adilang.<br>Alene på en rompong, der er specialbygget båd med en tilhørende hytte og et fiskenet under båden, skulle den 19-årige teenager passe sit job ved at lyse ned i havet for at lokke fisk til. Båden lå fortøjet omkring 125 kilometer fra kysten nær Manado i Indonesien.<br>En gang om ugen fik Aldi Novel Adilang besøg. En medarbejder fra firmaet, der ejede båden, kom med proviant til Aldi, og tog ugens indfangede fisk med sig tilbage.<br>Her er en mand, der overlevede to døgn på havet på sit hustag<br>Arbejdet fik Aldi Novel Aldilang, da han var 16, og alt forløb uden de store problemer, indtil en dag midt i juli i år. Her fik en kraftig vind rusket op i fortøjningerne, der indtil da havde holdt båden fast til havbunden. Den kraftige vind fik båden til at drive længere og længere væk fra den indonesiske kyst.<br>Provianten slap hurtigt op og dagene blev til uger for den unge indoneser.<br>Ugerne gik uden nogle kom Aldi til undsætning. 10 skib...</code> |
258
- | <code>Hvilken politisk struktur kendetegnede Samhan-perioden i Korea? <br><br></code> | <code>I sin sidste fase efterfølges Koreas bronzekultur politisk af Samhan-perioden (3. århundrede f.Kr.- 3. århundrede e.Kr.), som havde samme etniske og kulturelle grundlag. Det var en tid, hvor byerne begynder at blive befæstet med bymure, hvor der bliver etableret en hierarkisk politisk struktur, og som stod i modsætning til det stammepolitiske system, der havde været reglen tidligere.</code> |
259
- | <code>Hvilken af sangene på albummet "Brygmann's Bedste Sange" er komponeret af Nikolaj Steen?</code> | <code>Sangen "Kom lad os gå" (nr. 13) er komponeret af Nikolaj Steen på albummet "Brygmann's Bedste Sange".</code> |
260
- * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
261
- ```json
262
- {
263
- "scale": 20.0,
264
- "similarity_fct": "cos_sim",
265
- "gather_across_devices": false
266
- }
267
- ```
268
 
269
- #### group-a-ddsc
270
 
271
- * Dataset: [group-a-ddsc](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data) at [fb27300](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data/tree/fb273000c9f029ee3a0facbbb474097b5678521b)
272
- * Size: 376,262 training samples
273
- * Columns: <code>query</code>, <code>positive</code>, and <code>negative</code>
274
- * Approximate statistics based on the first 1000 samples:
275
- | | query | positive | negative |
276
- |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
277
- | type | string | string | string |
278
- | details | <ul><li>min: 3 tokens</li><li>mean: 23.23 tokens</li><li>max: 72 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 104.25 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 1 tokens</li><li>mean: 68.97 tokens</li><li>max: 256 tokens</li></ul> |
279
- * Samples:
280
- | query | positive | negative |
281
- |:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
282
- | <code>Klimatförändringen är en av de största utmaningarna för vår tid. Den påverkar ekosystemen, vår hälsa och den globala ekonomin.</code> | <code>Vår tid präglas av klimatförändringen, en enorm utmaning som hotar ekosystemen, människors hälsa och världsekonomin.</code> | <code>Fenomenet klimatförändring har blivit en debatt som engagerar forskare, politiker och allmänheten. Dess effekter på miljön är allvarliga och kräver omedelbara åtgärder.</code> |
283
- | <code>Hva var den økonomiske betydningen av bomkadeblokkaden av sørstatene under den amerikanske borgerkrigen, og hvordan påvirket det den europeiske tekstilindustrien?</code> | <code>Den amerikanske borgerkrigen var en krise for den europeiske tekstilindustrien. Unionens blokade av Sørstatene førte til knapphet på bomull, Sørstatenes viktigste avling. Storbritannia, som var avhengig av sørlig bomull, opplevde en kraftig reduksjon i produksjonen. Fabrikkene stengte, arbeidsledigheten steg og den britiske industrien ble hardt rammet. Mange europeiske land søkte nye bomkullsleverandører, men ingen klarte å erstatte den amerikanske bomullen fullt ut. Dette førte til en global bomullskrise som varte i flere år. Avhengigheten av en enkelt leverandør viste seg å være sårbart, og europeiske land begynte å investere i bomullsdyrking i koloniene sine for å sikre fremtidige forsyninger.</code> | <code>Den amerikanske borgerkrigen var en blodig konflikt som ravde landet i fire år. Slavene i Sørstatene ble frigjort avgjørende Deklarasjon om frigjøring, men den fullstendige avskaffelsen av slaveriet ble først sikret med den 13. grunnloven. Krigen endte med en nordlig seier, men den etterlot dype sår og en nasjon i ruiner. Reconstructing the South and reintegrating the former Confederate states into the Union, proved to be a lengthy and complex process. </code> |
284
- | <code>Familien samles rundt bordet for å spise middag, og stemningen er varm og koselig.</code> | <code>Middagsbordet er dekket, og familien er samlet for å nyte en deilig måltid sammen.</code> | <code>Han tok en bit av kaken og satt seg ved vinduet for å lese en bok.</code> |
285
- * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
286
- ```json
287
- {
288
- "scale": 20.0,
289
- "similarity_fct": "cos_sim",
290
- "gather_across_devices": false
291
- }
292
- ```
293
 
294
- ### Evaluation Datasets
295
-
296
- #### nli
297
-
298
- * Dataset: [nli](https://huggingface.co/datasets/Fremtind/all-nli-norwegian) at [98cabde](https://huggingface.co/datasets/Fremtind/all-nli-norwegian/tree/98cabded09bfe5f505757840026ecdf6a357a04c)
299
- * Size: 1,000 evaluation samples
300
- * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
301
- * Approximate statistics based on the first 1000 samples:
302
- | | anchor | positive | negative |
303
- |:--------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|:--------------------------------------------------------------------------------|
304
- | type | string | string | string |
305
- | details | <ul><li>min: 5 tokens</li><li>mean: 17.72 tokens</li><li>max: 74 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 8.98 tokens</li><li>max: 31 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 9.5 tokens</li><li>max: 29 tokens</li></ul> |
306
- * Samples:
307
- | anchor | positive | negative |
308
- |:------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------|:----------------------------------------------------|
309
- | <code>Mann i skjelett-trykt lærantrekk som sitter på en rød motorsykkel.</code> | <code>En mann sitter på en motorsykkel.</code> | <code>Mannen er naken.</code> |
310
- | <code>En far hjelper sønnen sin med å sykle over tørr og støvete jord, akkompagnert av søsteren hans kledd i en grønn kjole.</code> | <code>En far hjelper sønnen sin</code> | <code>Noen sover</code> |
311
- | <code>En afroamerikaner med en rød ryggsekk ser på fotografen mens han går forbi en betongvegg dekket av graffiti.</code> | <code>en person har på seg en ryggsekk</code> | <code>en asiatisk person har en rød ryggsekk</code> |
312
- * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
313
- ```json
314
- {
315
- "scale": 20.0,
316
- "similarity_fct": "cos_sim",
317
- "gather_across_devices": false
318
- }
319
- ```
320
-
321
- #### group-b-qa
322
-
323
- * Dataset: group-b-qa
324
- * Size: 500 evaluation samples
325
- * Columns: <code>query</code> and <code>positive</code>
326
- * Approximate statistics based on the first 500 samples:
327
- | | query | positive |
328
- |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
329
- | type | string | string |
330
- | details | <ul><li>min: 7 tokens</li><li>mean: 15.13 tokens</li><li>max: 121 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 39.93 tokens</li><li>max: 256 tokens</li></ul> |
331
- * Samples:
332
- | query | positive |
333
- |:--------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
334
- | <code><br> <br>Du vet vel at det må være en slags kode.<br> <br> </code> | <code><br>Det må være en slags kode.<br> <br> </code> |
335
- | <code><br> <br>Kan du ikke sende noen til moloen.<br> </code> | <code><br> <br>Vil du ikke sende nogen til molen.<br> </code> |
336
- | <code>P diddy nicki minaj hello good morning tekst?</code> | <code>Flere officielle remixes blev udgivet sammen med videoen for at promovere sangen. Den første af disse remixes tilføjede et indledende vers fra rapperen Rick Ross og senere i sangen et nyt vers fra den kvindelige rapper Nicki Minaj. Den blev mærket som "Official Remix" og blev udgivet i USA den 29. juni 2010 til digital download. Der blev skabt en musikvideo til denne version ved at tilføje yderligere optagelser til den oprindelige video. Den havde premiere den 21. juni 2010. Et andet remix, der kun indeholder Ross' ekstra vers, blev brugt til sangens primære musikvideo, der havde premiere den 11. maj 2010 Et tredje remix blev lavet til Storbritannien med titlen "Team UK Remix". I denne version var Tinie Tempah og Tinchy Stryder med i stedet for Minaj og Ross. Den havde premiere den 11. juni 2010 på Tim Westwoods Radio 1Xtra-dagshow Westwood på Radio 1Xtra. Den blev udgivet som nummer to på den britiske digitale EP-single, der blev udgivet den 20. juni 2010. Et sidste remix blev lavet, ...</code> |
337
- * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
338
- ```json
339
- {
340
- "scale": 20.0,
341
- "similarity_fct": "cos_sim",
342
- "gather_across_devices": false
343
- }
344
- ```
345
-
346
- #### group-a-ddsc
347
 
348
- * Dataset: [group-a-ddsc](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data) at [fb27300](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data/tree/fb273000c9f029ee3a0facbbb474097b5678521b)
349
- * Size: 500 evaluation samples
350
- * Columns: <code>query</code>, <code>positive</code>, and <code>negative</code>
351
- * Approximate statistics based on the first 500 samples:
352
- | | query | positive | negative |
353
- |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
354
- | type | string | string | string |
355
- | details | <ul><li>min: 3 tokens</li><li>mean: 22.44 tokens</li><li>max: 67 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 103.04 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 8 tokens</li><li>mean: 68.37 tokens</li><li>max: 256 tokens</li></ul> |
356
- * Samples:
357
- | query | positive | negative |
358
- |:------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
359
- | <code>Postmodernismen udfordrer den traditionelle opfattelse af meta-fortællinger og privilegerede perspektiver.</code> | <code>Postmodernismens afvisning af universelle sandheder og fokus på fragmenterede identiteter gør den til en kompleks filosofisk strømning.</code> | <code>Mange litterære værker fra 20. århundredede reflekterer postmodernismens fokus på subjektivitet og dekonstruktionsmetoder.</code> |
360
- | <code>Drengen legede sin blå bold i vandet</code> | <code>Bøgen spillede med den blå bold på græsset</code> | <code>Pigen løb med sin gule bold i haven</code> |
361
- | <code>Nya upptäckter rymden</code> | <code>Det senaste decenniet har varit en guldålder för rymdforskning. Nyligen lanserade teleskop, som James Webb Space Telescope, har gett oss bilder av universum med en detaljeradhet vi aldrig tidigare sett. Dessutom har rymdsonder samlat in värdefulla data om planeter utanför vårt solsystem, exoplaneter. Forskarna har även gjort framsteg i förståelsen av svarta hål, mörk materia och universums ut expansion.</code> | <code>Astronomi är en fascinerande vetenskap som studerar himlakroppar och fenomen. Det finns många olika grenar inom astronomi, inklusive stjärnklara, planetvetenskap och kosmologi. Teleskop är viktiga verktyg för astronomer, och de har utvecklats enormt sedan det första teleskopet uppfanns. </code> |
362
- * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
363
- ```json
364
- {
365
- "scale": 20.0,
366
- "similarity_fct": "cos_sim",
367
- "gather_across_devices": false
368
- }
369
- ```
370
 
371
- ### Training Hyperparameters
372
- #### Non-Default Hyperparameters
373
 
374
- - `eval_strategy`: steps
375
- - `per_device_train_batch_size`: 16
376
- - `per_device_eval_batch_size`: 32
377
- - `gradient_accumulation_steps`: 2
378
- - `learning_rate`: 5e-06
379
- - `weight_decay`: 0.015
380
- - `num_train_epochs`: 1
381
- - `lr_scheduler_type`: cosine
382
- - `bf16`: True
383
- - `load_best_model_at_end`: True
384
- - `push_to_hub`: True
385
- - `hub_model_id`: thivy/norbert4-exp1-multidataset-roundrobin
386
- - `hub_strategy`: end
387
- - `hub_private_repo`: False
388
- - `multi_dataset_batch_sampler`: round_robin
389
 
390
- #### All Hyperparameters
391
- <details><summary>Click to expand</summary>
392
 
393
- - `overwrite_output_dir`: False
394
- - `do_predict`: False
395
- - `eval_strategy`: steps
396
- - `prediction_loss_only`: True
397
- - `per_device_train_batch_size`: 16
398
- - `per_device_eval_batch_size`: 32
399
- - `per_gpu_train_batch_size`: None
400
- - `per_gpu_eval_batch_size`: None
401
- - `gradient_accumulation_steps`: 2
402
- - `eval_accumulation_steps`: None
403
- - `torch_empty_cache_steps`: None
404
- - `learning_rate`: 5e-06
405
- - `weight_decay`: 0.015
406
- - `adam_beta1`: 0.9
407
- - `adam_beta2`: 0.999
408
- - `adam_epsilon`: 1e-08
409
- - `max_grad_norm`: 1.0
410
- - `num_train_epochs`: 1
411
- - `max_steps`: -1
412
- - `lr_scheduler_type`: cosine
413
- - `lr_scheduler_kwargs`: {}
414
- - `warmup_ratio`: 0.0
415
- - `warmup_steps`: 0
416
- - `log_level`: passive
417
- - `log_level_replica`: warning
418
- - `log_on_each_node`: True
419
- - `logging_nan_inf_filter`: True
420
- - `save_safetensors`: True
421
- - `save_on_each_node`: False
422
- - `save_only_model`: False
423
- - `restore_callback_states_from_checkpoint`: False
424
- - `no_cuda`: False
425
- - `use_cpu`: False
426
- - `use_mps_device`: False
427
- - `seed`: 42
428
- - `data_seed`: None
429
- - `jit_mode_eval`: False
430
- - `bf16`: True
431
- - `fp16`: False
432
- - `fp16_opt_level`: O1
433
- - `half_precision_backend`: auto
434
- - `bf16_full_eval`: False
435
- - `fp16_full_eval`: False
436
- - `tf32`: None
437
- - `local_rank`: 0
438
- - `ddp_backend`: None
439
- - `tpu_num_cores`: None
440
- - `tpu_metrics_debug`: False
441
- - `debug`: []
442
- - `dataloader_drop_last`: False
443
- - `dataloader_num_workers`: 0
444
- - `dataloader_prefetch_factor`: None
445
- - `past_index`: -1
446
- - `disable_tqdm`: False
447
- - `remove_unused_columns`: True
448
- - `label_names`: None
449
- - `load_best_model_at_end`: True
450
- - `ignore_data_skip`: False
451
- - `fsdp`: []
452
- - `fsdp_min_num_params`: 0
453
- - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
454
- - `fsdp_transformer_layer_cls_to_wrap`: None
455
- - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
456
- - `parallelism_config`: None
457
- - `deepspeed`: None
458
- - `label_smoothing_factor`: 0.0
459
- - `optim`: adamw_torch_fused
460
- - `optim_args`: None
461
- - `adafactor`: False
462
- - `group_by_length`: False
463
- - `length_column_name`: length
464
- - `project`: huggingface
465
- - `trackio_space_id`: trackio
466
- - `ddp_find_unused_parameters`: None
467
- - `ddp_bucket_cap_mb`: None
468
- - `ddp_broadcast_buffers`: False
469
- - `dataloader_pin_memory`: True
470
- - `dataloader_persistent_workers`: False
471
- - `skip_memory_metrics`: True
472
- - `use_legacy_prediction_loop`: False
473
- - `push_to_hub`: True
474
- - `resume_from_checkpoint`: None
475
- - `hub_model_id`: thivy/norbert4-exp1-multidataset-roundrobin
476
- - `hub_strategy`: end
477
- - `hub_private_repo`: False
478
- - `hub_always_push`: False
479
- - `hub_revision`: None
480
- - `gradient_checkpointing`: False
481
- - `gradient_checkpointing_kwargs`: None
482
- - `include_inputs_for_metrics`: False
483
- - `include_for_metrics`: []
484
- - `eval_do_concat_batches`: True
485
- - `fp16_backend`: auto
486
- - `push_to_hub_model_id`: None
487
- - `push_to_hub_organization`: None
488
- - `mp_parameters`:
489
- - `auto_find_batch_size`: False
490
- - `full_determinism`: False
491
- - `torchdynamo`: None
492
- - `ray_scope`: last
493
- - `ddp_timeout`: 1800
494
- - `torch_compile`: False
495
- - `torch_compile_backend`: None
496
- - `torch_compile_mode`: None
497
- - `include_tokens_per_second`: False
498
- - `include_num_input_tokens_seen`: no
499
- - `neftune_noise_alpha`: None
500
- - `optim_target_modules`: None
501
- - `batch_eval_metrics`: False
502
- - `eval_on_start`: False
503
- - `use_liger_kernel`: False
504
- - `liger_kernel_config`: None
505
- - `eval_use_gather_object`: False
506
- - `average_tokens_across_devices`: True
507
- - `prompts`: None
508
- - `batch_sampler`: batch_sampler
509
- - `multi_dataset_batch_sampler`: round_robin
510
- - `router_mapping`: {}
511
- - `learning_rate_mapping`: {}
512
 
513
- </details>
514
 
515
- ### Training Logs
516
- | Epoch | Step | Training Loss | nli loss | group-b-qa loss | group-a-ddsc loss |
517
- |:----------:|:--------:|:-------------:|:----------:|:---------------:|:-----------------:|
518
- | 0.6959 | 6100 | 0.2126 | - | - | - |
519
- | 0.7073 | 6200 | 0.2335 | - | - | - |
520
- | 0.7187 | 6300 | 0.2065 | - | - | - |
521
- | 0.7301 | 6400 | 0.2162 | - | - | - |
522
- | 0.7415 | 6500 | 0.2242 | - | - | - |
523
- | 0.7529 | 6600 | 0.212 | - | - | - |
524
- | 0.7643 | 6700 | 0.2169 | - | - | - |
525
- | 0.7757 | 6800 | 0.2206 | - | - | - |
526
- | 0.7871 | 6900 | 0.2009 | - | - | - |
527
- | 0.7985 | 7000 | 0.241 | 0.4946 | 0.1162 | 0.1551 |
528
- | 0.8099 | 7100 | 0.224 | - | - | - |
529
- | 0.8214 | 7200 | 0.2333 | - | - | - |
530
- | 0.8328 | 7300 | 0.2237 | - | - | - |
531
- | 0.8442 | 7400 | 0.2204 | - | - | - |
532
- | 0.8556 | 7500 | 0.2093 | - | - | - |
533
- | 0.8670 | 7600 | 0.2129 | - | - | - |
534
- | 0.8784 | 7700 | 0.2014 | - | - | - |
535
- | 0.8898 | 7800 | 0.2061 | - | - | - |
536
- | 0.9012 | 7900 | 0.1983 | - | - | - |
537
- | **0.9126** | **8000** | **0.2192** | **0.4903** | **0.1176** | **0.1532** |
538
- | 0.9240 | 8100 | 0.2012 | - | - | - |
539
- | 0.9354 | 8200 | 0.211 | - | - | - |
540
- | 0.9468 | 8300 | 0.2142 | - | - | - |
541
- | 0.9582 | 8400 | 0.2391 | - | - | - |
542
- | 0.9697 | 8500 | 0.2232 | - | - | - |
543
- | 0.9811 | 8600 | 0.2248 | - | - | - |
544
- | 0.9925 | 8700 | 0.2229 | - | - | - |
545
 
546
- * The bold row denotes the saved checkpoint.
547
 
548
- ### Framework Versions
549
- - Python: 3.12.12
550
- - Sentence Transformers: 5.2.0
551
- - Transformers: 4.57.3
552
- - PyTorch: 2.9.1
553
- - Accelerate: 1.12.0
554
- - Datasets: 4.4.2
555
- - Tokenizers: 0.22.1
556
 
557
  ## Citation
558
 
559
- ### BibTeX
560
-
561
- #### Sentence Transformers
562
- ```bibtex
563
- @inproceedings{reimers-2019-sentence-bert,
564
- title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
565
- author = "Reimers, Nils and Gurevych, Iryna",
566
- booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
567
- month = "11",
568
- year = "2019",
569
- publisher = "Association for Computational Linguistics",
570
- url = "https://arxiv.org/abs/1908.10084",
571
- }
572
- ```
573
 
574
- #### MultipleNegativesRankingLoss
575
  ```bibtex
576
- @misc{henderson2017efficient,
577
- title={Efficient Natural Language Response Suggestion for Smart Reply},
578
- author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
579
- year={2017},
580
- eprint={1705.00652},
581
- archivePrefix={arXiv},
582
- primaryClass={cs.CL}
583
  }
584
  ```
585
 
586
- <!--
587
- ## Glossary
588
-
589
- *Clearly define terms in order to be accessible across audiences.*
590
- -->
591
-
592
- <!--
593
- ## Model Card Authors
594
-
595
- *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
596
- -->
597
-
598
- <!--
599
- ## Model Card Contact
600
 
601
- *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
602
- -->
 
1
  ---
2
  language:
3
+ - nb
4
+ - nn
5
  - da
6
  - sv
7
+ license: mit
8
  tags:
9
  - sentence-transformers
10
  - sentence-similarity
11
  - feature-extraction
12
+ - mteb
13
+ - scandinavian
14
+ - norwegian
15
+ - danish
16
+ - swedish
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
17
  pipeline_tag: sentence-similarity
 
18
  ---
19
 
20
+ # NorBERT4-base Scandinavian Embedding Model
21
 
22
+ Multi-dataset trained embedding model for Norwegian, Danish, and Swedish languages.
23
 
24
  ## Model Details
25
 
26
+ - **Base Model**: [ltg/norbert4-base](https://huggingface.co/ltg/norbert4-base)
27
+ - **Embedding Dimension**: 640
28
+ - **Max Sequence Length**: 256 tokens
29
+ - **Languages**: Norwegian (Bokmål & Nynorsk), Danish, Swedish
30
+ - **Training Approach**: Multi-dataset ROUND_ROBIN sampling
 
 
 
 
 
 
 
31
 
32
+ ## Training Data
33
 
34
+ Total: **1.6M samples** across 3 Scandinavian languages
 
 
35
 
36
+ ### 1. NLI Dataset (556k samples, Norwegian)
37
+ - **Source**: [Fremtind/all-nli-norwegian](https://huggingface.co/datasets/Fremtind/all-nli-norwegian)
38
+ - **Format**: (anchor, positive, negative) triplets
39
+ - **Purpose**: Natural language understanding and semantic similarity
40
 
41
+ ### 2. Question-Answering Dataset (100k samples, NO+DA+SV)
42
+ - **NorQuAD**: [ltg/norquad](https://huggingface.co/datasets/ltg/norquad) - Norwegian QA
43
+ - **NorBookQA**: [ltg/norbookqa](https://huggingface.co/datasets/ltg/norbookqa) - Norwegian OpenBookQA
44
+ - **ScandiQA**: [alexandrainst/scandi-qa](https://huggingface.co/datasets/alexandrainst/scandi-qa) - Scandinavian QA (NO+DA+SV)
45
+ - **Supervised-DA**: Danish sentence pairs
46
+ - **Format**: (query, positive) pairs
47
+ - **Purpose**: Question-document retrieval
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
48
 
49
+ ### 3. DDSC Nordic Dataset (949k samples, NO+DA+SV)
50
+ - **Source**: [DDSC/nordic-embedding-training-data](https://huggingface.co/datasets/DDSC/nordic-embedding-training-data)
51
+ - **Format**: (query, positive, [negative]) pairs
52
+ - **Composition**: 40% with hard negatives, 60% with in-batch negatives
53
+ - **Purpose**: General retrieval with hard negative mining
 
 
 
 
 
 
54
 
55
  ## Training Details
56
 
57
+ - **Strategy**: ROUND_ROBIN multi-dataset sampling (prevents catastrophic forgetting)
58
+ - **Batch Size**: 16 (effective batch size: 32 with gradient accumulation)
59
+ - **Learning Rate**: 5e-6 (low LR to prevent overfitting)
60
+ - **Epochs**: 1 epoch through all datasets
61
+ - **Loss**: MultipleNegativesRankingLoss
62
+ - **Early Stopping**: Tracks average loss across all three datasets
63
+ - **Regularization**: weight_decay=0.015, no warmup
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
64
 
65
+ ## Performance
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
66
 
67
+ MTEB Retrieval Benchmarks (vs previous models):
68
 
69
+ | Task | Multi-Dataset | QA-only | NLI-only | Improvement |
70
+ |------|--------------|---------|----------|-------------|
71
+ | NorQuadRetrieval (ndcg@10) | **0.232** | 0.209 | 0.163 | +11.0% |
72
+ | SNLRetrieval (ndcg@10) | **0.818** | 0.765 | 0.519 | +6.9% |
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
73
 
74
+ ## Usage
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
75
 
76
+ ```python
77
+ from sentence_transformers import SentenceTransformer
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
78
 
79
+ model = SentenceTransformer("thivy/norbert4-base-scandinavian-embedding")
 
80
 
81
+ # Encode sentences
82
+ sentences = [
83
+ "Dette er en norsk setning",
84
+ "Detta är en svensk mening",
85
+ "Dette er en dansk sætning"
86
+ ]
 
 
 
 
 
 
 
 
 
87
 
88
+ embeddings = model.encode(sentences)
 
89
 
90
+ # Compute similarity
91
+ from sentence_transformers.util import cos_sim
92
+ similarity = cos_sim(embeddings[0], embeddings[1])
93
+ ```
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
94
 
95
+ ## Intended Use
96
 
97
+ - Semantic search across Scandinavian languages
98
+ - Document retrieval and ranking
99
+ - Question-answering systems
100
+ - Cross-lingual similarity (NO/DA/SV)
101
+ - Text clustering and classification
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
102
 
103
+ ## Limitations
104
 
105
+ - Max sequence length: 256 tokens (longer texts are truncated)
106
+ - Optimized for Scandinavian languages (Norwegian, Danish, Swedish)
107
+ - Best performance on retrieval tasks (not instruction-following)
 
 
 
 
 
108
 
109
  ## Citation
110
 
111
+ If you use this model, please cite:
 
 
 
 
 
 
 
 
 
 
 
 
 
112
 
 
113
  ```bibtex
114
+ @misc{norbert4-scandi-embedding,
115
+ title={NorBERT4 Scandinavian Embedding Model},
116
+ author={Thivyesh Ahilathasan},
117
+ year={2025},
118
+ url={https://huggingface.co/thivy/norbert4-base-scandinavian-embedding}
 
 
119
  }
120
  ```
121
 
122
+ ## Related Models
 
 
 
 
 
 
 
 
 
 
 
 
 
123
 
124
+ - Base: [ltg/norbert4-base](https://huggingface.co/ltg/norbert4-base)
125
+ - Large: [thivy/norbert4-large-scandinavian-embedding](https://huggingface.co/thivy/norbert4-large-scandinavian-embedding) (coming soon)