Andrianos commited on
Commit
d15c350
·
verified ·
1 Parent(s): 4e9e7f8

Updated readme

Browse files
Files changed (1) hide show
  1. README.md +106 -417
README.md CHANGED
@@ -1,469 +1,158 @@
1
  ---
 
 
2
  tags:
3
  - sentence-transformers
4
- - sentence-similarity
5
  - feature-extraction
6
- - dense
7
- - generated_from_trainer
8
- - dataset_size:24000
9
- - loss:MultipleNegativesRankingLoss
10
- base_model: Alibaba-NLP/gte-multilingual-base
11
- widget:
12
- - source_sentence: Das geschah vor fast 4 Jahren.
13
- sentences:
14
- - Das geschah vqr fast 4 Jahren.
15
- - 'Bundesbeschluss über dFetigstellung der kombinierten Anlage bei der Schweizerischen
16
- Meterologischen Anstalt (METALERT II) vom. September 1982Die Bundesveramlung der
17
- Schweizerischen Eidgenosseschaft, gestützt auf Artikel 85 Ziffer 10 der Bundesverfassung,
18
- nach Einsicht in eine Botschaft des Bundesrates vom 21. Dezember 1981 ''), beschliesst:
19
- Art. l Für die Fertigstellung der kombinierten Anlage bei der Schweizerischen
20
- Meteorologischen Anstalt nach der Botschaft vom 21. Dezember 1981 wird ein Objektkedit
21
- von 8,95 Millionen Franken bewilgt. Art. Dieser Beschluss ist nicht allgemeinverbindlich;
22
- er untersteht nict dem Referendum. tänderat,. Juni 1982 Nationalrat,. eptember
23
- 1982 Der Präsident: Dreyer Die Präsidentin: Lang Die Sekretärin: Hube Der Protokollführer:
24
- Zwicker 8177 '') BB11982 I 153 ,. 1982-870'
25
- - 'Ei weise Rat. Ludwig XIV. von Frankreich erschien im Jahre 1872 mit einer ansehnlichen
26
- Macht vor den Toren Amsterdams, welches nicht dn nötigen Widersand zu leisten
27
- imstande war. Bei der Bevülke» rung herrscte die glühte Bestürzung und der Magistrat
28
- beratschlagte, was unter diesen Umständen zu tun sei. Man kam dain überein. dem
29
- König de Schlssel der Stadt zu überreichen. In diesem Augenblick bemerkte man.
30
- daß ein alter Bürgermeister eingeschlafen war und seine Stimme noch nicht abgegeben
31
- hatte Man weckte ihn: er erkundigte sich nach dem Resultat der Beratung. »Wir
32
- wllen" hieß es.dem Knige die Schlüssel der Stadt übergeben." »Hat er se schon
33
- verlangt?" fragte der ehrwüdige Vater der Stadt. »Noch nicht", mar die ntwort..Dann,
34
- meine Herren", erwiderte er, »wollen wir wenigstens so lange waten, bis er sie
35
- fordert. Dieser Einfall rettete die Reublik, denn schon am nächstenTage sah Ludwig
36
- sich, eingetretener Umstände wegen, veranlaßt, der Stadt den Rücken zu wenden.'
37
- - source_sentence: CHP lideri Kemal Kılıçdaroğlu, şehit cenazesinde kendisine yumurta
38
- atan eylemciyi, 'Sen Müslüman bile olamazsın' diye eleştirdi.
39
- sentences:
40
- - Nous l'apcpelons ainsi car c'ebst un gamin, un gosse, et Goliath est ce géant
41
- costafdzet immense.
42
- - wHP liderıi Klemal Kılıçdaroğlu, şehit cenazesinde kendiEsine yumurta atan eylemciyi,
43
- 'Sen Müslüman bile olmazsın' iye eleştirdi.
44
- - Der ausserordentliche Parteitag der westdeutschen Sozialdemokraten Bonn. Der ausserordentliche
45
- Parteitag der wesdeutschen Sozialdemokraten begann am Mittwoch, ‘l6. April, in
46
- Godesberg. Der Parteivorstand hatte ich mit sechs Anträgen bemüht, das Heft in
47
- die Hand zu bekommen. Um die Wähler nicht zu verärgern und die Eiigkeit zu bwahren,
48
- legte di Parteispitze eine eigene Resolution zur Deutschlandpolitik vo, die das
49
- Wort «Anerkennung» für die DDR vermeidt. Dem linken Flügel kommt die Parteispitze
50
- dadurch entgegen, dass die «Staatliche Existenz» der DDR anerkannt wird. Zwischen
51
- den gleichberechtigten Regierungen in Bon und Ostberlin werden Verträge un Verhandlungen
52
- in Aussicht genommen. Das auptthema des Parteitages soll aberdas Regierungsprogramm
53
- der SPD abgebe. Als Kanzlekandidaten will die Parteispitze den jetzigen Aussenminister
54
- Willy Brand vorschlagn.
55
- - source_sentence: Aber ich gab ihnen den Raum dafür.
56
- sentences:
57
- - Initiative américaine pour réduire la dette de l'Argentine et du Brésil New York
58
- (AFP).-Les autorités bancares américaines ont invité les banques commerciales
59
- amricaines à nnuler 20 % de leur créance de 14 milliards de dollrs sur leBrésil
60
- et l'Argentine, selon un article paru dans l'édition de jeudidu Wall Street Journal.
61
- Le Wall Street Journal écrit, citant des sources bancaires, que les banques ont
62
- reçu une lettre de la Commission publique officielle Interagency Counry Exposure
63
- eview Committe, regroupant notamment la Réserve'Fédérale, (Fed) et un fons de
64
- garantie (Fédéral Deposit Insurance Cor.) leurenjoignant de prendre des mesures
65
- comptables. Les banques se sont refusées jeudi matin à tout commentaire Le Brésil
66
- et l'Argentineont suspendu le paiement des intérêts et du principal d leur dette.
67
- Alors qu'une décision de ce type était attendue de la part de la Commission e
68
- ce qui concerne l'Argentine, compte tenu de la dgradation de lasituation financière
69
- du pays, linclusion du Brésil a causé une surprise, indique-t-on par ailleurs
70
- dans les mileux bancaires. Le Brésil, aen pline restructuration économique, devait
71
- retourner à la table des négociations à l'automne. Cette décision va compliquer
72
- les négociations entre les banues commerciales et les pays endettés.
73
- - Aber ichgab ihnen den Raum dafür.
74
- - '1709 Botschaft des Bndesrates an die Bundesversammlung bereffend Übertragung
75
- der Konzession der Strassenbahn von Bern nach Zollikofen (B. Z. B.), mit Abzwegung
76
- von der Tiefenaubrücke nach orblaufen, auf die Solothurn- Zollikof en-Bern-B ahn
77
- A. -G. in Solothurn. (Vom 2. Februar 1923.) Mit Eingabe vom 30. Juni 1922 stellte
78
- die Direktion der Solothurn-Zollikofen-Bern-Bhn (S. Z. B.) in Solothurn das Gesuch,
79
- es sei die am 25. Juni 1909 (E. A. S. XXV, 195) erteilte und am 22. Dezember 1911
80
- (E. A. S. XXVII, 273) abgeändert Konzession dr Strassenbahn von Bern nah Zollikofen,
81
- mit Abzweigung von der Tiefenaubrückenach Worblaufen, auf sie (S. Z. B.) m Sinnedes
82
- zwischen beiden Bahngesellschaften abgeschlossenen Fusionsvertrages vom 16. Mrz
83
- 1922 zu übertragen. Gemäss diesem Fusions vertrag (§ 1) haben sich die Solothurn-Bern-Bahn
84
- (E. S. B.) und die Bern-Worblaufen-Zollikofen- Bahn (B. Z. B.) unter dem Namen
85
- Solothurn-Zollikofen-Bern Bahn (S. Z. B.)zu einer einzigen Gesellschaft in der
86
- Weise vereinigt, dass die Solothurn-Bern-Bahn (E. S. B.) die Bern-Worblaufen-
87
- Zollikofen-Bahn (B. Z. B.) in sich aufnimmt. Infolge dieser Fusion gehen die Konzssion
88
- der letztern, soie alle Akiven und Passiven mit Einschluss derMiet-, Pacht-, Betriebs-
89
- und sonstigen Verträge auf die Solothurn-Bern-Bahn (E. S. B.), nun Solothurn-Zollikofen-Bern-Bahn
90
- (S. Z. B.) über, während die Bern-Worblaufen-Zollikofen-Bahn (B. Z. B. mit Wirkung
91
- auf den 1 Januar 1922 aufgelöst wird. Lau § des Fusionsvertrages übernimmt die
92
- Solothurn-Bern- Bahn (E. S. B.), nun Solothurn-Zollikofen-Bern-Bahn (S. Z. B.),
93
- das gesamte ständige, sich inangekündigter Stellung befindliche Personal der Bern-Worblaufen-Zollikofen-Bahn.
94
- Sie verpflichtet sih ( 6), der Verwirklichung des Zweckes der Bern-Worblaufen-Zollikofe-Bahn,
95
- d h. dem Betrieb einer Strassenbahn Zollikofe-Bern alle Aufmerksamkeit zu schenken,
96
- den Lokalverkehr Zollikofen-Bern voll aufrechtzuerhalten ud nach Bedürfnis und
97
- Möglichkeit auszubauen, also nebn dein durchgehenden Verkehr dienenden Zügen auch
98
- dio nötige Zahl von Lokalzügen zu führen. Die berechtigten Wünsche der interessierten
99
- Bevölkrung sind dabei nach Möglichkeit zu berücksichtigen. In ihren Vernehmlassungen
100
- vom 14. August bzw. 8. Dezember 1922 erheben die Regierungen der Kantone Solothurn
101
- und Bern gegen die Konzessonsübertragung kine Einwendung. Da auch von unserer
102
- Seite nichts zu bemerken ist, beantragen wir Ihnen, dem Übertragungsesuchedurch
103
- Annahm des nachfolgenden Bundesbeschlussentwurfes zu entsprechen. Wir benützen
104
- auch diesen Anlass, Sie unserer ausgezeichnetn Hochachtung z versichern. Bern,
105
- den 2. Februar 1923. Im Namen des Schweiz. Bundesrates, Der Bundespräsident: Scheurer.
106
- Der Bundeskanzler: Steiger. (Entwurf.) Bndesbeschluss betreffend Übertraung der
107
- Konzession der Strassenbahnvon Bern nach Zollikofen (ß. Z. B.), mit Abzweigung
108
- von der Tiefenaubrücke nach Worblaufen, aufdieSolothurn- Zollikofen-Bern-Bahn
109
- A. -G. in Solothurn. Die Bundesversammlung. der schweizerischen Eidgenssenschft,nach
110
- Einsicht . einer Engabe de Diretion der Solothurn-Zollikofen-Bern- Bahn in Solothurn,
111
- vom 30. Juni 1922, samt Beilagen, 2. einer Botschaft des Bundesrates vom 2. Februar
112
- 1923, beschliesst: . Die durch Bundesbeschlus vom 25. Juni 1909 (E. A. S. XXV,
113
- 195) erteilte und durch Bundesbeschluss vom 22. Der zember 1911 (E. A. S. XXVII,
114
- 273) abgeänderte Konzession einer Strassenbahn von Bern nach Zollikofen, mit Abzweigung
115
- von de- Tiefenaubrücke nach Worblaufen, wird unter den gleichen Bedingungen auf
116
- die Solothurn-ollikofen-Bern-Bahn A.-G. in Solothurn übertragen. . Der Bundesrat
117
- ist mit dem Vollzug des gegenwärtigen Beschlusses, welcher am in Kraft tritt,
118
- beauftragt.'
119
- - source_sentence: Der syrische Bürgerkrieg, die Flüchtlingskrise und der Weltklimagipfel
120
- in Paris waren Themen, die das Jahr 2015 dominierten. Der Blick zurück wird so
121
- zu einem Ausblick auf das, was uns erst noch bevorsteht.
122
- sentences:
123
- - Der syrische Bügerkrieg, die Flüchtlibgskrise und der Welitklimagipifel in Pais
124
- waren Themen, die das Jahr 2015 dominiRrten.üDekr Blick zJrück wird so zu einem
125
- Ausblick auf das, was uns erst nch bevorsteht.
126
- - Und dann beginnen i ein unglaubliches Ballett.
127
- - El malagueño Antoio Galdeano, Apoño, las ha visto de todos los colores para asentarse
128
- en el centro del campo del Zaragoza
129
- - source_sentence: Denken Sie nur an Sebastian und wie er die Katze kaufte, um seine
130
- Reputation zu schützen.
131
- sentences:
132
- - et sivous êtes trsèse sincère, c'est dur d'aimer un toxicomane. Il w a beaucoup
133
- de gens qui savent ça dans cette ièce.
134
- - J'ai reçu un bip des srgences vers 2hldu matin pour unhe fzmme avec un ulcère
135
- diabtique à son pied.
136
- - Denken Sie nur an Sebastian und wise er die Kakze kaute, um rseine Reputation
137
- zu schützen.
138
- pipeline_tag: sentence-similarity
139
- library_name: sentence-transformers
140
  ---
141
 
142
- # SentenceTransformer based on Alibaba-NLP/gte-multilingual-base
143
 
144
- This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
145
 
146
  ## Model Details
147
 
148
- ### Model Description
149
- - **Model Type:** Sentence Transformer
150
- - **Base model:** [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) <!-- at revision 9bbca17d9273fd0d03d5725c7a4b0f6b45142062 -->
151
- - **Maximum Sequence Length:** 8192 tokens
152
- - **Output Dimensionality:** 768 dimensions
153
- - **Similarity Function:** Cosine Similarity
154
- <!-- - **Training Dataset:** Unknown -->
155
- <!-- - **Language:** Unknown -->
156
- <!-- - **License:** Unknown -->
157
 
158
- ### Model Sources
159
 
160
- - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
161
- - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
162
- - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
163
 
164
- ### Full Model Architecture
165
 
166
  ```
167
- SentenceTransformer(
168
- (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'NewModel'})
169
- (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
170
- (2): Normalize()
171
- )
172
- ```
173
-
174
- ## Usage
175
-
176
- ### Direct Usage (Sentence Transformers)
177
-
178
- First install the Sentence Transformers library:
179
-
180
- ```bash
181
  pip install -U sentence-transformers
182
  ```
183
 
184
- Then you can load this model and run inference.
 
185
  ```python
186
  from sentence_transformers import SentenceTransformer
 
187
 
188
- # Download from the 🤗 Hub
189
- model = SentenceTransformer("sentence_transformers_model_id")
190
- # Run inference
191
- sentences = [
192
- 'Denken Sie nur an Sebastian und wie er die Katze kaufte, um seine Reputation zu schützen.',
193
- 'Denken Sie nur an Sebastian und wise er die Kakze kaute, um rseine Reputation zu schützen.',
194
- "J'ai reçu un bip des srgences vers 2hldu matin pour unhe fzmme avec un ulcère diabtique à son pied.",
195
- ]
196
  embeddings = model.encode(sentences)
197
- print(embeddings.shape)
198
- # [3, 768]
199
-
200
- # Get the similarity scores for the embeddings
201
- similarities = model.similarity(embeddings, embeddings)
202
- print(similarities)
203
- # tensor([[1.0000, 0.8475, 0.1012],
204
- # [0.8475, 1.0000, 0.0937],
205
- # [0.1012, 0.0937, 1.0000]])
206
  ```
207
 
208
- <!--
209
- ### Direct Usage (Transformers)
210
-
211
- <details><summary>Click to see the direct usage in Transformers</summary>
212
-
213
- </details>
214
- -->
215
 
216
- <!--
217
- ### Downstream Usage (Sentence Transformers)
218
 
219
- You can finetune this model on your own dataset.
220
 
221
- <details><summary>Click to expand</summary>
222
-
223
- </details>
224
- -->
225
-
226
- <!--
227
- ### Out-of-Scope Use
228
-
229
- *List how the model may foreseeably be misused and address what users ought not to do with the model.*
230
- -->
231
-
232
- <!--
233
- ## Bias, Risks and Limitations
234
 
235
- *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
236
- -->
237
 
238
- <!--
239
- ### Recommendations
240
 
241
- *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
242
- -->
243
 
244
- ## Training Details
 
 
 
245
 
246
- ### Training Dataset
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
247
 
248
- #### Unnamed Dataset
249
-
250
- * Size: 24,000 training samples
251
- * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
252
- * Approximate statistics based on the first 1000 samples:
253
- | | sentence_0 | sentence_1 | label |
254
- |:--------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:--------------------------------------------------------------|
255
- | type | string | string | float |
256
- | details | <ul><li>min: 6 tokens</li><li>mean: 302.64 tokens</li><li>max: 8192 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 312.67 tokens</li><li>max: 8192 tokens</li></ul> | <ul><li>min: 1.0</li><li>mean: 1.0</li><li>max: 1.0</li></ul> |
257
- * Samples:
258
- | sentence_0 | sentence_1 | label |
259
- |:------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------|:-----------------|
260
- | <code>Le Thaïlandais Apichatpong Weerasethakul est le grand gagnant d'un Festival marqué par des surprises</code> | <code>Le TÜaïlandais Apichatpong Weeraswethakul est e grand gagnantC d'un Fesiival marqué par des surprises</code> | <code>1.0</code> |
261
- | <code>Конкурс - не цыганский табор, не может в одночасье сорваться с места</code> | <code>Конкурс - нехцыганскиб табор, не может в одночасье сорваться с ыеста</code> | <code>1.0</code> |
262
- | <code>Произошли «сход с рельсов поезда, взрыв на химкомбинате, пожары и даже крушения самолетов»</code> | <code>Произошли «сход ьс рельсов поезда, взрыв нза химкомбикнате, шпожары и даже крушения самолетов»</code> | <code>1.0</code> |
263
- * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
264
- ```json
265
- {
266
- "scale": 20.0,
267
- "similarity_fct": "cos_sim",
268
- "gather_across_devices": false
269
- }
270
- ```
271
 
272
- ### Training Hyperparameters
273
- #### Non-Default Hyperparameters
274
-
275
- - `num_train_epochs`: 1
276
- - `fp16`: True
277
- - `multi_dataset_batch_sampler`: round_robin
278
-
279
- #### All Hyperparameters
280
- <details><summary>Click to expand</summary>
281
-
282
- - `overwrite_output_dir`: False
283
- - `do_predict`: False
284
- - `eval_strategy`: no
285
- - `prediction_loss_only`: True
286
- - `per_device_train_batch_size`: 8
287
- - `per_device_eval_batch_size`: 8
288
- - `per_gpu_train_batch_size`: None
289
- - `per_gpu_eval_batch_size`: None
290
- - `gradient_accumulation_steps`: 1
291
- - `eval_accumulation_steps`: None
292
- - `torch_empty_cache_steps`: None
293
- - `learning_rate`: 5e-05
294
- - `weight_decay`: 0.0
295
- - `adam_beta1`: 0.9
296
- - `adam_beta2`: 0.999
297
- - `adam_epsilon`: 1e-08
298
- - `max_grad_norm`: 1
299
- - `num_train_epochs`: 1
300
- - `max_steps`: -1
301
- - `lr_scheduler_type`: linear
302
- - `lr_scheduler_kwargs`: {}
303
- - `warmup_ratio`: 0.0
304
- - `warmup_steps`: 0
305
- - `log_level`: passive
306
- - `log_level_replica`: warning
307
- - `log_on_each_node`: True
308
- - `logging_nan_inf_filter`: True
309
- - `save_safetensors`: True
310
- - `save_on_each_node`: False
311
- - `save_only_model`: False
312
- - `restore_callback_states_from_checkpoint`: False
313
- - `no_cuda`: False
314
- - `use_cpu`: False
315
- - `use_mps_device`: False
316
- - `seed`: 42
317
- - `data_seed`: None
318
- - `jit_mode_eval`: False
319
- - `bf16`: False
320
- - `fp16`: True
321
- - `fp16_opt_level`: O1
322
- - `half_precision_backend`: auto
323
- - `bf16_full_eval`: False
324
- - `fp16_full_eval`: False
325
- - `tf32`: None
326
- - `local_rank`: 0
327
- - `ddp_backend`: None
328
- - `tpu_num_cores`: None
329
- - `tpu_metrics_debug`: False
330
- - `debug`: []
331
- - `dataloader_drop_last`: False
332
- - `dataloader_num_workers`: 0
333
- - `dataloader_prefetch_factor`: None
334
- - `past_index`: -1
335
- - `disable_tqdm`: False
336
- - `remove_unused_columns`: True
337
- - `label_names`: None
338
- - `load_best_model_at_end`: False
339
- - `ignore_data_skip`: False
340
- - `fsdp`: []
341
- - `fsdp_min_num_params`: 0
342
- - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
343
- - `fsdp_transformer_layer_cls_to_wrap`: None
344
- - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
345
- - `parallelism_config`: None
346
- - `deepspeed`: None
347
- - `label_smoothing_factor`: 0.0
348
- - `optim`: adamw_torch_fused
349
- - `optim_args`: None
350
- - `adafactor`: False
351
- - `group_by_length`: False
352
- - `length_column_name`: length
353
- - `project`: huggingface
354
- - `trackio_space_id`: trackio
355
- - `ddp_find_unused_parameters`: None
356
- - `ddp_bucket_cap_mb`: None
357
- - `ddp_broadcast_buffers`: False
358
- - `dataloader_pin_memory`: True
359
- - `dataloader_persistent_workers`: False
360
- - `skip_memory_metrics`: True
361
- - `use_legacy_prediction_loop`: False
362
- - `push_to_hub`: False
363
- - `resume_from_checkpoint`: None
364
- - `hub_model_id`: None
365
- - `hub_strategy`: every_save
366
- - `hub_private_repo`: None
367
- - `hub_always_push`: False
368
- - `hub_revision`: None
369
- - `gradient_checkpointing`: False
370
- - `gradient_checkpointing_kwargs`: None
371
- - `include_inputs_for_metrics`: False
372
- - `include_for_metrics`: []
373
- - `eval_do_concat_batches`: True
374
- - `fp16_backend`: auto
375
- - `push_to_hub_model_id`: None
376
- - `push_to_hub_organization`: None
377
- - `mp_parameters`:
378
- - `auto_find_batch_size`: False
379
- - `full_determinism`: False
380
- - `torchdynamo`: None
381
- - `ray_scope`: last
382
- - `ddp_timeout`: 1800
383
- - `torch_compile`: False
384
- - `torch_compile_backend`: None
385
- - `torch_compile_mode`: None
386
- - `include_tokens_per_second`: False
387
- - `include_num_input_tokens_seen`: no
388
- - `neftune_noise_alpha`: None
389
- - `optim_target_modules`: None
390
- - `batch_eval_metrics`: False
391
- - `eval_on_start`: False
392
- - `use_liger_kernel`: False
393
- - `liger_kernel_config`: None
394
- - `eval_use_gather_object`: False
395
- - `average_tokens_across_devices`: True
396
- - `prompts`: None
397
- - `batch_sampler`: batch_sampler
398
- - `multi_dataset_batch_sampler`: round_robin
399
- - `router_mapping`: {}
400
- - `learning_rate_mapping`: {}
401
-
402
- </details>
403
-
404
- ### Training Logs
405
- | Epoch | Step | Training Loss |
406
- |:------:|:----:|:-------------:|
407
- | 0.1667 | 500 | 0.0003 |
408
- | 0.3333 | 1000 | 0.0004 |
409
- | 0.5 | 1500 | 0.0 |
410
- | 0.6667 | 2000 | 0.0 |
411
- | 0.8333 | 2500 | 0.0 |
412
- | 1.0 | 3000 | 0.0 |
413
-
414
-
415
- ### Framework Versions
416
- - Python: 3.12.12
417
- - Sentence Transformers: 5.1.1
418
- - Transformers: 4.57.1
419
- - PyTorch: 2.8.0+cu126
420
- - Accelerate: 1.11.0
421
- - Datasets: 4.0.0
422
- - Tokenizers: 0.22.1
423
 
424
  ## Citation
425
 
426
  ### BibTeX
427
 
428
- #### Sentence Transformers
 
 
 
429
  ```bibtex
430
- @inproceedings{reimers-2019-sentence-bert,
431
- title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
432
- author = "Reimers, Nils and Gurevych, Iryna",
433
- booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
434
- month = "11",
435
- year = "2019",
 
 
 
 
 
 
 
 
 
 
436
  publisher = "Association for Computational Linguistics",
437
- url = "https://arxiv.org/abs/1908.10084",
438
- }
 
 
439
  ```
440
 
441
- #### MultipleNegativesRankingLoss
 
 
442
  ```bibtex
443
- @misc{henderson2017efficient,
444
- title={Efficient Natural Language Response Suggestion for Smart Reply},
445
- author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
446
- year={2017},
447
- eprint={1705.00652},
448
- archivePrefix={arXiv},
449
- primaryClass={cs.CL}
450
  }
451
  ```
452
 
453
- <!--
454
- ## Glossary
 
 
 
455
 
456
- *Clearly define terms in order to be accessible across audiences.*
457
- -->
458
 
459
- <!--
460
- ## Model Card Authors
461
 
462
- *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
463
- -->
464
 
465
- <!--
466
- ## Model Card Contact
 
467
 
468
- *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
469
- -->
 
 
1
  ---
2
+ library_name: sentence-transformers
3
+ pipeline_tag: sentence-similarity
4
  tags:
5
  - sentence-transformers
 
6
  - feature-extraction
7
+ - sentence-similarity
8
+ - multilingual
9
+ license: agpl-3.0
10
+ language:
11
+ - de
12
+ - fr
13
+ - en
14
+ - lb
15
+ base_model:
16
+ - Alibaba-NLP/gte-multilingual-base
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
17
  ---
18
 
19
+ # THIS IS A PREVIEW MODEL for the IMPRESSO HALLOWEEN PROJECT
20
 
21
+ This is a [sentence-transformers](https://www.SBERT.net) model: It maps sentences & paragraphs to a 768 dimensional dense vector space and can be used for tasks like clustering or semantic search.
22
 
23
  ## Model Details
24
 
25
+ This model that was adapted to be more robust to OCR Noise in German and French. This model would be particularly useful for libraries and archives in Central Europe that want to perform semantic search and longitudinal studies within their collections.
 
 
 
 
 
 
 
 
26
 
27
+ This is an [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) model that was further adapted by (Michail et al., 2025)
28
 
29
+ ## Usage (Sentence-Transformers)
 
 
30
 
31
+ Using this model becomes easy when you have [sentence-transformers](https://www.SBERT.net) installed:
32
 
33
  ```
 
 
 
 
 
 
 
 
 
 
 
 
 
 
34
  pip install -U sentence-transformers
35
  ```
36
 
37
+ Then you can use the model like this:
38
+
39
  ```python
40
  from sentence_transformers import SentenceTransformer
41
+ sentences = ["This is an example sentence", "Each sentence is converted"]
42
 
43
+ model = SentenceTransformer('impresso-project/impresso_halloween_workshop_ocr_robust')
 
 
 
 
 
 
 
44
  embeddings = model.encode(sentences)
45
+ print(embeddings)
 
 
 
 
 
 
 
 
46
  ```
47
 
 
 
 
 
 
 
 
48
 
49
+ ## Evaluation Results
 
50
 
51
+ I will add the model specific evaluation results once the instance is running again.
52
 
53
+ ## Training Details
 
 
 
 
 
 
 
 
 
 
 
 
54
 
55
+ ### Training Dataset
 
56
 
57
+ ### Contrastive Training
58
+ The model was trained with the parameters:
59
 
60
+ **Loss**:
 
61
 
62
+ `sentence_transformers.losses.MultipleNegativesRankingLoss` with parameters:
63
+ ```
64
+ {'scale': 20.0, 'similarity_fct': 'cos_sim'}
65
+ ```
66
 
67
+ Parameters of the fit()-Method:
68
+ ```
69
+ {
70
+ "epochs": 1,
71
+ "evaluation_steps": 0,
72
+ "evaluator": "NoneType",
73
+ "max_grad_norm": 1,
74
+ "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
75
+ "optimizer_params": {
76
+ "lr": 2e-05
77
+ },
78
+ "scheduler": "WarmupLinear",
79
+ "steps_per_epoch": null,
80
+ "warmup_steps": 250,
81
+ "weight_decay": 0.01
82
+ }
83
+ ```
84
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
85
 
86
+ ## Full Model Architecture
87
+ ```
88
+ SentenceTransformer(
89
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
90
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
91
+ (2): Normalize()
92
+ )
93
+ ```
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
94
 
95
  ## Citation
96
 
97
  ### BibTeX
98
 
99
+ #### Cheap Character Noise for OCR-Robust Multilingual Embeddings (introducing paper)
100
+
101
+ For details on the adaptation methodology please refer to our paper (published in ACL2025 Findings). If you use our models or methodology, please cite our work.
102
+
103
  ```bibtex
104
+ @inproceedings{michail-etal-2025-cheap,
105
+ title = "Cheap Character Noise for {OCR}-Robust Multilingual Embeddings",
106
+ author = "Michail, Andrianos and
107
+ Opitz, Juri and
108
+ Wang, Yining and
109
+ Meister, Robin and
110
+ Sennrich, Rico and
111
+ Clematide, Simon",
112
+ editor = "Che, Wanxiang and
113
+ Nabende, Joyce and
114
+ Shutova, Ekaterina and
115
+ Pilehvar, Mohammad Taher",
116
+ booktitle = "Findings of the Association for Computational Linguistics: ACL 2025",
117
+ month = jul,
118
+ year = "2025",
119
+ address = "Vienna, Austria",
120
  publisher = "Association for Computational Linguistics",
121
+ url = "https://aclanthology.org/2025.findings-acl.609/",
122
+ doi = "10.18653/v1/2025.findings-acl.609",
123
+ pages = "11705--11716",
124
+ ISBN = "979-8-89176-256-5",
125
  ```
126
 
127
+
128
+ #### Original Multilingual GTE Model
129
+
130
  ```bibtex
131
+ @inproceedings{zhang2024mgte,
132
+ title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval},
133
+ author={Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Wen and Dai, Ziqi and Tang, Jialong and Lin, Huan and Yang, Baosong and Xie, Pengjun and Huang, Fei and others},
134
+ booktitle={Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track},
135
+ pages={1393--1412},
136
+ year={2024}
 
137
  }
138
  ```
139
 
140
+ ## About Impresso
141
+
142
+ ### Impresso project
143
+
144
+ [Impresso - Media Monitoring of the Past](https://impresso-project.ch) is an interdisciplinary research project that aims to develop and consolidate tools for processing and exploring large collections of media archives across modalities, time, languages and national borders. The first project (2017-2021) was funded by the Swiss National Science Foundation under grant No. [CRSII5_173719](http://p3.snf.ch/project-173719) and the second project (2023-2027) by the SNSF under grant No. [CRSII5_213585](https://data.snf.ch/grants/grant/213585) and the Luxembourg National Research Fund under grant No. 17498891.
145
 
146
+ ### Copyright
 
147
 
148
+ Copyright (C) 2025 The Impresso team.
 
149
 
150
+ ### License
 
151
 
152
+ This program is provided as open source under the [GNU Affero General Public License](https://github.com/impresso/impresso-pyindexation/blob/master/LICENSE) v3 or later.
153
+
154
+ ---
155
 
156
+ <p align="center">
157
+ <img src="https://github.com/impresso/impresso.github.io/blob/master/assets/images/3x1--Yellow-Impresso-Black-on-White--transparent.png?raw=true" width="350" alt="Impresso Project Logo"/>
158
+ </p>