Updated readme
Browse files
README.md
CHANGED
|
@@ -1,469 +1,158 @@
|
|
| 1 |
---
|
|
|
|
|
|
|
| 2 |
tags:
|
| 3 |
- sentence-transformers
|
| 4 |
-
- sentence-similarity
|
| 5 |
- feature-extraction
|
| 6 |
-
-
|
| 7 |
-
-
|
| 8 |
-
-
|
| 9 |
-
|
| 10 |
-
|
| 11 |
-
|
| 12 |
-
-
|
| 13 |
-
|
| 14 |
-
|
| 15 |
-
|
| 16 |
-
Meterologischen Anstalt (METALERT II) vom. September 1982Die Bundesveramlung der
|
| 17 |
-
Schweizerischen Eidgenosseschaft, gestützt auf Artikel 85 Ziffer 10 der Bundesverfassung,
|
| 18 |
-
nach Einsicht in eine Botschaft des Bundesrates vom 21. Dezember 1981 ''), beschliesst:
|
| 19 |
-
Art. l Für die Fertigstellung der kombinierten Anlage bei der Schweizerischen
|
| 20 |
-
Meteorologischen Anstalt nach der Botschaft vom 21. Dezember 1981 wird ein Objektkedit
|
| 21 |
-
von 8,95 Millionen Franken bewilgt. Art. Dieser Beschluss ist nicht allgemeinverbindlich;
|
| 22 |
-
er untersteht nict dem Referendum. tänderat,. Juni 1982 Nationalrat,. eptember
|
| 23 |
-
1982 Der Präsident: Dreyer Die Präsidentin: Lang Die Sekretärin: Hube Der Protokollführer:
|
| 24 |
-
Zwicker 8177 '') BB11982 I 153 ,. 1982-870'
|
| 25 |
-
- 'Ei weise Rat. Ludwig XIV. von Frankreich erschien im Jahre 1872 mit einer ansehnlichen
|
| 26 |
-
Macht vor den Toren Amsterdams, welches nicht dn nötigen Widersand zu leisten
|
| 27 |
-
imstande war. Bei der Bevülke» rung herrscte die glühte Bestürzung und der Magistrat
|
| 28 |
-
beratschlagte, was unter diesen Umständen zu tun sei. Man kam dain überein. dem
|
| 29 |
-
König de Schlssel der Stadt zu überreichen. In diesem Augenblick bemerkte man.
|
| 30 |
-
daß ein alter Bürgermeister eingeschlafen war und seine Stimme noch nicht abgegeben
|
| 31 |
-
hatte Man weckte ihn: er erkundigte sich nach dem Resultat der Beratung. »Wir
|
| 32 |
-
wllen" hieß es.dem Knige die Schlüssel der Stadt übergeben." »Hat er se schon
|
| 33 |
-
verlangt?" fragte der ehrwüdige Vater der Stadt. »Noch nicht", mar die ntwort..Dann,
|
| 34 |
-
meine Herren", erwiderte er, »wollen wir wenigstens so lange waten, bis er sie
|
| 35 |
-
fordert. Dieser Einfall rettete die Reublik, denn schon am nächstenTage sah Ludwig
|
| 36 |
-
sich, eingetretener Umstände wegen, veranlaßt, der Stadt den Rücken zu wenden.'
|
| 37 |
-
- source_sentence: CHP lideri Kemal Kılıçdaroğlu, şehit cenazesinde kendisine yumurta
|
| 38 |
-
atan eylemciyi, 'Sen Müslüman bile olamazsın' diye eleştirdi.
|
| 39 |
-
sentences:
|
| 40 |
-
- Nous l'apcpelons ainsi car c'ebst un gamin, un gosse, et Goliath est ce géant
|
| 41 |
-
costafdzet immense.
|
| 42 |
-
- wHP liderıi Klemal Kılıçdaroğlu, şehit cenazesinde kendiEsine yumurta atan eylemciyi,
|
| 43 |
-
'Sen Müslüman bile olmazsın' iye eleştirdi.
|
| 44 |
-
- Der ausserordentliche Parteitag der westdeutschen Sozialdemokraten Bonn. Der ausserordentliche
|
| 45 |
-
Parteitag der wesdeutschen Sozialdemokraten begann am Mittwoch, ‘l6. April, in
|
| 46 |
-
Godesberg. Der Parteivorstand hatte ich mit sechs Anträgen bemüht, das Heft in
|
| 47 |
-
die Hand zu bekommen. Um die Wähler nicht zu verärgern und die Eiigkeit zu bwahren,
|
| 48 |
-
legte di Parteispitze eine eigene Resolution zur Deutschlandpolitik vo, die das
|
| 49 |
-
Wort «Anerkennung» für die DDR vermeidt. Dem linken Flügel kommt die Parteispitze
|
| 50 |
-
dadurch entgegen, dass die «Staatliche Existenz» der DDR anerkannt wird. Zwischen
|
| 51 |
-
den gleichberechtigten Regierungen in Bon und Ostberlin werden Verträge un Verhandlungen
|
| 52 |
-
in Aussicht genommen. Das auptthema des Parteitages soll aberdas Regierungsprogramm
|
| 53 |
-
der SPD abgebe. Als Kanzlekandidaten will die Parteispitze den jetzigen Aussenminister
|
| 54 |
-
Willy Brand vorschlagn.
|
| 55 |
-
- source_sentence: Aber ich gab ihnen den Raum dafür.
|
| 56 |
-
sentences:
|
| 57 |
-
- Initiative américaine pour réduire la dette de l'Argentine et du Brésil New York
|
| 58 |
-
(AFP).-Les autorités bancares américaines ont invité les banques commerciales
|
| 59 |
-
amricaines à nnuler 20 % de leur créance de 14 milliards de dollrs sur leBrésil
|
| 60 |
-
et l'Argentine, selon un article paru dans l'édition de jeudidu Wall Street Journal.
|
| 61 |
-
Le Wall Street Journal écrit, citant des sources bancaires, que les banques ont
|
| 62 |
-
reçu une lettre de la Commission publique officielle Interagency Counry Exposure
|
| 63 |
-
eview Committe, regroupant notamment la Réserve'Fédérale, (Fed) et un fons de
|
| 64 |
-
garantie (Fédéral Deposit Insurance Cor.) leurenjoignant de prendre des mesures
|
| 65 |
-
comptables. Les banques se sont refusées jeudi matin à tout commentaire Le Brésil
|
| 66 |
-
et l'Argentineont suspendu le paiement des intérêts et du principal d leur dette.
|
| 67 |
-
Alors qu'une décision de ce type était attendue de la part de la Commission e
|
| 68 |
-
ce qui concerne l'Argentine, compte tenu de la dgradation de lasituation financière
|
| 69 |
-
du pays, linclusion du Brésil a causé une surprise, indique-t-on par ailleurs
|
| 70 |
-
dans les mileux bancaires. Le Brésil, aen pline restructuration économique, devait
|
| 71 |
-
retourner à la table des négociations à l'automne. Cette décision va compliquer
|
| 72 |
-
les négociations entre les banues commerciales et les pays endettés.
|
| 73 |
-
- Aber ichgab ihnen den Raum dafür.
|
| 74 |
-
- '1709 Botschaft des Bndesrates an die Bundesversammlung bereffend Übertragung
|
| 75 |
-
der Konzession der Strassenbahn von Bern nach Zollikofen (B. Z. B.), mit Abzwegung
|
| 76 |
-
von der Tiefenaubrücke nach orblaufen, auf die Solothurn- Zollikof en-Bern-B ahn
|
| 77 |
-
A. -G. in Solothurn. (Vom 2. Februar 1923.) Mit Eingabe vom 30. Juni 1922 stellte
|
| 78 |
-
die Direktion der Solothurn-Zollikofen-Bern-Bhn (S. Z. B.) in Solothurn das Gesuch,
|
| 79 |
-
es sei die am 25. Juni 1909 (E. A. S. XXV, 195) erteilte und am 22. Dezember 1911
|
| 80 |
-
(E. A. S. XXVII, 273) abgeändert Konzession dr Strassenbahn von Bern nah Zollikofen,
|
| 81 |
-
mit Abzweigung von der Tiefenaubrückenach Worblaufen, auf sie (S. Z. B.) m Sinnedes
|
| 82 |
-
zwischen beiden Bahngesellschaften abgeschlossenen Fusionsvertrages vom 16. Mrz
|
| 83 |
-
1922 zu übertragen. Gemäss diesem Fusions vertrag (§ 1) haben sich die Solothurn-Bern-Bahn
|
| 84 |
-
(E. S. B.) und die Bern-Worblaufen-Zollikofen- Bahn (B. Z. B.) unter dem Namen
|
| 85 |
-
Solothurn-Zollikofen-Bern Bahn (S. Z. B.)zu einer einzigen Gesellschaft in der
|
| 86 |
-
Weise vereinigt, dass die Solothurn-Bern-Bahn (E. S. B.) die Bern-Worblaufen-
|
| 87 |
-
Zollikofen-Bahn (B. Z. B.) in sich aufnimmt. Infolge dieser Fusion gehen die Konzssion
|
| 88 |
-
der letztern, soie alle Akiven und Passiven mit Einschluss derMiet-, Pacht-, Betriebs-
|
| 89 |
-
und sonstigen Verträge auf die Solothurn-Bern-Bahn (E. S. B.), nun Solothurn-Zollikofen-Bern-Bahn
|
| 90 |
-
(S. Z. B.) über, während die Bern-Worblaufen-Zollikofen-Bahn (B. Z. B. mit Wirkung
|
| 91 |
-
auf den 1 Januar 1922 aufgelöst wird. Lau § des Fusionsvertrages übernimmt die
|
| 92 |
-
Solothurn-Bern- Bahn (E. S. B.), nun Solothurn-Zollikofen-Bern-Bahn (S. Z. B.),
|
| 93 |
-
das gesamte ständige, sich inangekündigter Stellung befindliche Personal der Bern-Worblaufen-Zollikofen-Bahn.
|
| 94 |
-
Sie verpflichtet sih ( 6), der Verwirklichung des Zweckes der Bern-Worblaufen-Zollikofe-Bahn,
|
| 95 |
-
d h. dem Betrieb einer Strassenbahn Zollikofe-Bern alle Aufmerksamkeit zu schenken,
|
| 96 |
-
den Lokalverkehr Zollikofen-Bern voll aufrechtzuerhalten ud nach Bedürfnis und
|
| 97 |
-
Möglichkeit auszubauen, also nebn dein durchgehenden Verkehr dienenden Zügen auch
|
| 98 |
-
dio nötige Zahl von Lokalzügen zu führen. Die berechtigten Wünsche der interessierten
|
| 99 |
-
Bevölkrung sind dabei nach Möglichkeit zu berücksichtigen. In ihren Vernehmlassungen
|
| 100 |
-
vom 14. August bzw. 8. Dezember 1922 erheben die Regierungen der Kantone Solothurn
|
| 101 |
-
und Bern gegen die Konzessonsübertragung kine Einwendung. Da auch von unserer
|
| 102 |
-
Seite nichts zu bemerken ist, beantragen wir Ihnen, dem Übertragungsesuchedurch
|
| 103 |
-
Annahm des nachfolgenden Bundesbeschlussentwurfes zu entsprechen. Wir benützen
|
| 104 |
-
auch diesen Anlass, Sie unserer ausgezeichnetn Hochachtung z versichern. Bern,
|
| 105 |
-
den 2. Februar 1923. Im Namen des Schweiz. Bundesrates, Der Bundespräsident: Scheurer.
|
| 106 |
-
Der Bundeskanzler: Steiger. (Entwurf.) Bndesbeschluss betreffend Übertraung der
|
| 107 |
-
Konzession der Strassenbahnvon Bern nach Zollikofen (ß. Z. B.), mit Abzweigung
|
| 108 |
-
von der Tiefenaubrücke nach Worblaufen, aufdieSolothurn- Zollikofen-Bern-Bahn
|
| 109 |
-
A. -G. in Solothurn. Die Bundesversammlung. der schweizerischen Eidgenssenschft,nach
|
| 110 |
-
Einsicht . einer Engabe de Diretion der Solothurn-Zollikofen-Bern- Bahn in Solothurn,
|
| 111 |
-
vom 30. Juni 1922, samt Beilagen, 2. einer Botschaft des Bundesrates vom 2. Februar
|
| 112 |
-
1923, beschliesst: . Die durch Bundesbeschlus vom 25. Juni 1909 (E. A. S. XXV,
|
| 113 |
-
195) erteilte und durch Bundesbeschluss vom 22. Der zember 1911 (E. A. S. XXVII,
|
| 114 |
-
273) abgeänderte Konzession einer Strassenbahn von Bern nach Zollikofen, mit Abzweigung
|
| 115 |
-
von de- Tiefenaubrücke nach Worblaufen, wird unter den gleichen Bedingungen auf
|
| 116 |
-
die Solothurn-ollikofen-Bern-Bahn A.-G. in Solothurn übertragen. . Der Bundesrat
|
| 117 |
-
ist mit dem Vollzug des gegenwärtigen Beschlusses, welcher am in Kraft tritt,
|
| 118 |
-
beauftragt.'
|
| 119 |
-
- source_sentence: Der syrische Bürgerkrieg, die Flüchtlingskrise und der Weltklimagipfel
|
| 120 |
-
in Paris waren Themen, die das Jahr 2015 dominierten. Der Blick zurück wird so
|
| 121 |
-
zu einem Ausblick auf das, was uns erst noch bevorsteht.
|
| 122 |
-
sentences:
|
| 123 |
-
- Der syrische Bügerkrieg, die Flüchtlibgskrise und der Welitklimagipifel in Pais
|
| 124 |
-
waren Themen, die das Jahr 2015 dominiRrten.üDekr Blick zJrück wird so zu einem
|
| 125 |
-
Ausblick auf das, was uns erst nch bevorsteht.
|
| 126 |
-
- Und dann beginnen i ein unglaubliches Ballett.
|
| 127 |
-
- El malagueño Antoio Galdeano, Apoño, las ha visto de todos los colores para asentarse
|
| 128 |
-
en el centro del campo del Zaragoza
|
| 129 |
-
- source_sentence: Denken Sie nur an Sebastian und wie er die Katze kaufte, um seine
|
| 130 |
-
Reputation zu schützen.
|
| 131 |
-
sentences:
|
| 132 |
-
- et sivous êtes trsèse sincère, c'est dur d'aimer un toxicomane. Il w a beaucoup
|
| 133 |
-
de gens qui savent ça dans cette ièce.
|
| 134 |
-
- J'ai reçu un bip des srgences vers 2hldu matin pour unhe fzmme avec un ulcère
|
| 135 |
-
diabtique à son pied.
|
| 136 |
-
- Denken Sie nur an Sebastian und wise er die Kakze kaute, um rseine Reputation
|
| 137 |
-
zu schützen.
|
| 138 |
-
pipeline_tag: sentence-similarity
|
| 139 |
-
library_name: sentence-transformers
|
| 140 |
---
|
| 141 |
|
| 142 |
-
#
|
| 143 |
|
| 144 |
-
This is a [sentence-transformers](https://www.SBERT.net) model
|
| 145 |
|
| 146 |
## Model Details
|
| 147 |
|
| 148 |
-
|
| 149 |
-
- **Model Type:** Sentence Transformer
|
| 150 |
-
- **Base model:** [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) <!-- at revision 9bbca17d9273fd0d03d5725c7a4b0f6b45142062 -->
|
| 151 |
-
- **Maximum Sequence Length:** 8192 tokens
|
| 152 |
-
- **Output Dimensionality:** 768 dimensions
|
| 153 |
-
- **Similarity Function:** Cosine Similarity
|
| 154 |
-
<!-- - **Training Dataset:** Unknown -->
|
| 155 |
-
<!-- - **Language:** Unknown -->
|
| 156 |
-
<!-- - **License:** Unknown -->
|
| 157 |
|
| 158 |
-
|
| 159 |
|
| 160 |
-
|
| 161 |
-
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
| 162 |
-
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 163 |
|
| 164 |
-
|
| 165 |
|
| 166 |
```
|
| 167 |
-
SentenceTransformer(
|
| 168 |
-
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'NewModel'})
|
| 169 |
-
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
| 170 |
-
(2): Normalize()
|
| 171 |
-
)
|
| 172 |
-
```
|
| 173 |
-
|
| 174 |
-
## Usage
|
| 175 |
-
|
| 176 |
-
### Direct Usage (Sentence Transformers)
|
| 177 |
-
|
| 178 |
-
First install the Sentence Transformers library:
|
| 179 |
-
|
| 180 |
-
```bash
|
| 181 |
pip install -U sentence-transformers
|
| 182 |
```
|
| 183 |
|
| 184 |
-
Then you can
|
|
|
|
| 185 |
```python
|
| 186 |
from sentence_transformers import SentenceTransformer
|
|
|
|
| 187 |
|
| 188 |
-
|
| 189 |
-
model = SentenceTransformer("sentence_transformers_model_id")
|
| 190 |
-
# Run inference
|
| 191 |
-
sentences = [
|
| 192 |
-
'Denken Sie nur an Sebastian und wie er die Katze kaufte, um seine Reputation zu schützen.',
|
| 193 |
-
'Denken Sie nur an Sebastian und wise er die Kakze kaute, um rseine Reputation zu schützen.',
|
| 194 |
-
"J'ai reçu un bip des srgences vers 2hldu matin pour unhe fzmme avec un ulcère diabtique à son pied.",
|
| 195 |
-
]
|
| 196 |
embeddings = model.encode(sentences)
|
| 197 |
-
print(embeddings
|
| 198 |
-
# [3, 768]
|
| 199 |
-
|
| 200 |
-
# Get the similarity scores for the embeddings
|
| 201 |
-
similarities = model.similarity(embeddings, embeddings)
|
| 202 |
-
print(similarities)
|
| 203 |
-
# tensor([[1.0000, 0.8475, 0.1012],
|
| 204 |
-
# [0.8475, 1.0000, 0.0937],
|
| 205 |
-
# [0.1012, 0.0937, 1.0000]])
|
| 206 |
```
|
| 207 |
|
| 208 |
-
<!--
|
| 209 |
-
### Direct Usage (Transformers)
|
| 210 |
-
|
| 211 |
-
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 212 |
-
|
| 213 |
-
</details>
|
| 214 |
-
-->
|
| 215 |
|
| 216 |
-
|
| 217 |
-
### Downstream Usage (Sentence Transformers)
|
| 218 |
|
| 219 |
-
|
| 220 |
|
| 221 |
-
|
| 222 |
-
|
| 223 |
-
</details>
|
| 224 |
-
-->
|
| 225 |
-
|
| 226 |
-
<!--
|
| 227 |
-
### Out-of-Scope Use
|
| 228 |
-
|
| 229 |
-
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 230 |
-
-->
|
| 231 |
-
|
| 232 |
-
<!--
|
| 233 |
-
## Bias, Risks and Limitations
|
| 234 |
|
| 235 |
-
|
| 236 |
-
-->
|
| 237 |
|
| 238 |
-
|
| 239 |
-
|
| 240 |
|
| 241 |
-
|
| 242 |
-
-->
|
| 243 |
|
| 244 |
-
|
|
|
|
|
|
|
|
|
|
| 245 |
|
| 246 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 247 |
|
| 248 |
-
#### Unnamed Dataset
|
| 249 |
-
|
| 250 |
-
* Size: 24,000 training samples
|
| 251 |
-
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
|
| 252 |
-
* Approximate statistics based on the first 1000 samples:
|
| 253 |
-
| | sentence_0 | sentence_1 | label |
|
| 254 |
-
|:--------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:--------------------------------------------------------------|
|
| 255 |
-
| type | string | string | float |
|
| 256 |
-
| details | <ul><li>min: 6 tokens</li><li>mean: 302.64 tokens</li><li>max: 8192 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 312.67 tokens</li><li>max: 8192 tokens</li></ul> | <ul><li>min: 1.0</li><li>mean: 1.0</li><li>max: 1.0</li></ul> |
|
| 257 |
-
* Samples:
|
| 258 |
-
| sentence_0 | sentence_1 | label |
|
| 259 |
-
|:------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------|:-----------------|
|
| 260 |
-
| <code>Le Thaïlandais Apichatpong Weerasethakul est le grand gagnant d'un Festival marqué par des surprises</code> | <code>Le TÜaïlandais Apichatpong Weeraswethakul est e grand gagnantC d'un Fesiival marqué par des surprises</code> | <code>1.0</code> |
|
| 261 |
-
| <code>Конкурс - не цыганский табор, не может в одночасье сорваться с места</code> | <code>Конкурс - нехцыганскиб табор, не может в одночасье сорваться с ыеста</code> | <code>1.0</code> |
|
| 262 |
-
| <code>Произошли «сход с рельсов поезда, взрыв на химкомбинате, пожары и даже крушения самолетов»</code> | <code>Произошли «сход ьс рельсов поезда, взрыв нза химкомбикнате, шпожары и даже крушения самолетов»</code> | <code>1.0</code> |
|
| 263 |
-
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
| 264 |
-
```json
|
| 265 |
-
{
|
| 266 |
-
"scale": 20.0,
|
| 267 |
-
"similarity_fct": "cos_sim",
|
| 268 |
-
"gather_across_devices": false
|
| 269 |
-
}
|
| 270 |
-
```
|
| 271 |
|
| 272 |
-
|
| 273 |
-
|
| 274 |
-
|
| 275 |
-
|
| 276 |
-
|
| 277 |
-
|
| 278 |
-
|
| 279 |
-
|
| 280 |
-
<details><summary>Click to expand</summary>
|
| 281 |
-
|
| 282 |
-
- `overwrite_output_dir`: False
|
| 283 |
-
- `do_predict`: False
|
| 284 |
-
- `eval_strategy`: no
|
| 285 |
-
- `prediction_loss_only`: True
|
| 286 |
-
- `per_device_train_batch_size`: 8
|
| 287 |
-
- `per_device_eval_batch_size`: 8
|
| 288 |
-
- `per_gpu_train_batch_size`: None
|
| 289 |
-
- `per_gpu_eval_batch_size`: None
|
| 290 |
-
- `gradient_accumulation_steps`: 1
|
| 291 |
-
- `eval_accumulation_steps`: None
|
| 292 |
-
- `torch_empty_cache_steps`: None
|
| 293 |
-
- `learning_rate`: 5e-05
|
| 294 |
-
- `weight_decay`: 0.0
|
| 295 |
-
- `adam_beta1`: 0.9
|
| 296 |
-
- `adam_beta2`: 0.999
|
| 297 |
-
- `adam_epsilon`: 1e-08
|
| 298 |
-
- `max_grad_norm`: 1
|
| 299 |
-
- `num_train_epochs`: 1
|
| 300 |
-
- `max_steps`: -1
|
| 301 |
-
- `lr_scheduler_type`: linear
|
| 302 |
-
- `lr_scheduler_kwargs`: {}
|
| 303 |
-
- `warmup_ratio`: 0.0
|
| 304 |
-
- `warmup_steps`: 0
|
| 305 |
-
- `log_level`: passive
|
| 306 |
-
- `log_level_replica`: warning
|
| 307 |
-
- `log_on_each_node`: True
|
| 308 |
-
- `logging_nan_inf_filter`: True
|
| 309 |
-
- `save_safetensors`: True
|
| 310 |
-
- `save_on_each_node`: False
|
| 311 |
-
- `save_only_model`: False
|
| 312 |
-
- `restore_callback_states_from_checkpoint`: False
|
| 313 |
-
- `no_cuda`: False
|
| 314 |
-
- `use_cpu`: False
|
| 315 |
-
- `use_mps_device`: False
|
| 316 |
-
- `seed`: 42
|
| 317 |
-
- `data_seed`: None
|
| 318 |
-
- `jit_mode_eval`: False
|
| 319 |
-
- `bf16`: False
|
| 320 |
-
- `fp16`: True
|
| 321 |
-
- `fp16_opt_level`: O1
|
| 322 |
-
- `half_precision_backend`: auto
|
| 323 |
-
- `bf16_full_eval`: False
|
| 324 |
-
- `fp16_full_eval`: False
|
| 325 |
-
- `tf32`: None
|
| 326 |
-
- `local_rank`: 0
|
| 327 |
-
- `ddp_backend`: None
|
| 328 |
-
- `tpu_num_cores`: None
|
| 329 |
-
- `tpu_metrics_debug`: False
|
| 330 |
-
- `debug`: []
|
| 331 |
-
- `dataloader_drop_last`: False
|
| 332 |
-
- `dataloader_num_workers`: 0
|
| 333 |
-
- `dataloader_prefetch_factor`: None
|
| 334 |
-
- `past_index`: -1
|
| 335 |
-
- `disable_tqdm`: False
|
| 336 |
-
- `remove_unused_columns`: True
|
| 337 |
-
- `label_names`: None
|
| 338 |
-
- `load_best_model_at_end`: False
|
| 339 |
-
- `ignore_data_skip`: False
|
| 340 |
-
- `fsdp`: []
|
| 341 |
-
- `fsdp_min_num_params`: 0
|
| 342 |
-
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 343 |
-
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 344 |
-
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 345 |
-
- `parallelism_config`: None
|
| 346 |
-
- `deepspeed`: None
|
| 347 |
-
- `label_smoothing_factor`: 0.0
|
| 348 |
-
- `optim`: adamw_torch_fused
|
| 349 |
-
- `optim_args`: None
|
| 350 |
-
- `adafactor`: False
|
| 351 |
-
- `group_by_length`: False
|
| 352 |
-
- `length_column_name`: length
|
| 353 |
-
- `project`: huggingface
|
| 354 |
-
- `trackio_space_id`: trackio
|
| 355 |
-
- `ddp_find_unused_parameters`: None
|
| 356 |
-
- `ddp_bucket_cap_mb`: None
|
| 357 |
-
- `ddp_broadcast_buffers`: False
|
| 358 |
-
- `dataloader_pin_memory`: True
|
| 359 |
-
- `dataloader_persistent_workers`: False
|
| 360 |
-
- `skip_memory_metrics`: True
|
| 361 |
-
- `use_legacy_prediction_loop`: False
|
| 362 |
-
- `push_to_hub`: False
|
| 363 |
-
- `resume_from_checkpoint`: None
|
| 364 |
-
- `hub_model_id`: None
|
| 365 |
-
- `hub_strategy`: every_save
|
| 366 |
-
- `hub_private_repo`: None
|
| 367 |
-
- `hub_always_push`: False
|
| 368 |
-
- `hub_revision`: None
|
| 369 |
-
- `gradient_checkpointing`: False
|
| 370 |
-
- `gradient_checkpointing_kwargs`: None
|
| 371 |
-
- `include_inputs_for_metrics`: False
|
| 372 |
-
- `include_for_metrics`: []
|
| 373 |
-
- `eval_do_concat_batches`: True
|
| 374 |
-
- `fp16_backend`: auto
|
| 375 |
-
- `push_to_hub_model_id`: None
|
| 376 |
-
- `push_to_hub_organization`: None
|
| 377 |
-
- `mp_parameters`:
|
| 378 |
-
- `auto_find_batch_size`: False
|
| 379 |
-
- `full_determinism`: False
|
| 380 |
-
- `torchdynamo`: None
|
| 381 |
-
- `ray_scope`: last
|
| 382 |
-
- `ddp_timeout`: 1800
|
| 383 |
-
- `torch_compile`: False
|
| 384 |
-
- `torch_compile_backend`: None
|
| 385 |
-
- `torch_compile_mode`: None
|
| 386 |
-
- `include_tokens_per_second`: False
|
| 387 |
-
- `include_num_input_tokens_seen`: no
|
| 388 |
-
- `neftune_noise_alpha`: None
|
| 389 |
-
- `optim_target_modules`: None
|
| 390 |
-
- `batch_eval_metrics`: False
|
| 391 |
-
- `eval_on_start`: False
|
| 392 |
-
- `use_liger_kernel`: False
|
| 393 |
-
- `liger_kernel_config`: None
|
| 394 |
-
- `eval_use_gather_object`: False
|
| 395 |
-
- `average_tokens_across_devices`: True
|
| 396 |
-
- `prompts`: None
|
| 397 |
-
- `batch_sampler`: batch_sampler
|
| 398 |
-
- `multi_dataset_batch_sampler`: round_robin
|
| 399 |
-
- `router_mapping`: {}
|
| 400 |
-
- `learning_rate_mapping`: {}
|
| 401 |
-
|
| 402 |
-
</details>
|
| 403 |
-
|
| 404 |
-
### Training Logs
|
| 405 |
-
| Epoch | Step | Training Loss |
|
| 406 |
-
|:------:|:----:|:-------------:|
|
| 407 |
-
| 0.1667 | 500 | 0.0003 |
|
| 408 |
-
| 0.3333 | 1000 | 0.0004 |
|
| 409 |
-
| 0.5 | 1500 | 0.0 |
|
| 410 |
-
| 0.6667 | 2000 | 0.0 |
|
| 411 |
-
| 0.8333 | 2500 | 0.0 |
|
| 412 |
-
| 1.0 | 3000 | 0.0 |
|
| 413 |
-
|
| 414 |
-
|
| 415 |
-
### Framework Versions
|
| 416 |
-
- Python: 3.12.12
|
| 417 |
-
- Sentence Transformers: 5.1.1
|
| 418 |
-
- Transformers: 4.57.1
|
| 419 |
-
- PyTorch: 2.8.0+cu126
|
| 420 |
-
- Accelerate: 1.11.0
|
| 421 |
-
- Datasets: 4.0.0
|
| 422 |
-
- Tokenizers: 0.22.1
|
| 423 |
|
| 424 |
## Citation
|
| 425 |
|
| 426 |
### BibTeX
|
| 427 |
|
| 428 |
-
####
|
|
|
|
|
|
|
|
|
|
| 429 |
```bibtex
|
| 430 |
-
@inproceedings{
|
| 431 |
-
title = "
|
| 432 |
-
author = "
|
| 433 |
-
|
| 434 |
-
|
| 435 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 436 |
publisher = "Association for Computational Linguistics",
|
| 437 |
-
url = "https://
|
| 438 |
-
|
|
|
|
|
|
|
| 439 |
```
|
| 440 |
|
| 441 |
-
|
|
|
|
|
|
|
| 442 |
```bibtex
|
| 443 |
-
@
|
| 444 |
-
|
| 445 |
-
|
| 446 |
-
|
| 447 |
-
|
| 448 |
-
|
| 449 |
-
primaryClass={cs.CL}
|
| 450 |
}
|
| 451 |
```
|
| 452 |
|
| 453 |
-
|
| 454 |
-
|
|
|
|
|
|
|
|
|
|
| 455 |
|
| 456 |
-
|
| 457 |
-
-->
|
| 458 |
|
| 459 |
-
|
| 460 |
-
## Model Card Authors
|
| 461 |
|
| 462 |
-
|
| 463 |
-
-->
|
| 464 |
|
| 465 |
-
|
| 466 |
-
|
|
|
|
| 467 |
|
| 468 |
-
|
| 469 |
-
|
|
|
|
|
|
| 1 |
---
|
| 2 |
+
library_name: sentence-transformers
|
| 3 |
+
pipeline_tag: sentence-similarity
|
| 4 |
tags:
|
| 5 |
- sentence-transformers
|
|
|
|
| 6 |
- feature-extraction
|
| 7 |
+
- sentence-similarity
|
| 8 |
+
- multilingual
|
| 9 |
+
license: agpl-3.0
|
| 10 |
+
language:
|
| 11 |
+
- de
|
| 12 |
+
- fr
|
| 13 |
+
- en
|
| 14 |
+
- lb
|
| 15 |
+
base_model:
|
| 16 |
+
- Alibaba-NLP/gte-multilingual-base
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 17 |
---
|
| 18 |
|
| 19 |
+
# THIS IS A PREVIEW MODEL for the IMPRESSO HALLOWEEN PROJECT
|
| 20 |
|
| 21 |
+
This is a [sentence-transformers](https://www.SBERT.net) model: It maps sentences & paragraphs to a 768 dimensional dense vector space and can be used for tasks like clustering or semantic search.
|
| 22 |
|
| 23 |
## Model Details
|
| 24 |
|
| 25 |
+
This model that was adapted to be more robust to OCR Noise in German and French. This model would be particularly useful for libraries and archives in Central Europe that want to perform semantic search and longitudinal studies within their collections.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 26 |
|
| 27 |
+
This is an [Alibaba-NLP/gte-multilingual-base](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) model that was further adapted by (Michail et al., 2025)
|
| 28 |
|
| 29 |
+
## Usage (Sentence-Transformers)
|
|
|
|
|
|
|
| 30 |
|
| 31 |
+
Using this model becomes easy when you have [sentence-transformers](https://www.SBERT.net) installed:
|
| 32 |
|
| 33 |
```
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 34 |
pip install -U sentence-transformers
|
| 35 |
```
|
| 36 |
|
| 37 |
+
Then you can use the model like this:
|
| 38 |
+
|
| 39 |
```python
|
| 40 |
from sentence_transformers import SentenceTransformer
|
| 41 |
+
sentences = ["This is an example sentence", "Each sentence is converted"]
|
| 42 |
|
| 43 |
+
model = SentenceTransformer('impresso-project/impresso_halloween_workshop_ocr_robust')
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 44 |
embeddings = model.encode(sentences)
|
| 45 |
+
print(embeddings)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 46 |
```
|
| 47 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 48 |
|
| 49 |
+
## Evaluation Results
|
|
|
|
| 50 |
|
| 51 |
+
I will add the model specific evaluation results once the instance is running again.
|
| 52 |
|
| 53 |
+
## Training Details
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 54 |
|
| 55 |
+
### Training Dataset
|
|
|
|
| 56 |
|
| 57 |
+
### Contrastive Training
|
| 58 |
+
The model was trained with the parameters:
|
| 59 |
|
| 60 |
+
**Loss**:
|
|
|
|
| 61 |
|
| 62 |
+
`sentence_transformers.losses.MultipleNegativesRankingLoss` with parameters:
|
| 63 |
+
```
|
| 64 |
+
{'scale': 20.0, 'similarity_fct': 'cos_sim'}
|
| 65 |
+
```
|
| 66 |
|
| 67 |
+
Parameters of the fit()-Method:
|
| 68 |
+
```
|
| 69 |
+
{
|
| 70 |
+
"epochs": 1,
|
| 71 |
+
"evaluation_steps": 0,
|
| 72 |
+
"evaluator": "NoneType",
|
| 73 |
+
"max_grad_norm": 1,
|
| 74 |
+
"optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
|
| 75 |
+
"optimizer_params": {
|
| 76 |
+
"lr": 2e-05
|
| 77 |
+
},
|
| 78 |
+
"scheduler": "WarmupLinear",
|
| 79 |
+
"steps_per_epoch": null,
|
| 80 |
+
"warmup_steps": 250,
|
| 81 |
+
"weight_decay": 0.01
|
| 82 |
+
}
|
| 83 |
+
```
|
| 84 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 85 |
|
| 86 |
+
## Full Model Architecture
|
| 87 |
+
```
|
| 88 |
+
SentenceTransformer(
|
| 89 |
+
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
|
| 90 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
| 91 |
+
(2): Normalize()
|
| 92 |
+
)
|
| 93 |
+
```
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 94 |
|
| 95 |
## Citation
|
| 96 |
|
| 97 |
### BibTeX
|
| 98 |
|
| 99 |
+
#### Cheap Character Noise for OCR-Robust Multilingual Embeddings (introducing paper)
|
| 100 |
+
|
| 101 |
+
For details on the adaptation methodology please refer to our paper (published in ACL2025 Findings). If you use our models or methodology, please cite our work.
|
| 102 |
+
|
| 103 |
```bibtex
|
| 104 |
+
@inproceedings{michail-etal-2025-cheap,
|
| 105 |
+
title = "Cheap Character Noise for {OCR}-Robust Multilingual Embeddings",
|
| 106 |
+
author = "Michail, Andrianos and
|
| 107 |
+
Opitz, Juri and
|
| 108 |
+
Wang, Yining and
|
| 109 |
+
Meister, Robin and
|
| 110 |
+
Sennrich, Rico and
|
| 111 |
+
Clematide, Simon",
|
| 112 |
+
editor = "Che, Wanxiang and
|
| 113 |
+
Nabende, Joyce and
|
| 114 |
+
Shutova, Ekaterina and
|
| 115 |
+
Pilehvar, Mohammad Taher",
|
| 116 |
+
booktitle = "Findings of the Association for Computational Linguistics: ACL 2025",
|
| 117 |
+
month = jul,
|
| 118 |
+
year = "2025",
|
| 119 |
+
address = "Vienna, Austria",
|
| 120 |
publisher = "Association for Computational Linguistics",
|
| 121 |
+
url = "https://aclanthology.org/2025.findings-acl.609/",
|
| 122 |
+
doi = "10.18653/v1/2025.findings-acl.609",
|
| 123 |
+
pages = "11705--11716",
|
| 124 |
+
ISBN = "979-8-89176-256-5",
|
| 125 |
```
|
| 126 |
|
| 127 |
+
|
| 128 |
+
#### Original Multilingual GTE Model
|
| 129 |
+
|
| 130 |
```bibtex
|
| 131 |
+
@inproceedings{zhang2024mgte,
|
| 132 |
+
title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval},
|
| 133 |
+
author={Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Wen and Dai, Ziqi and Tang, Jialong and Lin, Huan and Yang, Baosong and Xie, Pengjun and Huang, Fei and others},
|
| 134 |
+
booktitle={Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track},
|
| 135 |
+
pages={1393--1412},
|
| 136 |
+
year={2024}
|
|
|
|
| 137 |
}
|
| 138 |
```
|
| 139 |
|
| 140 |
+
## About Impresso
|
| 141 |
+
|
| 142 |
+
### Impresso project
|
| 143 |
+
|
| 144 |
+
[Impresso - Media Monitoring of the Past](https://impresso-project.ch) is an interdisciplinary research project that aims to develop and consolidate tools for processing and exploring large collections of media archives across modalities, time, languages and national borders. The first project (2017-2021) was funded by the Swiss National Science Foundation under grant No. [CRSII5_173719](http://p3.snf.ch/project-173719) and the second project (2023-2027) by the SNSF under grant No. [CRSII5_213585](https://data.snf.ch/grants/grant/213585) and the Luxembourg National Research Fund under grant No. 17498891.
|
| 145 |
|
| 146 |
+
### Copyright
|
|
|
|
| 147 |
|
| 148 |
+
Copyright (C) 2025 The Impresso team.
|
|
|
|
| 149 |
|
| 150 |
+
### License
|
|
|
|
| 151 |
|
| 152 |
+
This program is provided as open source under the [GNU Affero General Public License](https://github.com/impresso/impresso-pyindexation/blob/master/LICENSE) v3 or later.
|
| 153 |
+
|
| 154 |
+
---
|
| 155 |
|
| 156 |
+
<p align="center">
|
| 157 |
+
<img src="https://github.com/impresso/impresso.github.io/blob/master/assets/images/3x1--Yellow-Impresso-Black-on-White--transparent.png?raw=true" width="350" alt="Impresso Project Logo"/>
|
| 158 |
+
</p>
|