aoiandroid commited on 27 days ago

Commit

ec85f22

verified ·

1 Parent(s): 60d6626

Add files using upload-large-folder tool

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

Helsinki-NLP-opus-mt-en-cy/README.md +25 -0
Helsinki-NLP-opus-mt-en-cy/special_tokens_map.json +5 -0
Helsinki-NLP-opus-mt-en-cy/tokenizer.json +0 -0
Helsinki-NLP-opus-mt-en-cy/tokenizer_config.json +39 -0
Helsinki-NLP-opus-mt-en-cy/vocab.json +0 -0
Helsinki-NLP-opus-mt-en-da/README.md +25 -0
Helsinki-NLP-opus-mt-en-da/config.json +56 -0
Helsinki-NLP-opus-mt-en-da/generation_config.json +16 -0
Helsinki-NLP-opus-mt-en-da/special_tokens_map.json +5 -0
Helsinki-NLP-opus-mt-en-da/tokenizer.json +0 -0
Helsinki-NLP-opus-mt-en-da/tokenizer_config.json +39 -0
Helsinki-NLP-opus-mt-en-da/vocab.json +0 -0
Helsinki-NLP-opus-mt-en-de/README.md +109 -0
Helsinki-NLP-opus-mt-en-de/config.json +57 -0
Helsinki-NLP-opus-mt-en-de/generation_config.json +16 -0
Helsinki-NLP-opus-mt-en-de/special_tokens_map.json +5 -0
Helsinki-NLP-opus-mt-en-de/tokenizer.json +0 -0
Helsinki-NLP-opus-mt-en-de/tokenizer_config.json +39 -0
Helsinki-NLP-opus-mt-en-de/vocab.json +0 -0
Helsinki-NLP-opus-mt-en-dra/README.md +106 -0
Helsinki-NLP-opus-mt-en-dra/config.json +56 -0
Helsinki-NLP-opus-mt-en-dra/generation_config.json +16 -0
Helsinki-NLP-opus-mt-en-dra/special_tokens_map.json +5 -0
Helsinki-NLP-opus-mt-en-dra/tokenizer.json +0 -0
Helsinki-NLP-opus-mt-en-dra/tokenizer_config.json +39 -0
Helsinki-NLP-opus-mt-en-dra/vocab.json +0 -0
Helsinki-NLP-opus-mt-en-ee/README.md +26 -0
Helsinki-NLP-opus-mt-en-ee/config.json +56 -0
Helsinki-NLP-opus-mt-en-ee/generation_config.json +16 -0
Helsinki-NLP-opus-mt-en-ee/special_tokens_map.json +5 -0
Helsinki-NLP-opus-mt-en-ee/tokenizer.json +0 -0
Helsinki-NLP-opus-mt-en-ee/tokenizer_config.json +39 -0
Helsinki-NLP-opus-mt-en-ee/vocab.json +0 -0
Helsinki-NLP-opus-mt-en-efi/README.md +25 -0
Helsinki-NLP-opus-mt-en-efi/config.json +56 -0
Helsinki-NLP-opus-mt-en-efi/generation_config.json +16 -0
Helsinki-NLP-opus-mt-en-efi/special_tokens_map.json +5 -0
Helsinki-NLP-opus-mt-en-efi/tokenizer.json +0 -0
Helsinki-NLP-opus-mt-en-efi/tokenizer_config.json +39 -0
Helsinki-NLP-opus-mt-en-efi/vocab.json +0 -0
Helsinki-NLP-opus-mt-en-el/README.md +25 -0
Helsinki-NLP-opus-mt-en-el/config.json +56 -0
Helsinki-NLP-opus-mt-en-el/generation_config.json +16 -0
Helsinki-NLP-opus-mt-en-el/special_tokens_map.json +5 -0
Helsinki-NLP-opus-mt-en-el/tokenizer.json +0 -0
Helsinki-NLP-opus-mt-en-el/tokenizer_config.json +39 -0
Helsinki-NLP-opus-mt-en-el/vocab.json +0 -0
Helsinki-NLP-opus-mt-en-eo/README.md +25 -0
Helsinki-NLP-opus-mt-en-eo/config.json +56 -0
Helsinki-NLP-opus-mt-en-eo/generation_config.json +16 -0

Helsinki-NLP-opus-mt-en-cy/README.md ADDED Viewed

	@@ -0,0 +1,25 @@

+---
+tags:
+- translation
+license: apache-2.0
+---
+### opus-mt-en-cy
+* source languages: en
+* target languages: cy
+*  OPUS readme: [en-cy](https://github.com/Helsinki-NLP/OPUS-MT-train/blob/master/models/en-cy/README.md)
+*  dataset: opus
+* model: transformer-align
+* pre-processing: normalization + SentencePiece
+* download original weights: [opus-2019-12-18.zip](https://object.pouta.csc.fi/OPUS-MT-models/en-cy/opus-2019-12-18.zip)
+* test set translations: [opus-2019-12-18.test.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-cy/opus-2019-12-18.test.txt)
+* test set scores: [opus-2019-12-18.eval.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-cy/opus-2019-12-18.eval.txt)
+## Benchmarks
+| testset               | BLEU  | chr-F |
+|-----------------------|-------|-------|
+| Tatoeba.en.cy 	| 25.3 	| 0.487 |

Helsinki-NLP-opus-mt-en-cy/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-cy/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-cy/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "54394": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "separate_vocabs": false,
+  "source_lang": "en",
+  "sp_model_kwargs": {},
+  "target_lang": "cy",
+  "tokenizer_class": "MarianTokenizer",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-cy/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-da/README.md ADDED Viewed

	@@ -0,0 +1,25 @@

+---
+tags:
+- translation
+license: apache-2.0
+---
+### opus-mt-en-da
+* source languages: en
+* target languages: da
+*  OPUS readme: [en-da](https://github.com/Helsinki-NLP/OPUS-MT-train/blob/master/models/en-da/README.md)
+*  dataset: opus
+* model: transformer-align
+* pre-processing: normalization + SentencePiece
+* download original weights: [opus-2019-12-18.zip](https://object.pouta.csc.fi/OPUS-MT-models/en-da/opus-2019-12-18.zip)
+* test set translations: [opus-2019-12-18.test.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-da/opus-2019-12-18.test.txt)
+* test set scores: [opus-2019-12-18.eval.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-da/opus-2019-12-18.eval.txt)
+## Benchmarks
+| testset               | BLEU  | chr-F |
+|-----------------------|-------|-------|
+| Tatoeba.en.da 	| 60.4 	| 0.745 |

Helsinki-NLP-opus-mt-en-da/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 58929,
+  "decoder_vocab_size": 58930,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "is_transformers_support_available": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": null,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": null,
+  "num_hidden_layers": 6,
+  "pad_token_id": 58929,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.3",
+  "use_cache": true,
+  "vocab_size": 58930
+}

Helsinki-NLP-opus-mt-en-da/generation_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bad_words_ids": [
+    [
+      58929
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 58929,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 58929,
+  "renormalize_logits": true,
+  "transformers_version": "4.53.3"
+}

Helsinki-NLP-opus-mt-en-da/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-da/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-da/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "58929": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "separate_vocabs": false,
+  "source_lang": "en",
+  "sp_model_kwargs": {},
+  "target_lang": "da",
+  "tokenizer_class": "MarianTokenizer",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-da/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-de/README.md ADDED Viewed

	@@ -0,0 +1,109 @@

+---
+tags:
+- translation
+license: cc-by-4.0
+---
+### opus-mt-en-de
+## Table of Contents
+- [Model Details](#model-details)
+- [Uses](#uses)
+- [Risks, Limitations and Biases](#risks-limitations-and-biases)
+- [Training](#training)
+- [Evaluation](#evaluation)
+- [Citation Information](#citation-information)
+- [How to Get Started With the Model](#how-to-get-started-with-the-model)
+## Model Details
+**Model Description:**
+- **Developed by:** Language Technology Research Group at the University of Helsinki
+- **Model Type:** Translation
+- **Language(s):**
+  - Source Language: English
+  - Target Language: German
+- **License:** CC-BY-4.0
+- **Resources for more information:**
+  - [GitHub Repo](https://github.com/Helsinki-NLP/OPUS-MT-train)
+## Uses
+#### Direct Use
+This model can be used for translation and text-to-text generation.
+## Risks, Limitations and Biases
+**CONTENT WARNING: Readers should be aware this section contains content that is disturbing, offensive, and can propagate historical and current stereotypes.**
+Significant research has explored bias and fairness issues with language models (see, e.g., [Sheng et al. (2021)](https://aclanthology.org/2021.acl-long.330.pdf) and [Bender et al. (2021)](https://dl.acm.org/doi/pdf/10.1145/3442188.3445922)).
+Further details about the dataset for this model can be found in the OPUS readme: [en-de](https://github.com/Helsinki-NLP/OPUS-MT-train/blob/master/models/en-de/README.md)
+#### Training Data
+##### Preprocessing
+* pre-processing: normalization + SentencePiece
+* dataset: [opus](https://github.com/Helsinki-NLP/Opus-MT)
+* download original weights: [opus-2020-02-26.zip](https://object.pouta.csc.fi/OPUS-MT-models/en-de/opus-2020-02-26.zip)
+* test set translations: [opus-2020-02-26.test.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-de/opus-2020-02-26.test.txt)
+## Evaluation
+#### Results
+* test set scores: [opus-2020-02-26.eval.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-de/opus-2020-02-26.eval.txt)
+#### Benchmarks
+| testset               | BLEU  | chr-F |
+|-----------------------|-------|-------|
+| newssyscomb2009.en.de 	| 23.5 	| 0.540 |
+| news-test2008.en.de 	| 23.5 	| 0.529 |
+| newstest2009.en.de 	| 22.3 	| 0.530 |
+| newstest2010.en.de 	| 24.9 	| 0.544 |
+| newstest2011.en.de 	| 22.5 	| 0.524 |
+| newstest2012.en.de 	| 23.0 	| 0.525 |
+| newstest2013.en.de 	| 26.9 	| 0.553 |
+| newstest2015-ende.en.de 	| 31.1 	| 0.594 |
+| newstest2016-ende.en.de 	| 37.0 	| 0.636 |
+| newstest2017-ende.en.de 	| 29.9 	| 0.586 |
+| newstest2018-ende.en.de 	| 45.2 	| 0.690 |
+| newstest2019-ende.en.de 	| 40.9 	| 0.654 |
+| Tatoeba.en.de 	| 47.3 	| 0.664 |
+## Citation Information
+```bibtex
+@InProceedings{TiedemannThottingal:EAMT2020,
+  author = {J{\"o}rg Tiedemann and Santhosh Thottingal},
+  title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld},
+  booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)},
+  year = {2020},
+  address = {Lisbon, Portugal}
+ }
+```
+## How to Get Started With the Model
+```python
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-de")
+model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-de")
+```

Helsinki-NLP-opus-mt-en-de/config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 58100,
+  "decoder_vocab_size": 58101,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "is_transformers_support_available": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": null,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": null,
+  "num_hidden_layers": 6,
+  "pad_token_id": 58100,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.3",
+  "use_cache": true,
+  "vocab_size": 58101
+}

Helsinki-NLP-opus-mt-en-de/generation_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bad_words_ids": [
+    [
+      58100
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 58100,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 58100,
+  "renormalize_logits": true,
+  "transformers_version": "4.53.3"
+}

Helsinki-NLP-opus-mt-en-de/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-de/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-de/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "58100": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "separate_vocabs": false,
+  "source_lang": "en",
+  "sp_model_kwargs": {},
+  "target_lang": "de",
+  "tokenizer_class": "MarianTokenizer",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-de/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-dra/README.md ADDED Viewed

	@@ -0,0 +1,106 @@

+---
+language:
+- en
+- ta
+- kn
+- ml
+- te
+- dra
+tags:
+- translation
+license: apache-2.0
+---
+### eng-dra
+* source group: English
+* target group: Dravidian languages
+*  OPUS readme: [eng-dra](https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-dra/README.md)
+*  model: transformer
+* source language(s): eng
+* target language(s): kan mal tam tel
+* model: transformer
+* pre-processing: normalization + SentencePiece (spm32k,spm32k)
+* a sentence initial language token is required in the form of `>>id<<` (id = valid target language ID)
+* download original weights: [opus-2020-07-26.zip](https://object.pouta.csc.fi/Tatoeba-MT-models/eng-dra/opus-2020-07-26.zip)
+* test set translations: [opus-2020-07-26.test.txt](https://object.pouta.csc.fi/Tatoeba-MT-models/eng-dra/opus-2020-07-26.test.txt)
+* test set scores: [opus-2020-07-26.eval.txt](https://object.pouta.csc.fi/Tatoeba-MT-models/eng-dra/opus-2020-07-26.eval.txt)
+## Benchmarks
+| testset               | BLEU  | chr-F |
+|-----------------------|-------|-------|
+| Tatoeba-test.eng-kan.eng.kan 	| 4.7 	| 0.348 |
+| Tatoeba-test.eng-mal.eng.mal 	| 13.1 	| 0.515 |
+| Tatoeba-test.eng.multi 	| 10.7 	| 0.463 |
+| Tatoeba-test.eng-tam.eng.tam 	| 9.0 	| 0.444 |
+| Tatoeba-test.eng-tel.eng.tel 	| 7.1 	| 0.363 |
+### System Info:
+- hf_name: eng-dra
+- source_languages: eng
+- target_languages: dra
+- opus_readme_url: https://github.com/Helsinki-NLP/Tatoeba-Challenge/tree/master/models/eng-dra/README.md
+- original_repo: Tatoeba-Challenge
+- tags: ['translation']
+- languages: ['en', 'ta', 'kn', 'ml', 'te', 'dra']
+- src_constituents: {'eng'}
+- tgt_constituents: {'tam', 'kan', 'mal', 'tel'}
+- src_multilingual: False
+- tgt_multilingual: True
+- prepro:  normalization + SentencePiece (spm32k,spm32k)
+- url_model: https://object.pouta.csc.fi/Tatoeba-MT-models/eng-dra/opus-2020-07-26.zip
+- url_test_set: https://object.pouta.csc.fi/Tatoeba-MT-models/eng-dra/opus-2020-07-26.test.txt
+- src_alpha3: eng
+- tgt_alpha3: dra
+- short_pair: en-dra
+- chrF2_score: 0.46299999999999997
+- bleu: 10.7
+- brevity_penalty: 1.0
+- ref_len: 7928.0
+- src_name: English
+- tgt_name: Dravidian languages
+- train_date: 2020-07-26
+- src_alpha2: en
+- tgt_alpha2: dra
+- prefer_old: False
+- long_pair: eng-dra
+- helsinki_git_sha: 480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
+- transformers_git_sha: 2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
+- port_machine: brutasse
+- port_time: 2020-08-21-14:41

Helsinki-NLP-opus-mt-en-dra/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 62951,
+  "decoder_vocab_size": 62952,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "extra_pos_embeddings": 62952,
+  "forced_eos_token_id": 0,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "is_transformers_support_available": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": null,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": null,
+  "num_hidden_layers": 6,
+  "pad_token_id": 62951,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.3",
+  "use_cache": true,
+  "vocab_size": 62952
+}

Helsinki-NLP-opus-mt-en-dra/generation_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bad_words_ids": [
+    [
+      62951
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 62951,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 62951,
+  "renormalize_logits": true,
+  "transformers_version": "4.53.3"
+}

Helsinki-NLP-opus-mt-en-dra/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-dra/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-dra/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "62951": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "separate_vocabs": false,
+  "source_lang": "eng",
+  "sp_model_kwargs": {},
+  "target_lang": "dra",
+  "tokenizer_class": "MarianTokenizer",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-dra/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-ee/README.md ADDED Viewed

	@@ -0,0 +1,26 @@

+---
+tags:
+- translation
+license: apache-2.0
+---
+### opus-mt-en-ee
+* source languages: en
+* target languages: ee
+*  OPUS readme: [en-ee](https://github.com/Helsinki-NLP/OPUS-MT-train/blob/master/models/en-ee/README.md)
+*  dataset: opus
+* model: transformer-align
+* pre-processing: normalization + SentencePiece
+* download original weights: [opus-2020-01-08.zip](https://object.pouta.csc.fi/OPUS-MT-models/en-ee/opus-2020-01-08.zip)
+* test set translations: [opus-2020-01-08.test.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-ee/opus-2020-01-08.test.txt)
+* test set scores: [opus-2020-01-08.eval.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-ee/opus-2020-01-08.eval.txt)
+## Benchmarks
+| testset               | BLEU  | chr-F |
+|-----------------------|-------|-------|
+| JW300.en.ee 	| 38.2 	| 0.591 |
+| Tatoeba.en.ee 	| 6.0 	| 0.347 |

Helsinki-NLP-opus-mt-en-ee/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 57578,
+  "decoder_vocab_size": 57579,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "is_transformers_support_available": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": null,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": null,
+  "num_hidden_layers": 6,
+  "pad_token_id": 57578,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.3",
+  "use_cache": true,
+  "vocab_size": 57579
+}

Helsinki-NLP-opus-mt-en-ee/generation_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bad_words_ids": [
+    [
+      57578
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 57578,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 57578,
+  "renormalize_logits": true,
+  "transformers_version": "4.53.3"
+}

Helsinki-NLP-opus-mt-en-ee/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-ee/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-ee/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57578": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "separate_vocabs": false,
+  "source_lang": "en",
+  "sp_model_kwargs": {},
+  "target_lang": "ee",
+  "tokenizer_class": "MarianTokenizer",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-ee/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-efi/README.md ADDED Viewed

	@@ -0,0 +1,25 @@

+---
+tags:
+- translation
+license: apache-2.0
+---
+### opus-mt-en-efi
+* source languages: en
+* target languages: efi
+*  OPUS readme: [en-efi](https://github.com/Helsinki-NLP/OPUS-MT-train/blob/master/models/en-efi/README.md)
+*  dataset: opus
+* model: transformer-align
+* pre-processing: normalization + SentencePiece
+* download original weights: [opus-2020-01-20.zip](https://object.pouta.csc.fi/OPUS-MT-models/en-efi/opus-2020-01-20.zip)
+* test set translations: [opus-2020-01-20.test.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-efi/opus-2020-01-20.test.txt)
+* test set scores: [opus-2020-01-20.eval.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-efi/opus-2020-01-20.eval.txt)
+## Benchmarks
+| testset               | BLEU  | chr-F |
+|-----------------------|-------|-------|
+| JW300.en.efi 	| 38.0 	| 0.568 |

Helsinki-NLP-opus-mt-en-efi/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 55089,
+  "decoder_vocab_size": 55090,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "is_transformers_support_available": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": null,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": null,
+  "num_hidden_layers": 6,
+  "pad_token_id": 55089,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.3",
+  "use_cache": true,
+  "vocab_size": 55090
+}

Helsinki-NLP-opus-mt-en-efi/generation_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bad_words_ids": [
+    [
+      55089
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 55089,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 55089,
+  "renormalize_logits": true,
+  "transformers_version": "4.53.3"
+}

Helsinki-NLP-opus-mt-en-efi/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-efi/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-efi/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "55089": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "separate_vocabs": false,
+  "source_lang": "en",
+  "sp_model_kwargs": {},
+  "target_lang": "efi",
+  "tokenizer_class": "MarianTokenizer",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-efi/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-el/README.md ADDED Viewed

	@@ -0,0 +1,25 @@

+---
+tags:
+- translation
+license: apache-2.0
+---
+### opus-mt-en-el
+* source languages: en
+* target languages: el
+*  OPUS readme: [en-el](https://github.com/Helsinki-NLP/OPUS-MT-train/blob/master/models/en-el/README.md)
+*  dataset: opus
+* model: transformer-align
+* pre-processing: normalization + SentencePiece
+* download original weights: [opus-2019-12-18.zip](https://object.pouta.csc.fi/OPUS-MT-models/en-el/opus-2019-12-18.zip)
+* test set translations: [opus-2019-12-18.test.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-el/opus-2019-12-18.test.txt)
+* test set scores: [opus-2019-12-18.eval.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-el/opus-2019-12-18.eval.txt)
+## Benchmarks
+| testset               | BLEU  | chr-F |
+|-----------------------|-------|-------|
+| Tatoeba.en.el 	| 56.4 	| 0.745 |

Helsinki-NLP-opus-mt-en-el/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 64825,
+  "decoder_vocab_size": 64826,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "is_transformers_support_available": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": null,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": null,
+  "num_hidden_layers": 6,
+  "pad_token_id": 64825,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.3",
+  "use_cache": true,
+  "vocab_size": 64826
+}

Helsinki-NLP-opus-mt-en-el/generation_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bad_words_ids": [
+    [
+      64825
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 64825,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 64825,
+  "renormalize_logits": true,
+  "transformers_version": "4.53.3"
+}

Helsinki-NLP-opus-mt-en-el/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-el/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-el/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64825": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "separate_vocabs": false,
+  "source_lang": "en",
+  "sp_model_kwargs": {},
+  "target_lang": "el",
+  "tokenizer_class": "MarianTokenizer",
+  "unk_token": "<unk>"
+}

Helsinki-NLP-opus-mt-en-el/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Helsinki-NLP-opus-mt-en-eo/README.md ADDED Viewed

	@@ -0,0 +1,25 @@

+---
+tags:
+- translation
+license: apache-2.0
+---
+### opus-mt-en-eo
+* source languages: en
+* target languages: eo
+*  OPUS readme: [en-eo](https://github.com/Helsinki-NLP/OPUS-MT-train/blob/master/models/en-eo/README.md)
+*  dataset: opus
+* model: transformer-align
+* pre-processing: normalization + SentencePiece
+* download original weights: [opus-2019-12-18.zip](https://object.pouta.csc.fi/OPUS-MT-models/en-eo/opus-2019-12-18.zip)
+* test set translations: [opus-2019-12-18.test.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-eo/opus-2019-12-18.test.txt)
+* test set scores: [opus-2019-12-18.eval.txt](https://object.pouta.csc.fi/OPUS-MT-models/en-eo/opus-2019-12-18.eval.txt)
+## Benchmarks
+| testset               | BLEU  | chr-F |
+|-----------------------|-------|-------|
+| Tatoeba.en.eo 	| 49.5 	| 0.682 |

Helsinki-NLP-opus-mt-en-eo/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_num_labels": 3,
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 59196,
+  "decoder_vocab_size": 59197,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "is_transformers_support_available": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": null,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": null,
+  "num_hidden_layers": 6,
+  "pad_token_id": 59196,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.3",
+  "use_cache": true,
+  "vocab_size": 59197
+}

Helsinki-NLP-opus-mt-en-eo/generation_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bad_words_ids": [
+    [
+      59196
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 59196,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 59196,
+  "renormalize_logits": true,
+  "transformers_version": "4.53.3"
+}