DerivedFunction
/

polyglot-tagger-v2.2

Token Classification

Generated from Trainer

language-identification

Model card Files Files and versions

Metrics Training metrics Community

DerivedFunction commited on 29 days ago

Commit

b357baa

·

verified ·

1 Parent(s): afe7dc7

Update README.md

Files changed (1) hide show

README.md +2 -0

README.md CHANGED Viewed

@@ -168,6 +168,8 @@ To generalize well on both the target language and code switching a circulumn is
 - Homogenous 25%: Single language + one foreign sentence to learn simple code switching
 - Spliced 10%: A foreign sentence is centered between two same-language sentence, with the first sentence's punctuation stripped, and second sentence's forced to be lowercased.
 - Mixed 10%: Generic mix of any languages.
 | lang | train sentences | train tokens | eval sentences | eval tokens | all sentences | all tokens |
 | :--- | ---: | ---: | ---: | ---: | ---: | ---: |
 | en | 342138 (2.14%) | 8515554 (1.58%) | 2925 (3.89%) | 29279 (1.57%) | 345063 (2.14%) | 8544833 (1.58%) |

 - Homogenous 25%: Single language + one foreign sentence to learn simple code switching
 - Spliced 10%: A foreign sentence is centered between two same-language sentence, with the first sentence's punctuation stripped, and second sentence's forced to be lowercased.
 - Mixed 10%: Generic mix of any languages.
+-
+### Training Data Breakdown
 | lang | train sentences | train tokens | eval sentences | eval tokens | all sentences | all tokens |
 | :--- | ---: | ---: | ---: | ---: | ---: | ---: |
 | en | 342138 (2.14%) | 8515554 (1.58%) | 2925 (3.89%) | 29279 (1.57%) | 345063 (2.14%) | 8544833 (1.58%) |