Add improved version of model
Browse files- README.md +7 -5
- pytorch_model.bin +2 -2
README.md
CHANGED
|
@@ -20,8 +20,10 @@ Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls
|
|
| 20 |
|
| 21 |
| Datakälla | Meningar | # De | # Dem | De/Dem ratio |
|
| 22 |
| ----------- | ----------- | ------- | ------- | ------------ |
|
| 23 |
-
| [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz)
|
| 24 |
-
| [
|
|
|
|
|
|
|
| 25 |
|
| 26 |
Vid träningen av DeFormer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
|
| 27 |
|
|
@@ -33,9 +35,9 @@ Innan observationerna skickades in till modellträning byttes `de` ut mot `dem`
|
|
| 33 |
|
| 34 |
## Träffsäkerhet/Accuracy
|
| 35 |
|
| 36 |
-
DeFormer utvärderades på ett valideringsset bestående av
|
| 37 |
|
| 38 |
| | Accuracy |
|
| 39 |
| ----------- | ----------- |
|
| 40 |
-
| de | 99.
|
| 41 |
-
| dem |
|
|
|
|
| 20 |
|
| 21 |
| Datakälla | Meningar | # De | # Dem | De/Dem ratio |
|
| 22 |
| ----------- | ----------- | ------- | ------- | ------------ |
|
| 23 |
+
| [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) | 500660 | 465977 | 54331 | 8.57x |
|
| 24 |
+
| [JRC-Acquis raw.sv.gz](https://opus.nlpl.eu/download.php?f=JRC-Acquis/mono/JRC-Acquis.raw.sv.gz) | 417951 | 408576 | 17028 | 23.99x |
|
| 25 |
+
| [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 630601 | 602393 | 38852 | 15.48x |
|
| 26 |
+
| **Total** | **1549212** | **1476946** | **110211** | **13.40x** |
|
| 27 |
|
| 28 |
Vid träningen av DeFormer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
|
| 29 |
|
|
|
|
| 35 |
|
| 36 |
## Träffsäkerhet/Accuracy
|
| 37 |
|
| 38 |
+
DeFormer utvärderades på ett valideringsset bestående av 31200 meningar från samma datakälla (svenska wiki + europaparlamentet + JRC) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Majoriteten av dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).
|
| 39 |
|
| 40 |
| | Accuracy |
|
| 41 |
| ----------- | ----------- |
|
| 42 |
+
| de | 99.9\% |
|
| 43 |
+
| dem | 98.6\% |
|
pytorch_model.bin
CHANGED
|
@@ -1,3 +1,3 @@
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
-
oid sha256:
|
| 3 |
-
size
|
|
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:34e616f216faa03e16725b61e364f0f4d5301d3c2e991b25aa1ca202e00947a0
|
| 3 |
+
size 496494065
|