Lauler commited on
Commit
65b6917
·
1 Parent(s): ff0eb4c

Add improved version of model

Browse files
Files changed (2) hide show
  1. README.md +7 -5
  2. pytorch_model.bin +2 -2
README.md CHANGED
@@ -20,8 +20,10 @@ Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls
20
 
21
  | Datakälla | Meningar | # De | # Dem | De/Dem ratio |
22
  | ----------- | ----------- | ------- | ------- | ------------ |
23
- | [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) | 495836 | 461305 | 53726 | 8.57x |
24
- | [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 626486 | 598371 | 38649 | 15.48x |
 
 
25
 
26
  Vid träningen av DeFormer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
27
 
@@ -33,9 +35,9 @@ Innan observationerna skickades in till modellträning byttes `de` ut mot `dem`
33
 
34
  ## Träffsäkerhet/Accuracy
35
 
36
- DeFormer utvärderades på ett valideringsset bestående av 5000 meningar från samma datakälla (svenska wiki + europaparlamentet) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).
37
 
38
  | | Accuracy |
39
  | ----------- | ----------- |
40
- | de | 99.5\% |
41
- | dem | 96.6\% |
 
20
 
21
  | Datakälla | Meningar | # De | # Dem | De/Dem ratio |
22
  | ----------- | ----------- | ------- | ------- | ------------ |
23
+ | [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) | 500660 | 465977 | 54331 | 8.57x |
24
+ | [JRC-Acquis raw.sv.gz](https://opus.nlpl.eu/download.php?f=JRC-Acquis/mono/JRC-Acquis.raw.sv.gz) | 417951 | 408576 | 17028 | 23.99x |
25
+ | [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 630601 | 602393 | 38852 | 15.48x |
26
+ | **Total** | **1549212** | **1476946** | **110211** | **13.40x** |
27
 
28
  Vid träningen av DeFormer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
29
 
 
35
 
36
  ## Träffsäkerhet/Accuracy
37
 
38
+ DeFormer utvärderades på ett valideringsset bestående av 31200 meningar från samma datakälla (svenska wiki + europaparlamentet + JRC) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Majoriteten av dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).
39
 
40
  | | Accuracy |
41
  | ----------- | ----------- |
42
+ | de | 99.9\% |
43
+ | dem | 98.6\% |
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5d43512c1f94cddc4d77a7a176f1660d16f3154a081e66a98f6c8ab870098f76
3
- size 496499191
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:34e616f216faa03e16725b61e364f0f4d5301d3c2e991b25aa1ca202e00947a0
3
+ size 496494065