Swedish instructions to use lower case letters when testing model
Browse files
README.md
CHANGED
|
@@ -6,15 +6,15 @@ widget:
|
|
| 6 |
example_title: "de/dem exempel 2"
|
| 7 |
---
|
| 8 |
|
| 9 |
-
##
|
| 10 |
|
| 11 |
-
|
| 12 |
|
| 13 |
-
**
|
| 14 |
-
|
| 15 |
|
| 16 |
## Träningsdata
|
| 17 |
-
|
| 18 |
|
| 19 |
Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av `de/dem`.
|
| 20 |
|
|
@@ -23,7 +23,7 @@ Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls
|
|
| 23 |
| [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) | 495836 | 461305 | 53726 | 8.57x |
|
| 24 |
| [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 626486 | 598371 | 38649 | 15.48x |
|
| 25 |
|
| 26 |
-
Vid träningen av
|
| 27 |
|
| 28 |
1. **`ord`** (alla bakgrundsord som inte är de/dem tillhör denna kategori)
|
| 29 |
2. **`DE`**
|
|
@@ -33,7 +33,7 @@ Innan observationerna skickades in till modellträning byttes `de` ut mot `dem`
|
|
| 33 |
|
| 34 |
## Träffsäkerhet/Accuracy
|
| 35 |
|
| 36 |
-
|
| 37 |
|
| 38 |
| | Accuracy |
|
| 39 |
| ----------- | ----------- |
|
|
|
|
| 6 |
example_title: "de/dem exempel 2"
|
| 7 |
---
|
| 8 |
|
| 9 |
+
## DeFormer
|
| 10 |
|
| 11 |
+
DeFormer är en modell som har tränats på att skilja mellan `de` och `dem` i svenska meningar. Modellen kan testas direkt i panelerna till höger under **Hosted Inference API** genom att skriva in en mening och trycka på **Compute**.
|
| 12 |
|
| 13 |
+
**Instruktioner (VIKTIGT):**
|
| 14 |
+
Använd endast de/dem med små bokstäver vid testning. I träningen av modellen gjordes alla "De" och "Dem" om till gemener. Avsluta meningen med skiljetecken (punkt, frågetecken, osv) för bäst möjliga resultat.
|
| 15 |
|
| 16 |
## Träningsdata
|
| 17 |
+
DeFormer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från [OPUS](https://opus.nlpl.eu/). Källorna valdes ut för att de antogs ha ett korrekt språkbruk.
|
| 18 |
|
| 19 |
Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av `de/dem`.
|
| 20 |
|
|
|
|
| 23 |
| [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) | 495836 | 461305 | 53726 | 8.57x |
|
| 24 |
| [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 626486 | 598371 | 38649 | 15.48x |
|
| 25 |
|
| 26 |
+
Vid träningen av DeFormer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
|
| 27 |
|
| 28 |
1. **`ord`** (alla bakgrundsord som inte är de/dem tillhör denna kategori)
|
| 29 |
2. **`DE`**
|
|
|
|
| 33 |
|
| 34 |
## Träffsäkerhet/Accuracy
|
| 35 |
|
| 36 |
+
DeFormer utvärderades på ett valideringsset bestående av 5000 meningar från samma datakälla (svenska wiki + europaparlamentet) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).
|
| 37 |
|
| 38 |
| | Accuracy |
|
| 39 |
| ----------- | ----------- |
|