Lauler commited on
Commit
ff0eb4c
·
1 Parent(s): b4960f1

Swedish instructions to use lower case letters when testing model

Browse files
Files changed (1) hide show
  1. README.md +7 -7
README.md CHANGED
@@ -6,15 +6,15 @@ widget:
6
  example_title: "de/dem exempel 2"
7
  ---
8
 
9
- ## Demformer
10
 
11
- Demformer är en modell som har tränats på att skilja mellan `de` och `dem` i svenska meningar. Modellen kan testas direkt i panelerna till höger under **Hosted Inference API** genom att skriva en mening och trycka på **Compute**.
12
 
13
- **INSTRUCTIONS (IMPORTANT):**
14
- Input only lowercase de/dem when testing. The model has seen much more lowercased examples than cased ones, and performs much better on lower cased inputs. Make sure to also end sentences with a period for the best performance.
15
 
16
  ## Träningsdata
17
- Demformer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från [OPUS](https://opus.nlpl.eu/). Källorna valdes ut för att de antogs ha ett korrekt språkbruk.
18
 
19
  Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av `de/dem`.
20
 
@@ -23,7 +23,7 @@ Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls
23
  | [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) | 495836 | 461305 | 53726 | 8.57x |
24
  | [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 626486 | 598371 | 38649 | 15.48x |
25
 
26
- Vid träningen av Demformer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
27
 
28
  1. **`ord`** (alla bakgrundsord som inte är de/dem tillhör denna kategori)
29
  2. **`DE`**
@@ -33,7 +33,7 @@ Innan observationerna skickades in till modellträning byttes `de` ut mot `dem`
33
 
34
  ## Träffsäkerhet/Accuracy
35
 
36
- Demformer utvärderades på ett valideringsset bestående av 5000 meningar från samma datakälla (svenska wiki + europaparlamentet) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att Demformer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).
37
 
38
  | | Accuracy |
39
  | ----------- | ----------- |
 
6
  example_title: "de/dem exempel 2"
7
  ---
8
 
9
+ ## DeFormer
10
 
11
+ DeFormer är en modell som har tränats på att skilja mellan `de` och `dem` i svenska meningar. Modellen kan testas direkt i panelerna till höger under **Hosted Inference API** genom att skriva in en mening och trycka på **Compute**.
12
 
13
+ **Instruktioner (VIKTIGT):**
14
+ Använd endast de/dem med små bokstäver vid testning. I träningen av modellen gjordes alla "De" och "Dem" om till gemener. Avsluta meningen med skiljetecken (punkt, frågetecken, osv) för bäst möjliga resultat.
15
 
16
  ## Träningsdata
17
+ DeFormer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från [OPUS](https://opus.nlpl.eu/). Källorna valdes ut för att de antogs ha ett korrekt språkbruk.
18
 
19
  Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av `de/dem`.
20
 
 
23
  | [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz) | 495836 | 461305 | 53726 | 8.57x |
24
  | [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 626486 | 598371 | 38649 | 15.48x |
25
 
26
+ Vid träningen av DeFormer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
27
 
28
  1. **`ord`** (alla bakgrundsord som inte är de/dem tillhör denna kategori)
29
  2. **`DE`**
 
33
 
34
  ## Träffsäkerhet/Accuracy
35
 
36
+ DeFormer utvärderades på ett valideringsset bestående av 5000 meningar från samma datakälla (svenska wiki + europaparlamentet) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).
37
 
38
  | | Accuracy |
39
  | ----------- | ----------- |