File size: 4,741 Bytes
b1a9b45
 
add52b7
 
b1a9b45
add52b7
e733a9a
 
b1a9b45
 
ff0eb4c
b1a9b45
ff0eb4c
b1a9b45
e733a9a
 
 
 
add52b7
b1a9b45
ff0eb4c
b1a9b45
4528568
b1a9b45
83a43f2
4528568
 
 
 
 
 
 
 
b1a9b45
4528568
b1a9b45
 
 
 
e733a9a
 
 
b1a9b45
4528568
b1a9b45
 
 
65b6917
b1a9b45
4528568
 
b1a9b45
 
65b6917
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
---
widget:
- text: "dem har sökt upp de för att prata."
  example_title: "de/dem exempel 1"
- text: "Jag såg de komma runt hörnet och gå i riktning mot dem byggnaderna."
  example_title: "de/dem exempel 2"
- text: "de är ganska tråkigt att de blivit såhär, men de va de ända jag kunde göra"
  example_title: "enda/ända och de(t)"
---

## DeFormer

DeFormer är en modell som har tränats på att skilja mellan `de` och `dem` i svenska meningar. Modellen kan testas direkt i panelerna till höger under **Hosted Inference API** genom att skriva in en mening och trycka på **Compute**. 

**Uppdatering 2023-05-06:** Modellen kan nu hantera även borttappade t:n i de**t**. Den nya versionen har tränats till att skilja mellan de, det och dem; samt enda och ända. 

**Instruktioner:**
Använd endast de/dem/enda/ända med små bokstäver vid testning. Vid träning av modellen gjordes alla "De" och "Dem" om till gemener.

## Träningsdata
DeFormer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från [OPUS](https://opus.nlpl.eu/). Källorna valdes ut för att de antogs ha ett korrekt språkbruk. 

Endast meningar innehållandes `de`, `dem`, `det`, `enda` eller `ända` behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomster av respektive ord. 

| Datakälla                                                                                        | Meningar/dokument    |  # De       | # Dem       | # Det        | # Enda    | # Ända    |     
| -----------                                                                                      | ----------- | ----------- | ----------- | -------------|---------- | --------- |
| [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz)           | 1150556     | 461305      | 53726       | 824065       | 15553     | 1781      |
| [JRC-Acquis raw.sv.gz](https://opus.nlpl.eu/download.php?f=JRC-Acquis/mono/JRC-Acquis.raw.sv.gz) | 648387      | 399628      | 16539       | 326925       | 5975      | 267       |
| [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz)    | 1615505     | 598371      | 38649       | 594038       | 24805     | 7063      |
| [Riksdagens anföranden](https://data.riksdagen.se/data/anforanden/)                              | 671031      | 497515      | 118069      | 659051       | 25912     | 4917      |
| [Riksdagens motioner (2014-2022)](https://data.riksdagen.se/data/dokument/)                      | 85124       | 85124       | 11773       | 104526       | 2740      | 453       |
| [SweDN (Superlim 2)](https://spraakbanken.gu.se/en/resources/swedn)                              | 93026       | 70254       | 16399       | 88087        | 5104      | 1236      |
| **Total**                                                                                        | **4286974** | **2112197** | **255155**  | **2596692**  | **80089** | **15717** |

Vid träningen av DeFormer introducerades slumpmässiga substitioner, där ovanstående ord byttes ut mot de former som de vanligen förväxlas med. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier

1. **`ord`** (alla bakgrundsord som inte är de/dem tillhör denna kategori) 
2. **`DE`**
3. **`DEM`**
4. **`DET`**
5. **`ENDA`**
6. **`ÄNDA`**

Innan observationerna skickades in till modellträning byttes `de` ut mot `det` eller `dem` med cirka 50 procents sannolikhet, medan `dem` byttes till `de` i 40 procent av fallen. Liknande substutioner gjordes mellan `enda` och `ända`.

## Träffsäkerhet/Accuracy

DeFormer utvärderades på ett valideringsset bestående av 31200 meningar från samma datakälla (svenska wiki + europaparlamentet + JRC) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Majoriteten av dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).

**OBS:** Tabellen nedan gäller för den äldre varianten av DeFormer som endast skiljde mellan `de` och `dem`.

|             | Accuracy    |
| ----------- | ----------- |
| de          | 99.9\%      |
| dem         | 98.6\%      |