Lauler
/

deformer

Token Classification

Transformers

PyTorch

bert

Model card Files Files and versions

xet

Community

Lauler commited on Dec 12, 2021

Commit

ff0eb4c

1 Parent(s): b4960f1

Swedish instructions to use lower case letters when testing model

Browse files

Files changed (1) hide show

README.md +7 -7

README.md CHANGED Viewed

@@ -6,15 +6,15 @@ widget:
   example_title: "de/dem exempel 2"
 ---
-## Demformer
-Demformer är en modell som har tränats på att skilja mellan `de` och `dem` i svenska meningar. Modellen kan testas direkt i panelerna till höger under **Hosted Inference API** genom att skriva en mening och trycka på **Compute**.
-**INSTRUCTIONS (IMPORTANT):**
-Input only lowercase de/dem when testing. The model has seen much more lowercased examples than cased ones, and performs much better on lower cased inputs. Make sure to also end sentences with a period for the best performance.
 ## Träningsdata
-Demformer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från [OPUS](https://opus.nlpl.eu/). Källorna valdes ut för att de antogs ha ett korrekt språkbruk.
 Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av `de/dem`.
@@ -23,7 +23,7 @@ Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls
 | [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz)        | 495836      |  461305 | 53726   | 8.57x        |
 | [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 626486      |  598371 | 38649   | 15.48x       |
-Vid träningen av Demformer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
 1. **`ord`** (alla bakgrundsord som inte är de/dem tillhör denna kategori)
 2. **`DE`**
@@ -33,7 +33,7 @@ Innan observationerna skickades in till modellträning byttes `de` ut mot `dem`
 ## Träffsäkerhet/Accuracy
-Demformer utvärderades på ett valideringsset bestående av 5000 meningar från samma datakälla (svenska wiki + europaparlamentet) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att Demformer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).
 |             | Accuracy    |
 | ----------- | ----------- |

   example_title: "de/dem exempel 2"
 ---
+## DeFormer
+DeFormer är en modell som har tränats på att skilja mellan `de` och `dem` i svenska meningar. Modellen kan testas direkt i panelerna till höger under **Hosted Inference API** genom att skriva in en mening och trycka på **Compute**.
+**Instruktioner (VIKTIGT):**
+Använd endast de/dem med små bokstäver vid testning. I träningen av modellen gjordes alla "De" och "Dem" om till gemener. Avsluta meningen med skiljetecken (punkt, frågetecken, osv) för bäst möjliga resultat.
 ## Träningsdata
+DeFormer har tränats på meningar från Europarlamentet och svenskspråkiga Wikimedia. Dessa hämtades från [OPUS](https://opus.nlpl.eu/). Källorna valdes ut för att de antogs ha ett korrekt språkbruk.
 Endast meningar innehållandes `de` eller `dem` -- eller bägge två -- behölls i konstruktionen av träningsdataset. I tabellen nedan återfinns beskrivande statistik över antalet meningar som behölls från respektive dataset, samt frekvenser över förekomsten av `de/dem`.
 | [Europaparl sv.txt.gz](https://opus.nlpl.eu/download.php?f=Europarl/v8/mono/sv.txt.gz)        | 495836      |  461305 | 53726   | 8.57x        |
 | [Wikimedia sv.txt.gz](https://opus.nlpl.eu/download.php?f=wikimedia/v20210402/mono/sv.txt.gz) | 626486      |  598371 | 38649   | 15.48x       |
+Vid träningen av DeFormer introducerades slumpmässiga substitioner, där `de` eller `dem` byttes ut mot den motsatta formen. Modellen utmanades sedan att klassificera huruvida ett givet ord tillhörde ett av följande kategorier
 1. **`ord`** (alla bakgrundsord som inte är de/dem tillhör denna kategori)
 2. **`DE`**
 ## Träffsäkerhet/Accuracy
+DeFormer utvärderades på ett valideringsset bestående av 5000 meningar från samma datakälla (svenska wiki + europaparlamentet) som modellen tränats på. Slumpmässiga fel introducerades för att utmana modellen. 47 procent av förekommande `de` i ursprungsmeningarna ändrades till `dem`, medan 40 procent av förekommande `dem` ändrades till `de`. Tabellen nedan visar att DeFormer är väldigt träffsäker. De få "felaktiga" prediktioner som modellen outputtar är nästan samtliga `de/dem som`-konstruktioner med bisatser. Dessa är egentligen inte att anse som felaktiga, eftersom [båda formerna är accepterade](https://www4.isof.se/cgi-bin/srfl/visasvar.py?sok=dem%20som&svar=79718&log_id=705355).
 |             | Accuracy    |
 | ----------- | ----------- |