Create README.md
Browse files
README.md
ADDED
|
@@ -0,0 +1,48 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: apache-2.0
|
| 3 |
+
---
|
| 4 |
+
|
| 5 |
+
## Mistral gyda ychwanegiad Tocynnydd Cymreig
|
| 6 |
+
|
| 7 |
+
Mae model Mistral yn cynnwys 32,000 tocynn yn ei eirfa.
|
| 8 |
+
|
| 9 |
+
Wrth amgodio brawddeg yn y gymraeg, mae'r tocynnau ar wasgar i'w gymharu hefo'r Saesneg:
|
| 10 |
+
|
| 11 |
+
|
| 12 |
+
### Tocynnydd Mistral 32k
|
| 13 |
+
```
|
| 14 |
+
This is a tokenizer test
|
| 15 |
+
['▁This', '▁is', '▁a', '▁token', 'izer', '▁test']
|
| 16 |
+
|
| 17 |
+
Roedd y gath yn eistedd ar y llawr
|
| 18 |
+
['▁Ro', 'ed', 'd', '▁y', '▁g', 'ath', '▁y', 'n', '▁e', 'isted', 'd', '▁ar', '▁y', '▁ll', 'aw', 'r']
|
| 19 |
+
|
| 20 |
+
```
|
| 21 |
+
|
| 22 |
+
### Tocynnydd Cymreig 16k
|
| 23 |
+
|
| 24 |
+
Wrth greu tocynnydd o'r newydd wedi ei hyfforddi ar ddata Cymreig, cawn gynrychiolaeth llawer tynach yn y Gymraeg. Mae'r Saesneg wedi gwaethygu, fodd bynnag.
|
| 25 |
+
|
| 26 |
+
```
|
| 27 |
+
This is a tokenizer test
|
| 28 |
+
['▁This', '▁is', '▁a', '▁to', 'ke', 'n', 'ize', 'r', '▁', 'test']
|
| 29 |
+
|
| 30 |
+
Roedd y gath yn eistedd ar y llawr
|
| 31 |
+
['▁Roedd', '▁y', '▁gath', '▁yn', '▁eistedd', '▁ar', '▁y', '▁llawr']
|
| 32 |
+
```
|
| 33 |
+
|
| 34 |
+
## Tocynnydd Gyfunol
|
| 35 |
+
|
| 36 |
+
Wrth gyfuno tocynnydd Mistral gyda ein tocynnydd newydd Cymraeg, cawn un sydd yn medru mynegi tocynnau yn y ddwy iaith yn effeithiol:
|
| 37 |
+
|
| 38 |
+
```
|
| 39 |
+
This is a tokenizer test
|
| 40 |
+
['▁This', '▁is', '▁a', '▁token', 'izer', '▁test']
|
| 41 |
+
|
| 42 |
+
Roedd y gath yn eistedd ar y llawr
|
| 43 |
+
['▁Roedd', '▁y', '▁gath', '▁yn', '▁', 'eis', 't', 'edd', '▁ar', '▁y', '▁llawr']
|
| 44 |
+
```
|
| 45 |
+
|
| 46 |
+
Mae set o docynnau yn cael eu rhannu rhwng y ddwy iaith, sydd yn rhoi cyfanswm o 44,955 tocyn yn y fersiwn yma.
|
| 47 |
+
|
| 48 |
+
Mae'r model Mistral wedi ei ehangu ar ei gyfer - *ond* dylir gofio fod angen hyfforddi'r model gryn dipyn er mwyn gysylltu ystyr y tocynnau newydd hefo'r rhai sydd yn y model yn barod.
|