File size: 1,593 Bytes
fe875de
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
---
license: apache-2.0
---

## Mistral gyda ychwanegiad Tocynnydd Cymreig

Mae model Mistral yn cynnwys 32,000 tocynn yn ei eirfa.

Wrth amgodio brawddeg yn y gymraeg, mae'r tocynnau ar wasgar i'w gymharu hefo'r Saesneg:


### Tocynnydd Mistral 32k
```
This is a tokenizer test
['▁This', '▁is', '▁a', '▁token', 'izer', '▁test']

Roedd y gath yn eistedd ar y llawr
['▁Ro', 'ed', 'd', '▁y', '▁g', 'ath', '▁y', 'n', '▁e', 'isted', 'd', '▁ar', '▁y', '▁ll', 'aw', 'r']

```

### Tocynnydd Cymreig 16k

Wrth greu tocynnydd o'r newydd wedi ei hyfforddi ar ddata Cymreig, cawn gynrychiolaeth llawer tynach yn y Gymraeg. Mae'r Saesneg wedi gwaethygu, fodd bynnag.

```
This is a tokenizer test
['▁This', '▁is', '▁a', '▁to', 'ke', 'n', 'ize', 'r', '▁', 'test']

Roedd y gath yn eistedd ar y llawr
['▁Roedd', '▁y', '▁gath', '▁yn', '▁eistedd', '▁ar', '▁y', '▁llawr']
```

## Tocynnydd Gyfunol

Wrth gyfuno tocynnydd Mistral gyda ein tocynnydd newydd Cymraeg, cawn un sydd yn medru mynegi tocynnau yn y ddwy iaith yn effeithiol:

```
This is a tokenizer test
['▁This', '▁is', '▁a', '▁token', 'izer', '▁test']

Roedd y gath yn eistedd ar y llawr
['▁Roedd', '▁y', '▁gath', '▁yn', '▁', 'eis', 't', 'edd', '▁ar', '▁y', '▁llawr']
```

Mae set o docynnau yn cael eu rhannu rhwng y ddwy iaith, sydd yn rhoi cyfanswm o 44,955 tocyn yn y fersiwn yma.

Mae'r model Mistral wedi ei ehangu ar ei gyfer - *ond* dylir gofio fod angen hyfforddi'r model gryn dipyn er mwyn gysylltu ystyr y tocynnau newydd hefo'r rhai sydd yn y model yn barod.