rhysjones commited on
Commit
fe875de
·
1 Parent(s): 9582b8c

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +48 -0
README.md ADDED
@@ -0,0 +1,48 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ ---
4
+
5
+ ## Mistral gyda ychwanegiad Tocynnydd Cymreig
6
+
7
+ Mae model Mistral yn cynnwys 32,000 tocynn yn ei eirfa.
8
+
9
+ Wrth amgodio brawddeg yn y gymraeg, mae'r tocynnau ar wasgar i'w gymharu hefo'r Saesneg:
10
+
11
+
12
+ ### Tocynnydd Mistral 32k
13
+ ```
14
+ This is a tokenizer test
15
+ ['▁This', '▁is', '▁a', '▁token', 'izer', '▁test']
16
+
17
+ Roedd y gath yn eistedd ar y llawr
18
+ ['▁Ro', 'ed', 'd', '▁y', '▁g', 'ath', '▁y', 'n', '▁e', 'isted', 'd', '▁ar', '▁y', '▁ll', 'aw', 'r']
19
+
20
+ ```
21
+
22
+ ### Tocynnydd Cymreig 16k
23
+
24
+ Wrth greu tocynnydd o'r newydd wedi ei hyfforddi ar ddata Cymreig, cawn gynrychiolaeth llawer tynach yn y Gymraeg. Mae'r Saesneg wedi gwaethygu, fodd bynnag.
25
+
26
+ ```
27
+ This is a tokenizer test
28
+ ['▁This', '▁is', '▁a', '▁to', 'ke', 'n', 'ize', 'r', '▁', 'test']
29
+
30
+ Roedd y gath yn eistedd ar y llawr
31
+ ['▁Roedd', '▁y', '▁gath', '▁yn', '▁eistedd', '▁ar', '▁y', '▁llawr']
32
+ ```
33
+
34
+ ## Tocynnydd Gyfunol
35
+
36
+ Wrth gyfuno tocynnydd Mistral gyda ein tocynnydd newydd Cymraeg, cawn un sydd yn medru mynegi tocynnau yn y ddwy iaith yn effeithiol:
37
+
38
+ ```
39
+ This is a tokenizer test
40
+ ['▁This', '▁is', '▁a', '▁token', 'izer', '▁test']
41
+
42
+ Roedd y gath yn eistedd ar y llawr
43
+ ['▁Roedd', '▁y', '▁gath', '▁yn', '▁', 'eis', 't', 'edd', '▁ar', '▁y', '▁llawr']
44
+ ```
45
+
46
+ Mae set o docynnau yn cael eu rhannu rhwng y ddwy iaith, sydd yn rhoi cyfanswm o 44,955 tocyn yn y fersiwn yma.
47
+
48
+ Mae'r model Mistral wedi ei ehangu ar ei gyfer - *ond* dylir gofio fod angen hyfforddi'r model gryn dipyn er mwyn gysylltu ystyr y tocynnau newydd hefo'r rhai sydd yn y model yn barod.