Kedy123 commited on
Commit
d81393c
·
verified ·
1 Parent(s): 180fc6a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +37 -10
README.md CHANGED
@@ -1,13 +1,40 @@
1
- TechTr-Synthetic-1K: Textbook-Style Reasoning Dataset
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
 
3
- bu veri seti, Türkçe doğal dil işleme modellerine "Muhakeme Yeteneği" (Reasoning) kazandırmak amacıyla, Cosmopedia ve Microsoft Phi-1/2 metodolojisi (Textbook Quality) örnek alınarak üretilmiştir.
4
- neden Farklı?
5
 
6
- Mantık Silsilesi: Sadece ham bilgi değil, bilginin "neden" ve "nasıl" var olduğunu açıklayan bir anlatım yapısı.
7
- Yüksek Teknik Çeşitlilik: 50'den fazla programlama dili, bulut bilişim teknolojileri ve ileri düzey matematik konularını kapsar.
8
- Temiz Veri: NBSP temizliği yapılmış, token limitleri optimize edilmiş ve gereksiz meta-verilerden arındırılmış jsonl formatı.
9
 
10
- İstatistikler:
11
- Örnek Sayısı: 1000
12
- Format: JSONL (Text-only)
13
- Metodoloji: Synthetic Generation via 20B Model
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - tr
4
+ datasets:
5
+ - Kedy123/TechTr-sythetic-code-1K
6
+ - Kedy123/TecTr-Sythetic-Math-1K
7
+ - Kedy123/TechTr-Synthetic-1K
8
+ - allenai/c4
9
+ tags:
10
+ - turkish
11
+ - tr
12
+ - text-generation
13
+ - gpt2
14
+ - tiny-model
15
+ - rope
16
+ - custom-tokenizer
17
+ - green-ai
18
+ - micro-green
19
+ - synthetic-data
20
+ license: cc-by-sa-4.0
21
+ ---
22
 
23
+ green ai serisinin başlangıcı olan model olacaktır kendisi ve şu ana kadar yayınlanan datasetler ile eğitilmiştir
24
+ (bir kısmını paylaşmadım datasetlerin model dosyalarda olanlardan daha fazlasını gördü)
25
 
26
+ green ai küçük ama zeki mantığında çalışan zekayı sadece parametreye bağlamayan bir modeldir.
 
 
27
 
28
+ model hakkında bilgiler:
29
+ -modelimiz 2048 token bağlam penceresine ve kendi tokenizerine sahiptir
30
+ -tokenizer türkçeye özel olarak eğitilmiştir (vocab sayısı 8.002)
31
+ -dikkat mekanizması olarak RoPE kullanılmıştır
32
+ -toplamda 15 milyon token ve 20 epoch ile eğitilmiştir (tiny model esnekliği)
33
+ -modelimiz türkçe kelimeleri kurabiliyor ama 3-4 kelimeden sonra bağlam uçuyor haberiniz olsun (loss değeri ~5 civarlarında olduğu için(özür dilerim))
34
+
35
+
36
+ bu model başlangıç modeli olduğu ve yorgunluğumdan ötürü biraz kalitesiz eğitebilmiş olabileceğim için özür dilerim
37
+ eğer dalga geçmezseniz veya aşağılamaya çalışmazsanız sevinirim (model daha çok küçük)
38
+
39
+ aynı zamanda model isim haklarına sahiptir, fine tune ederek de tamamen kendi ürününüz olarak hizmet veremezsiniz atıfta bulunursanız sevinirim.
40
+ (aynı zamanda devam edecek olan green ai serileri için de söylüyorum bunu)(lütfen)