Kedy123
/

Micro-Green-25M

Text Generation

custom-tokenizer

Model card Files Files and versions

Kedy123 commited on 4 days ago

Commit

d81393c

·

verified ·

1 Parent(s): 180fc6a

Update README.md

Files changed (1) hide show

README.md +37 -10

README.md CHANGED Viewed

@@ -1,13 +1,40 @@
-TechTr-Synthetic-1K: Textbook-Style Reasoning Dataset
-bu veri seti, Türkçe doğal dil işleme modellerine "Muhakeme Yeteneği" (Reasoning) kazandırmak amacıyla, Cosmopedia ve Microsoft Phi-1/2 metodolojisi (Textbook Quality) örnek alınarak üretilmiştir.
-neden Farklı?
-Mantık Silsilesi: Sadece ham bilgi değil, bilginin "neden" ve "nasıl" var olduğunu açıklayan bir anlatım yapısı.
-Yüksek Teknik Çeşitlilik: 50'den fazla programlama dili, bulut bilişim teknolojileri ve ileri düzey matematik konularını kapsar.
-Temiz Veri: NBSP temizliği yapılmış, token limitleri optimize edilmiş ve gereksiz meta-verilerden arındırılmış jsonl formatı.
-İstatistikler:
-Örnek Sayısı: 1000
-Format: JSONL (Text-only)
-Metodoloji: Synthetic Generation via 20B Model

+---
+language:
+- tr
+datasets:
+- Kedy123/TechTr-sythetic-code-1K
+- Kedy123/TecTr-Sythetic-Math-1K
+- Kedy123/TechTr-Synthetic-1K
+- allenai/c4
+tags:
+- turkish
+- tr
+- text-generation
+- gpt2
+- tiny-model
+- rope
+- custom-tokenizer
+- green-ai
+- micro-green
+- synthetic-data
+license: cc-by-sa-4.0
+---
+green ai serisinin başlangıcı olan model olacaktır kendisi ve şu ana kadar yayınlanan datasetler ile eğitilmiştir
+(bir kısmını paylaşmadım datasetlerin model dosyalarda olanlardan daha fazlasını gördü)
+green ai küçük ama zeki mantığında çalışan zekayı sadece parametreye bağlamayan bir modeldir.
+model hakkında bilgiler:
+-modelimiz 2048 token bağlam penceresine ve kendi tokenizerine sahiptir
+-tokenizer türkçeye özel olarak eğitilmiştir (vocab sayısı 8.002)
+-dikkat mekanizması olarak RoPE kullanılmıştır
+-toplamda 15 milyon token ve 20 epoch ile eğitilmiştir (tiny model esnekliği)
+-modelimiz türkçe  kelimeleri kurabiliyor ama 3-4 kelimeden sonra bağlam uçuyor haberiniz olsun (loss değeri ~5 civarlarında olduğu için(özür dilerim))
+bu model başlangıç modeli olduğu ve yorgunluğumdan ötürü biraz kalitesiz eğitebilmiş olabileceğim için özür dilerim
+eğer dalga geçmezseniz veya aşağılamaya çalışmazsanız sevinirim (model daha çok küçük)
+aynı zamanda model isim haklarına sahiptir, fine tune ederek de tamamen kendi ürününüz olarak hizmet veremezsiniz atıfta bulunursanız sevinirim.
+(aynı zamanda devam edecek olan green ai serileri için de söylüyorum bunu)(lütfen)