Update README.md
#1
by aydndglr - opened
README.md
CHANGED
|
@@ -1,3 +1,94 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: apache-2.0
|
| 3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: apache-2.0
|
| 3 |
+
datasets:
|
| 4 |
+
- aydndglr/Alfa_TR_Content
|
| 5 |
+
language:
|
| 6 |
+
- tr
|
| 7 |
+
pipeline_tag: text-classification
|
| 8 |
+
library_name: transformers
|
| 9 |
+
---
|
| 10 |
+
# ✨ EchoLLM
|
| 11 |
+
|
| 12 |
+
> ⚠️ *Experimental model – early stage development*
|
| 13 |
+
> ⚠️ *Deneysel model – erken geliştirme aşamasında*
|
| 14 |
+
|
| 15 |
+
**Author / Geliştirici:** Aydın DAĞLAR
|
| 16 |
+
**Framework:** PyTorch
|
| 17 |
+
**License:** Apache 2.0
|
| 18 |
+
**Tags:** `experimental`, `transformer`, `moe`, `kv-memory`, `alibi`, `llm-research`
|
| 19 |
+
|
| 20 |
+
---
|
| 21 |
+
|
| 22 |
+
## 📌 Overview (English)
|
| 23 |
+
|
| 24 |
+
**EchoLLM** is a modular transformer model that incorporates experimental techniques such as Performer attention, Mixture of Experts (MoE), persistent Key-Value Memory, and ALiBi positional biasing.
|
| 25 |
+
|
| 26 |
+
🔬 **⚠️ This model has not been trained yet.**
|
| 27 |
+
It is currently in the **architecture prototyping phase**, and no official checkpoints or performance metrics are available.
|
| 28 |
+
The model is provided for research, experimentation, and extension purposes only.
|
| 29 |
+
|
| 30 |
+
Key experimental features:
|
| 31 |
+
|
| 32 |
+
- **Performer Attention** – For scalable linear-time attention.
|
| 33 |
+
- **Mixture of Experts (MoE)** – Dynamic expert selection for efficient learning.
|
| 34 |
+
- **Key-Value Memory** – A module to retain context across long sequences.
|
| 35 |
+
- **ALiBi Positional Encoding** – A non-embedding approach to sequence length flexibility.
|
| 36 |
+
- **Quantization and Pruning Ready** – Designed for post-training optimization (optional).
|
| 37 |
+
- **Multi-format Export** – Can be exported to `.bin` or `.safetensors`.
|
| 38 |
+
|
| 39 |
+
**Usage is currently limited to architecture testing and static exports.**
|
| 40 |
+
|
| 41 |
+
---
|
| 42 |
+
|
| 43 |
+
## 📌 Genel Bakış (Türkçe)
|
| 44 |
+
|
| 45 |
+
**EchoLLM**, Performer dikkat yapısı, Uzman Karışımı (MoE), Anahtar-Değer Hafızası ve ALiBi pozisyon kodlaması gibi deneysel bileşenleri içeren modüler bir transformer mimarisidir.
|
| 46 |
+
|
| 47 |
+
🔬 **⚠️ Bu model henüz eğitilmemiştir.**
|
| 48 |
+
Şu anda yalnızca **mimari prototip** aşamasındadır.
|
| 49 |
+
Herhangi bir eğitilmiş ağırlık, doğruluk metrikleri ya da kullanım senaryosu mevcut değildir.
|
| 50 |
+
|
| 51 |
+
Öne çıkan deneysel özellikler:
|
| 52 |
+
|
| 53 |
+
- **Performer Dikkat** – Uzun dizilerde verimli dikkat hesaplaması.
|
| 54 |
+
- **MoE** – Token başına uzman seçimi ile hesaplama verimliliği.
|
| 55 |
+
- **KV Hafıza** – Bağlamı uzun süreli olarak koruyabilen hafıza yapısı.
|
| 56 |
+
- **ALiBi Kodlama** – Pozisyonel embedding yerine bias tabanlı esneklik.
|
| 57 |
+
- **Quantization & Pruning Desteği** – Eğitim sonrası hafifletme için tasarlandı.
|
| 58 |
+
- **Çoklu Format Desteği** – `.bin` ve `.safetensors` çıktıları alınabilir.
|
| 59 |
+
|
| 60 |
+
**Şu an yalnızca mimari test ve dışa aktarım amaçlı kullanılabilir.**
|
| 61 |
+
|
| 62 |
+
---
|
| 63 |
+
|
| 64 |
+
## 🧠 Architecture Summary
|
| 65 |
+
|
| 66 |
+
| Parametre | Değer |
|
| 67 |
+
|--------------------------|---------------|
|
| 68 |
+
| Gizli Katman Boyutu | 768 |
|
| 69 |
+
| Katman Sayısı | 12 |
|
| 70 |
+
| Dikkat Kafası Sayısı | 12 |
|
| 71 |
+
| Feedforward Genişliği | 3072 |
|
| 72 |
+
| MoE Uzman Sayısı | 4 |
|
| 73 |
+
| Maksimum Pozisyon | 2048 token |
|
| 74 |
+
| Sözlük Boyutu | 32,000 |
|
| 75 |
+
| Hafıza Kapasitesi | 512 token |
|
| 76 |
+
| Quantization / Pruning | Opsiyonel |
|
| 77 |
+
|
| 78 |
+
---
|
| 79 |
+
|
| 80 |
+
## 🧑💻 Developed By
|
| 81 |
+
|
| 82 |
+
**Aydın DAĞLAR**
|
| 83 |
+
Design, prototyping, and modular engineering.
|
| 84 |
+
|
| 85 |
+
> For feedback, collaboration, or updates, visit: https://huggingface.co/aydndglr or aydin.daglar@outlook.com
|
| 86 |
+
|
| 87 |
+
---
|
| 88 |
+
|
| 89 |
+
## 📄 License
|
| 90 |
+
|
| 91 |
+
This project is licensed under the **Apache 2.0 License**.
|
| 92 |
+
Use freely for experimentation, but cite the author if you publish related work.
|
| 93 |
+
|
| 94 |
+
---
|