| --- |
| license: apache-2.0 |
| datasets: |
| - aydndglr/Alfa_TR_Content |
| language: |
| - tr |
| pipeline_tag: text-classification |
| library_name: transformers |
| tags: |
| - experimental |
| - EchoLLM |
| - transformer |
| --- |
| # ✨ EchoLLM |
|
|
| > ⚠️ *Experimental model – early stage development* |
| > ⚠️ *Deneysel model – erken geliştirme aşamasında* |
|
|
| **Author / Geliştirici:** Aydın DAĞLAR |
| **Framework:** PyTorch |
| **License:** Apache 2.0 |
| **Tags:** `experimental`, `transformer`, `moe`, `kv-memory`, `alibi`, `llm-research` |
|
|
| --- |
|
|
| ## 📌 Overview (English) |
|
|
| **EchoLLM** is a modular transformer model that incorporates experimental techniques such as Performer attention, Mixture of Experts (MoE), persistent Key-Value Memory, and ALiBi positional biasing. |
|
|
| 🔬 **⚠️ This model has not been trained yet.** |
| It is currently in the **architecture prototyping phase**, and no official checkpoints or performance metrics are available. |
| The model is provided for research, experimentation, and extension purposes only. |
|
|
| Key experimental features: |
|
|
| - **Performer Attention** – For scalable linear-time attention. |
| - **Mixture of Experts (MoE)** – Dynamic expert selection for efficient learning. |
| - **Key-Value Memory** – A module to retain context across long sequences. |
| - **ALiBi Positional Encoding** – A non-embedding approach to sequence length flexibility. |
| - **Quantization and Pruning Ready** – Designed for post-training optimization (optional). |
| - **Multi-format Export** – Can be exported to `.bin` or `.safetensors`. |
|
|
| **Usage is currently limited to architecture testing and static exports.** |
|
|
| --- |
|
|
| ## 📌 Genel Bakış (Türkçe) |
|
|
| **EchoLLM**, Performer dikkat yapısı, Uzman Karışımı (MoE), Anahtar-Değer Hafızası ve ALiBi pozisyon kodlaması gibi deneysel bileşenleri içeren modüler bir transformer mimarisidir. |
|
|
| 🔬 **⚠️ Bu model henüz eğitilmemiştir.** |
| Şu anda yalnızca **mimari prototip** aşamasındadır. |
| Herhangi bir eğitilmiş ağırlık, doğruluk metrikleri ya da kullanım senaryosu mevcut değildir. |
|
|
| Öne çıkan deneysel özellikler: |
|
|
| - **Performer Dikkat** – Uzun dizilerde verimli dikkat hesaplaması. |
| - **MoE** – Token başına uzman seçimi ile hesaplama verimliliği. |
| - **KV Hafıza** – Bağlamı uzun süreli olarak koruyabilen hafıza yapısı. |
| - **ALiBi Kodlama** – Pozisyonel embedding yerine bias tabanlı esneklik. |
| - **Quantization & Pruning Desteği** – Eğitim sonrası hafifletme için tasarlandı. |
| - **Çoklu Format Desteği** – `.bin` ve `.safetensors` çıktıları alınabilir. |
|
|
| **Şu an yalnızca mimari test ve dışa aktarım amaçlı kullanılabilir.** |
|
|
| --- |
|
|
| ## 🧠 Architecture Summary |
|
|
| | Parametre | Değer | |
| |--------------------------|---------------| |
| | Gizli Katman Boyutu | 768 | |
| | Katman Sayısı | 12 | |
| | Dikkat Kafası Sayısı | 12 | |
| | Feedforward Genişliği | 3072 | |
| | MoE Uzman Sayısı | 4 | |
| | Maksimum Pozisyon | 2048 token | |
| | Sözlük Boyutu | 32,000 | |
| | Hafıza Kapasitesi | 512 token | |
| | Quantization / Pruning | Opsiyonel | |
|
|
| --- |
|
|
| ## 🧑💻 Developed By |
|
|
| **Aydın DAĞLAR** |
| Design, prototyping, and modular engineering. |
|
|
| > For feedback, collaboration, or updates, visit: [Hugging Face profile or GitHub link here] |
|
|
| --- |
|
|
| ## 📄 License |
|
|
| This project is licensed under the **Apache 2.0 License**. |
| Use freely for experimentation, but cite the author if you publish related work. |
|
|
| --- |