FlameF0X
/

i3-80m

+# i3-80M - Model de Limbaj cu Arhitectură Hibridă
+## Descrierea Modelului
+**Modelul i3-80M** este o arhitectură hibridă inovatoare care combină straturi convoluționale/recurente cu straturi de atenție completă pentru modelarea eficientă a limbajului. Această arhitectură îmbină în mod unic time-mixing în stil RWKV cu dinamica spațiului de stare Mamba în straturile timpurii, urmată de atenție multi-cap standard în straturile mai profunde.
+Acesta este al doilea model din seria i3, scalat de la originalul [i3-22M](https://huggingface.co/FlameF0X/i3-22m) cu arhitectură îmbunătățită și antrenament pe multiple seturi de date.
+>[!NOTE]
+>Pentru a utiliza modelul, încercați-l [aici](https://huggingface.co/spaces/FlameF0X/i3-80m)
+## Statistici Model
+- **Parametri Totali**: ~82,77M (82.765.160)
+- **Arhitectură**: 10 Straturi Hibride (RWKV-Mamba) + 6 Straturi de Atenție Completă = 16 Straturi Totale
+- **Dimensiune Vocabular**: 35.560 token-uri (fragmente de lungime variabilă cu token <UNK>)
+- **Dimensiune Ascunsă (d_model)**: 512
+- **Capete de Atenție**: 16
+- **Dimensiune Stare (d_state)**: 32
+- **Lungime Maximă Secvență**: 256
+- **Tokenizare**: Fragmentare cu lungime variabilă eficientă din punct de vedere al memoriei (2-3 caractere)
+### Defalcare Arhitectură
+```
+Straturile 1-10:  Blocuri Hibride RWKV-Mamba (Recurent/Conv)
+                  ├─ RWKVMambaHybrid (Time-mixing + Spațiu de stare)
+                  └─ Rețea Feed-Forward (expansiune 4x)
+Straturile 11-16: Blocuri de Atenție Completă
+                  ├─ Atenție Multi-Cap (16 capete)
+                  └─ Rețea Feed-Forward (expansiune 4x)
+```
+## Comparație cu i3-22M
+| Caracteristică | i3-22M | i3-80M (Acest Model) |
+|----------------|--------|----------------------|
+| **Parametri** | 22,6M | 82,77M |
+| **Arhitectură** | 24 Straturi Hibride | 10 Straturi Hibride + 6 Straturi de Atenție |
+| **Dimensiune Ascunsă** | 512 | 512 |
+| **Dimensiune Vocabular** | 4.466 | 35.560 |
+| **Set de Date Antrenament** | Doar TinyChat | TinyStories + TinyChat + Propoziții HQ |
+| **Token-uri Totale** | ~1M conversații | ~3M+ token-uri |
+| **Pierdere Finală** | ~2,0 | ~2,0 |
+| **Perplexitate Finală** | 7,29-9,70 | 7,29-10,0 |
+| **Timp Antrenament** | ~17 ore | ~2-4 ore |
+| **Straturi de Atenție** | Niciuna (Pur Hibrid) | 6 Straturi de Atenție Completă |
+### Îmbunătățiri Cheie față de i3-22M
+1. **Arhitectură Hibridă**: Introduce atenție multi-cap completă în straturile superioare pentru dependențe pe distanțe lungi mai bune
+2. **Vocabular Mai Mare**: Vocabular de 8 ori mai mare (35.560 vs 4.466) pentru acoperire mai bună a token-urilor
+3. **Antrenament pe Multiple Seturi de Date**: Antrenat pe 3 seturi de date diverse vs un singur set de date
+4. **Generalizare Mai Bună**: Expunere la narative (TinyStories), conversații (TinyChat) și text formal (Propoziții HQ)
+5. **Gestionare Îmbunătățită a Token-urilor Necunoscute**: Sistem robust de token-uri <UNK> pentru cuvinte în afara vocabularului
+### Când să Folosiți Fiecare Model
+**Folosiți i3-22M dacă aveți nevoie de:**
+- Dimensiune mai mică a modelului (~22M parametri)
+- Focus pur conversațional (specializat TinyChat)
+- Amprenta de memorie mai mică
+- Inferență mai rapidă
+**Folosiți i3-80M dacă aveți nevoie de:**
+- Generare de text cu scop general mai bună
+- Raționament bazat pe atenție mai puternic (6 straturi de atenție)
+- Acoperire mai mare a vocabularului
+- Înțelegere a textului multi-domeniu (povești, chat, text formal)
+### Caracteristici Cheie
+1. **Arhitectură Hibridă**: Combină eficiența procesării recurente/convoluționale cu puterea atenției
+   - Straturile timpurii folosesc hibridul RWKV-Mamba pentru procesarea eficientă a secvențelor
+   - Straturile ulterioare folosesc atenție multi-cap completă pentru recunoașterea de modele complexe
+2. **Antrenament Optimizat pentru Memorie**:
+   - Construirea vocabularului în flux (fără stocare completă a textului)
+   - Cache vocabular (construiește o dată, reutilizează)
+   - Numărare eficientă a frecvenței fragmentelor
+   - Curățare automată a memoriei
+3. **Pre-antrenament pe Multiple Seturi de Date**: Antrenat pe surse de text diverse pentru înțelegerea robustă a limbajului
+   - TinyStories: Narațiuni și povestiri
+   - TinyChat: Dinamici conversaționale
+   - Propoziții Engleze de Înaltă Calitate: Diversitate lingvistică
+4. **Tokenizare Inteligentă**: Fragmentare cu lungime variabilă (2-3 caractere) cu optimizare trigrame comune
+   - Token-uri totale procesate: **3.000.000+**
+   - Gestionează token-urile necunoscute cu grație folosind token-ul <UNK>
+## Detalii Antrenament
+### Configurație Antrenament
+- **Seturi de Date**:
+  - `agentlans/high-quality-english-sentences`
+  - `roneneldan/TinyStories`
+  - `starhopp3r/TinyChat`
+- **Pași de Antrenament**: 5.000 iterații
+- **Dimensiune Lot**: 4 (cu suport pentru acumulare gradient)
+- **Rată de Învățare**: 3e-4 (cu încălzire și declin cosinusoidal)
+- **Optimizator**: AdamW cu tăiere gradient (normă maximă: 1,0)
+- **Hardware**: NVIDIA P100 (16GB VRAM)
+- **Timp de Antrenament**: ~2-4 ore
+- **Framework**: PyTorch
+### Dinamica Antrenamentului
+- **Utilizare GPU**: Stabilă la ~15-20% în timpul antrenamentului
+- **Memorie GPU**: ~18% alocată (~2,2GB / 12GB)
+- **Consum Energie**: ~40W mediu
+- **Debit**: ~100-550 token-uri/sec
+### Metrici de Performanță
+| Metrică | Inițială | Finală |
+|---------|----------|--------|
+| Pierdere Antrenament | ~10,0 | ~1,7 |
+| Perplexitate | ~4000+ | ~6 |
+![imagine](https://cdn-uploads.huggingface.co/production/uploads/6615494716917dfdc645c44e/ugtJGyEkQfbGieURP2W78.png)
+> [!NOTE]
+> Nu știu de ce înregistrarea începe la pasul 4,6k.
+Comparație **i3-22m** și **i3-80m**?
+![imagine](https://cdn-uploads.huggingface.co/production/uploads/6615494716917dfdc645c44e/utj6B7AE_gMMI9jnHc37Z.png)
+Modelul prezintă o convergență puternică cu dinamică stabilă de antrenament și utilizare eficientă a GPU.
+## Utilizare
+```python
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+# Încarcă modelul și tokenizatorul
+model = AutoModelForCausalLM.from_pretrained("FlameF0X/i3-80m")
+tokenizer = AutoTokenizer.from_pretrained("FlameF0X/i3-80m")
+# Generează text
+prompt = "salut"
+inputs = tokenizer(prompt, return_tensors="pt")
+outputs = model.generate(
+    inputs.input_ids,
+    max_length=100,
+    temperature=0.8,
+    top_k=40
+)
+generated_text = tokenizer.decode(outputs[0])
+print(generated_text)
+```
+## Inovații Tehnice
+1. **Recurență Hibridă RWKV-Mamba**: Combină time-mixing-ul RWKV cu dinamica spațiului de stare Mamba
+   - Complexitate liniară pentru secvențe lungi
+   - Procesare recurentă eficientă
+   - Modelarea spațiului de stare pentru dependențe temporale
+2. **Procesare Ierarhică**:
+   - Straturile inferioare se concentrează pe modele locale (conv/recurent)
+   - Straturile superioare captează dependențe globale (atenție)
+3. **Eficiență Memorie**:
+   - Tokenizare în flux în timpul construirii vocabularului
+   - Fără stocare completă a setului de date în RAM
+   - Curățare automată a datelor intermediare
+## Fișiere Model
+- `pytorch_model.bin`: Greutăți model
+- `config.json`: Configurație model
+- `chunk_vocab_combined.json`: Vocabular tokenizator
+## Urmărire Antrenament
+Acest model a fost urmărit folosind Weights & Biases (WandB) cu metrici cuprinzătoare:
+- Urmărire în timp real a pierderii și perplexității
+- Monitorizare normă gradient
+- Vizualizare programare rată de învățare
+- Eșantioane de generare înregistrate în tabele
+- Checkpoint-uri model ca artefacte
+- Monitorizare resurse sistem
+## Limitări
+- Antrenat doar pe text în limba engleză
+- Limitat la fereastră de context de 256 token-uri
+- Poate necesita reglaj fin pentru sarcini specifice ulterioare
+- Stil conversațional influențat de setul de date TinyChat
+## Serie Model
+- [i3-22M](https://huggingface.co/FlameF0X/i3-22m) - Model original cu arhitectură hibridă pură
+- **i3-80M** (Acest model) - Versiune scalată cu straturi de atenție și antrenament pe multiple seturi de date
+## Citare
+```bibtex
+@misc{i3-80m,
+  author = {FlameF0X},
+  title = {i3-80M: Model de Limbaj cu Arhitectură Hibridă},
+  year = {2025},
+  publisher = {HuggingFace},
+  howpublished = {\url{https://huggingface.co/FlameF0X/i3-80m}}
+}
+```