teszenofficial commited on
Commit
be2da74
·
verified ·
1 Parent(s): 3f23748

Upload README.md with huggingface_hub

Browse files
Files changed (1) hide show
  1. README.md +62 -0
README.md ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: es
3
+ license: apache-2.0
4
+ tags:
5
+ - text-generation
6
+ - transformer
7
+ - pytorch
8
+ ---
9
+
10
+ # MTP Mini - Modelo de Lenguaje
11
+
12
+ Modelo transformer entrenado con las siguientes características:
13
+
14
+ ## Arquitectura
15
+ - **Parámetros**: ~35.6M
16
+ - **Vocabulario**: 4000 tokens
17
+ - **Capas**: 8
18
+ - **Dimensión**: 512
19
+ - **Cabezas de atención**: 8
20
+
21
+ ## Mejoras implementadas
22
+ - ✅ RoPE (Rotary Position Embedding)
23
+ - ✅ RMSNorm
24
+ - ✅ SwiGLU activation
25
+ - ✅ Label smoothing
26
+ - ✅ Repetition penalty
27
+ - ✅ Early stopping
28
+ - ✅ Length control
29
+
30
+ ## Uso
31
+
32
+ ```python
33
+ import torch
34
+ import pickle
35
+
36
+ # Cargar modelo
37
+ with open('mtp_mini.pkl', 'rb') as f:
38
+ model_data = pickle.load(f)
39
+
40
+ # Cargar tokenizer
41
+ from tokenizer import MTPTokenizer
42
+ tokenizer = MTPTokenizer('mtp_tokenizer.model')
43
+
44
+ # Cargar modelo
45
+ from model import MTPMiniModel
46
+ model = MTPMiniModel(**model_data['config']['model'])
47
+ model.load_state_dict(model_data['model_state_dict'])
48
+ model.eval()
49
+
50
+ # Generar texto
51
+ prompt = "¿Qué es la inteligencia artificial?"
52
+ input_ids = torch.tensor([tokenizer.encode(prompt)])
53
+ output = model.generate(input_ids, max_new_tokens=100)
54
+ print(tokenizer.decode(output[0].tolist()))
55
+ ```
56
+
57
+ ## Entrenamiento
58
+ - Dataset: Corpus personalizado en español
59
+ - Épocas: 0
60
+ - Mejor val loss: 5.1245
61
+
62
+ Entrenado en Google Colab.