GPT OxideLLM_5M

Modelo de lenguaje tipo GPT entrenado desde cero con el texto de OxideLLM_5M de la Mancha.

Configuración del modelo

Vocabulario: 221 caracteres
Dimensión del modelo (d_model): 256
Número de cabezas de atención: 4
Dimensión feedforward (dff): 512
Número de capas: 4
Longitud máxima de secuencia: 128

Uso

from huggingface_hub import snapshot_download
import tensorflow as tf
import json

# Descargar modelo
model_path = snapshot_download(repo_id="ULFBERTO/OxideLLM_5M")

# Cargar vocabulario
with open(f"{model_path}/vocab.json", "r", encoding="utf-8") as f:
    vocab_data = json.load(f)
    
char2idx = vocab_data["char2idx"]
idx2char = {int(k): v for k, v in vocab_data["idx2char"].items()}

# Cargar modelo
model = tf.keras.models.load_model(f"{model_path}/saved_model")

Entrenamiento

Entrenado con TensorFlow 2.x usando arquitectura Transformer (decoder-only).

Downloads last month: 5