GPT OxideLLM_5M

Modelo de lenguaje tipo GPT entrenado desde cero con el texto de OxideLLM_5M de la Mancha.

Configuración del modelo

  • Vocabulario: 221 caracteres
  • Dimensión del modelo (d_model): 256
  • Número de cabezas de atención: 4
  • Dimensión feedforward (dff): 512
  • Número de capas: 4
  • Longitud máxima de secuencia: 128

Uso

from huggingface_hub import snapshot_download
import tensorflow as tf
import json

# Descargar modelo
model_path = snapshot_download(repo_id="ULFBERTO/OxideLLM_5M")

# Cargar vocabulario
with open(f"{model_path}/vocab.json", "r", encoding="utf-8") as f:
    vocab_data = json.load(f)
    
char2idx = vocab_data["char2idx"]
idx2char = {int(k): v for k, v in vocab_data["idx2char"].items()}

# Cargar modelo
model = tf.keras.models.load_model(f"{model_path}/saved_model")

Entrenamiento

Entrenado con TensorFlow 2.x usando arquitectura Transformer (decoder-only).

Downloads last month
25
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support