Alef Biblical 1.5B — Base

Alef é um modelo de linguagem em português especializado em Bíblia, teologia e fé cristã — desenvolvido por um brasileiro, para a comunidade brasileira.

Este é o modelo base (após Continued Pre-Training), que serviu de fundação para o modelo conversacional. Para usar o Alef como assistente, use plvictor/Alef-Biblical-1.5B-Instruct.


Por que o Alef existe?

A maioria dos modelos de IA especializados em Bíblia e teologia é em inglês. A comunidade de IA brasileira ainda tem muito espaço pra crescer nesse nicho — e o Alef nasceu justamente disso: a vontade de construir algo em português, com cuidado, e de compartilhar o processo de forma aberta.

Este projeto foi desenvolvido por um desenvolvedor solo como experimento de fine-tuning especializado em PT-BR. O objetivo não é competir com grandes modelos — é mostrar que dá pra fazer isso com acesso limitado, documentar o caminho, e ajudar a comunidade brasileira de IA a evoluir junto.


Sobre o modelo

Campo Valor
Arquitetura Qwen3
Parâmetros 1.51B
Tipo Base (text completion)
Idioma Português Brasileiro (PT-BR)
Domínio Bíblia, teologia, fé cristã
Context length 4096 tokens
Dtype BFloat16

Modelo base: Polygl0t/Tucano2-qwen-1.5B-Base — modelo base para português da família Qwen3.


Treino — Continued Pre-Training (CPT)

O modelo passou por CPT em um corpus bíblico curado de ~368 milhões de tokens em português, cobrindo devocionais, estudos, planos de leitura, Bíblias em múltiplas traduções e conteúdo de sites teológicos.

Dataset

Fonte Documentos Tokens est.
Devocionais — app Com Ele 157.910 ~102M
Planos de leitura — app Com Ele 35.956 ~189M
Estudos bíblicos — app Com Ele 5.000 ~20M
Q&A bíblico — app Com Ele 15.843 ~13M
Bíblia em 10 traduções PT — app Com Ele 11.437 ~10M
Resumos e análises de livros — app Com Ele 2.378 ~1M
Personagens, mapas, contexto histórico — app Com Ele ~2.000 ~0.7M
Sintético (GPT-4.1) 982 ~2.5M
voltemosaoevangelho.com 5.529 ~14M
bibliotecadopregador.com.br 4.276 ~10M
estudobiblico.org 558 ~4M
pt.ligonier.org 726 ~2M
Total 241.167 ~368M

Configuração

Parâmetro Valor
Tipo Full fine-tuning (CPT)
Precisão BFloat16
Attention SDPA
Tokens por step ~540k
GPU NVIDIA H100 NVL (95GB VRAM)
Framework HuggingFace Transformers

Uso

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "plvictor/Alef-Biblical-1.5B-Base"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

prompt = "O livro de Jó nos ensina que o sofrimento"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=200, do_sample=True, temperature=0.7)
print(tokenizer.decode(output[0], skip_special_tokens=True))

Para conversa e assistência bíblica, use plvictor/Alef-Biblical-1.5B-Instruct.


Limitações

  • Modelo pequeno (1.5B): bom pra consultas e conversas bíblicas, não substitui modelos maiores em raciocínio complexo
  • Especializado em PT-BR e conteúdo cristão — não adequado para uso genérico
  • Pode refletir perspectivas teológicas predominantes no corpus

Sobre o criador

Desenvolvido por Paulo Victor Souza — desenvolvedor brasileiro, construindo projetos de IA em português. Site: plvictor.com


Licença

Apache 2.0

Downloads last month
148
Safetensors
Model size
2B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for plvictor/Alef-Biblical-1.5B-Base

Finetuned
(3)
this model
Quantizations
1 model