Model Card for llama-1.1B-chat-guanaco
Este modelo é uma versão fine-tuned do TinyLlama-1.1B usando o conjunto de dados Guanaco para melhorar suas capacidades de chat e resposta a instruções.
Model Details
Model Description
- Developed by: Athos Pugliese
- Model type: Modelo de linguagem autoregressive com 1.1B parâmetros
- Language(s): Inglês
- License: [Mesma licença do modelo base ou sua escolha]
- Finetuned from model: TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T
O modelo foi fine-tuned usando Parameter-Efficient Fine-Tuning (PEFT) com LoRA (Low-Rank Adaptation), permitindo adaptar o modelo com recursos computacionais limitados.
Model Sources
- Base model: TinyLlama-1.1B
- Training dataset: Guanaco-Llama2-1k
Uses
Direct Use
Este modelo pode ser usado para:
- Assistente de conversação
- Responder perguntas de conhecimento geral
- Explicar conceitos em termos simples
- Completar tarefas baseadas em instruções de texto
Input Format
O modelo espera instruções no formato: [INST] sua pergunta ou instrução aqui [/INST]
Training Details
Training Data
O modelo foi fine-tuned usando o dataset Guanaco-Llama2-1k, uma coleção de 1.000 exemplos de conversação de alta qualidade derivados do formato de instruções Llama2.
Training Procedure
Training Hyperparameters
- Método PEFT: LoRA (Low-Rank Adaptation)
- Rank LoRA (r): 64
- Alpha LoRA: 16
- Dropout LoRA: 0.1
- Target Modules: q_proj, v_proj, k_proj, o_proj
- Épocas: 2
- Batch size por dispositivo: 4
- Gradient Accumulation Steps: 8
- Learning rate: 2e-4
- Optimizer: AdamW
- Scheduler: Cosine
- Warmup ratio: 0.03
- Weight decay: 0.001
- Gradient clipping: 0.3
- Precision: fp16
Hardware
- GPU: NVIDIA T4 16GB
Performance and Limitations
Capabilities
O modelo é capaz de:
- Responder perguntas de conhecimento geral
- Manter conversas básicas
- Fornecer explicações simplificadas
- Seguir instruções textuais simples
Limitations
- Como um modelo pequeno (1.1B de parâmetros), tem capacidades de raciocínio e conhecimento limitadas
- Pode gerar informações factuais incorretas
- O conhecimento do modelo é limitado aos dados de treinamento
- Pode apresentar vieses presentes nos dados de treinamento
- Não é otimizado para tarefas específicas além de conversação geral
How to Get Started with the Model
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel, PeftConfig
import torch
# Carregar a configuração PEFT
config = PeftConfig.from_pretrained("caminho/para/llama-1.1B-chat-guanaco")
# Carregar o modelo base
base_model = AutoModelForCausalLM.from_pretrained(
config.base_model_name_or_path,
torch_dtype=torch.float16,
device_map="auto"
)
# Aplicar o adaptador LoRA
model = PeftModel.from_pretrained(base_model, "caminho/para/llama-1.1B-chat-guanaco")
# Carregar o tokenizer
tokenizer = AutoTokenizer.from_pretrained("caminho/para/llama-1.1B-chat-guanaco")
tokenizer.pad_token = tokenizer.eos_token
# Função para gerar respostas
def generate_response(prompt, max_length=200):
inputs = tokenizer(f"<s>[INST] {prompt} [/INST]", return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=max_length,
do_sample=True,
temperature=0.7,
top_p=0.9,
repetition_penalty=1.2
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
response = response.split("[/INST]")[-1].strip()
return response
# Exemplo
prompt = "Explain quantum computing in simple terms."
print(generate_response(prompt))
Exemplos
Prompt: Who is Napoleon Bonaparte?
Resposta: Napoleon was the French version of his name. He was a famous general and statesman who led France to victory in several wars, including the Napoleonic Wars (1792–1815). In 1804 he declared himself emperor of the French Empire.
Prompt: Explain quantum computing in simple terms.
Resposta: Quantum computers are machines that use quantum mechanics to perform calculations faster than conventional computers and allow for the creation of complex algorithms, such as those used by AI systems like Google's DeepMind.
Quantum computing uses qubits, or "qubit states," which can be in a superposition state (i.e., they can have both an up and down spin) rather than being either on or off. This allows for more efficient processing, since it enables the computer to take advantage of the properties of quantum physics instead of relying solely on classical logic.
Model Card Contact
Developer: Athos Pugliese
Email: athospugliesedev@gmail.com
GitHub: github.com/athospugliese
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support