|
|
--- |
|
|
library_name: transformers |
|
|
license: cc-by-sa-4.0 |
|
|
language: |
|
|
- pt |
|
|
- en |
|
|
pipeline_tag: text-generation |
|
|
metrics: |
|
|
- bertscore |
|
|
datasets: |
|
|
- rhaymison/orca-math-portuguese-64k |
|
|
--- |
|
|
|
|
|
# Synap-2b |
|
|
|
|
|
<img src="https://huggingface.co/lxcorp/Synap-2b/resolve/main/logo.png" width="400"> |
|
|
|
|
|
|
|
|
## Model Description |
|
|
|
|
|
Synap-2b é um modelo de linguagem de 2B parâmetros desenvolvido pela **λχ Corp. (Marius Jabami)**. |
|
|
Foi projetado para tarefas de geração de texto e raciocínio matemático, com suporte a português e inglês. |
|
|
O modelo foi fine-tunado usando o dataset [orca-math-portuguese-64k](https://huggingface.co/datasets/rhaymison/orca-math-portuguese-64k), com foco em melhorar a compreensão de instruções e resolução de problemas matemáticos. |
|
|
|
|
|
⚠️ Synap-2b é um modelo de base adaptado para seguir instruções, mas não passou por alinhamento RLHF. |
|
|
Para uso em produção ou aplicações sensíveis, recomenda-se alinhamento e avaliação adicionais. |
|
|
|
|
|
- **Developed by:** λχ Corp. (Marius Jabami) |
|
|
- **Model type:** Large Language Model |
|
|
- **Language(s):** Portuguese, English |
|
|
- **License:** CC |
|
|
- **Access:** Privado (uso via Space na Hugging Face) |
|
|
|
|
|
## Uses |
|
|
|
|
|
### Direct Use |
|
|
|
|
|
O modelo pode ser usado para: |
|
|
|
|
|
- Geração de texto |
|
|
- Resolução de problemas matemáticos |
|
|
- Chatbots educacionais |
|
|
- Pesquisa em fine-tuning de LLMs |
|
|
|
|
|
### Out-of-Scope Use |
|
|
|
|
|
- Idiomas diferentes de pt/en. |
|
|
- Atividades maliciosas ou ilegais. |
|
|
- Aplicações críticas sem avaliação adequada. |
|
|
|
|
|
## Bias, Risks, and Limitations |
|
|
|
|
|
Como outros LLMs, o Synap-2b pode produzir respostas incorretas, enviesadas ou não confiáveis. |
|
|
É recomendada validação antes do uso em sistemas finais. |
|
|
|
|
|
## How to Get Started with the Model |
|
|
|
|
|
```python |
|
|
import torch |
|
|
from transformers import pipeline |
|
|
|
|
|
model_id = "lxcorp/Synap-2b" |
|
|
|
|
|
pipe = pipeline( |
|
|
"text-generation", |
|
|
model=model_id, |
|
|
torch_dtype=torch.bfloat16, |
|
|
device_map="auto" |
|
|
) |
|
|
|
|
|
text = pipe("Resolva: 2x + 5 = 15") |
|
|
``` |
|
|
|
|
|
# Training Details |
|
|
|
|
|
## Training Data |
|
|
|
|
|
Treinado no dataset orca-math-portuguese-64k, especializado em problemas matemáticos e linguagem educacional. |
|
|
|
|
|
## Evaluation |
|
|
|
|
|
### Testing Data |
|
|
|
|
|
Avaliado em MMLU, TriviaQA, ARC Easy & Challenge, Open Book QA, Common Sense QA, |
|
|
Physical Interaction QA, Social Interaction QA, HellaSwag, WinoGrande, Multilingual Knowledge QA. |
|
|
|
|
|
### Metrics |
|
|
|
|
|
Accuracy para MMLU, ARC, OBQA, CSQA, PIQA, SIQA, HellaSwag, WinoGrande. |
|
|
|
|
|
Exact match para TriviaQA, NQ e MKQA. |
|
|
|
|
|
BLEU para tarefas multilíngues. |
|
|
|
|
|
|
|
|
### English Results |
|
|
|
|
|
Benchmark | Synap-2b | HF SmolLM2 (1.7B) | Gemma-2 (2.6B) | Llama-3.2 (3B) | Qwen2.5 (1.5B) | |
|
|
|--------------|:------:|:------:|:------:|:------:|:------:| |
|
|
| | | | | | | |
|
|
| MMLU | 52.0 | 50.4 | 53.1 | 56.6 | 61.0 | |
|
|
| NQ | 16.5 | 15.1 | 17.7 | 22.0 | 13.1 | |
|
|
| TQA | 46.5 | 45.4 | 49.9 | 53.6 | 35.9 | |
|
|
| ARC E | 82.2 | 81.8 | 81.1 | 84.6 | 89.7 | |
|
|
| ARC C | 64.6 | 64.7 | 66.0 | 69.0 | 77.2 | |
|
|
| OBQA | 65.4 | 61.4 | 64.6 | 68.4 | 73.8 | |
|
|
| CSQA | 63.6 | 59.0 | 64.4 | 65.4 | 72.4 | |
|
|
| PIQA | 78.5 | 77.7 | 79.8 | 78.9 | 76.0 | |
|
|
| SIQA | 62.3 | 57.5 | 61.9 | 63.8 | 68.7 | |
|
|
| HS | 73.6 | 73.2 | 74.7 | 76.9 | 67.5 | |
|
|
| WG | 66.9 | 65.6 | 71.2 | 72.0 | 64.8 | |
|
|
| | | | | | | |
|
|
| Average | 61.1 | 59.3 | 62.2 | 64.7 | 63.6 | |
|
|
|
|
|
|
|
|
### Multilingual Results |
|
|
|
|
|
| Benchmark | Synap-2b | Gemma-2 (2.6B) | Llama-3.2 (3B) | |
|
|
|--------------|:------:|:------:|:------:| |
|
|
| | | | | | | |
|
|
| ARC E | 71.1 | 65.8 | 68.2 | |
|
|
| ARC C | 54.8 | 51.1 | 52.6 | |
|
|
| MMLU | 44.8 | 43.1 | 45.3 | |
|
|
| HS | 51.9 | 49.9 | 48.4 | |
|
|
| FLORES | 20.6 | 21.9 | 19.8 | |
|
|
| MKQA | 16.5 | 17.2 | 19.7 | |
|
|
| | | | | | | |
|
|
| Average | 43.3 | 41.5 | 42.3 | |
|
|
|
|
|
|
|
|
### Technical Specifications |
|
|
|
|
|
Model Architecture and Objective |
|
|
|
|
|
| Hyperparameter | Value | |
|
|
|--------------|:------:| |
|
|
| Model dimension | 2048 | |
|
|
| MLP dimension | 8192 | |
|
|
| Layers | 28 | |
|
|
| Heads | 16 | |
|
|
| RoPE theta | 20,000 | |
|
|
| Context size | 4096 | |
|
|
| Max learning rate | 2.4e-04 | |
|
|
| Total steps | 500,000 | |
|
|
| Weight decay | 0.1 | |
|
|
| Gradient clip | 1.0 | |
|
|
|
|
|
|
|
|
### Hardware |
|
|
|
|
|
Treinado em GPUs NVIDIA (detalhes não divulgados publicamente). |
|
|
|
|
|
#### Software |
|
|
|
|
|
Treinado utilizando a biblioteca transformers. |
|
|
|
|
|
## Citation |
|
|
|
|
|
@misc{synap2b2025, |
|
|
author = {Marius Jabami}, |
|
|
title = {Synap-2b: Fine-tuned 2B Language Model}, |
|
|
year = {2025}, |
|
|
howpublished = {\url{https://huggingface.co/lxcorp/Synap-2b}} |
|
|
} |
|
|
|