WNL468M / README.md

Update README.md

d943ea0 verified 6 months ago

4.61 kB

	---
	base_model: nicholasKluge/TeenyTinyLlama-460m
	library_name: transformers
	license: cc-by-nc-nd-4.0
	language:
	- pt
	pipeline_tag: text-generation
	datasets:
	- cnmoro/LogicReasoningEnglishPortuguese
	metrics:
	- accuracy
	---
	# 🧠 WNL468M — Modelo de Raciocínio Lógico em Português

	WNL468M é um modelo de linguagem com aproximadamente 468 milhões de parâmetros, desenvolvido especialmente para tarefas de raciocínio lógico e compreensão em português, com foco em ensino, educação e suporte acadêmico. O projeto nasceu inicialmente como um trabalho acadêmico para uma feira de ciências, simbolizando o poder da IA na educação em língua portuguesa.

	---

	## ✨ Origem do Nome

	WNL é uma homenagem a três pessoas que inspiraram o projeto:

	- W — Weia
	- N — Náuria
	- L — Leonilda

	Embora não participem diretamente, seus nomes representam a motivação inicial do modelo.

	---

	## 👥 Equipe Fundadora

	Desenvolvido sob a liderança de [Marius Jabami](https://github.com/mariusjabami), agora parte da λχ Corp., contando com a colaboração valiosa de:

	- Ilson Lopes — Apoio geral ao desenvolvimento e testes técnicos
	- Délcio Pro — Interface visual (Kivy), processamento de texto, usabilidade
	- José Bukete — Lógica do chat em Kivy, controle de eventos e exibição de mensagens
	- Fernando Queta — Integração com modelo Transformers, geração de respostas
	- Inácio Oicani — Histórico de conversa, normalização de texto, refinamento de UI/UX
	- Daniel Raimundo — Estilo visual, fontes, cores, animações e experiência do usuário
	- Celsio Simplício — Testes, simulações, depuração e melhoria de desempenho
	- Arsênio Afonso — Suporte em testes e revisão técnica
	- Cristiano Jomba — Testes diversos, análise de comportamento do chatbot

	---

	## 🧩 Dataset Utilizado

	O modelo foi treinado utilizando o dataset:

	📚 [`cnmoro/LogicReasoningEnglishPortuguese`](https://huggingface.co/datasets/cnmoro/LogicReasoningEnglishPortuguese)

	Um conjunto bilíngue com pares de perguntas e respostas que exigem raciocínio lógico, oferecendo uma base sólida para o desenvolvimento de capacidades de dedução e compreensão.

	---

	## 🔍 Informações Técnicas

	- Parâmetros: ~468 milhões
	- Arquitetura Base: Adaptada do LLaMA, reconhecida pela eficiência em NLP
	- Tokenizador: SentencePiece (LLaMA-style)
	- Treinamento: Fine-tuning com LoRA, seguido de merge dos pesos para otimização
	- Framework: PyTorch com Hugging Face Transformers
	- Tipo de Modelo: Causal Language Model (geração de texto)
	- Idiomas: Português (principal), com dados auxiliares em inglês
	- Uso Principal: Educação, chatbots acadêmicos, ensino de lógica

	---

	## 🎯 Propósito e Aplicações

	O WNL468M foi criado com a missão de:

	- Tornar o aprendizado de lógica e raciocínio mais acessível em português
	- Ser exemplo de projeto educacional inovador em feiras de ciências
	- Ajudar estudantes e professores a explorar conceitos complexos com IA
	- Demonstrar o potencial colaborativo da inteligência artificial na educação

	---

	## 💻 Como Usar o Modelo

	```python
	from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer
	import torch

	repo_id = "lxcorp/WNL468M"

	tokenizer = AutoTokenizer.from_pretrained(repo_id)
	model = AutoModelForCausalLM.from_pretrained(repo_id, device_map="auto", torch_dtype=torch.float16)
	model.eval()

	streamer = TextStreamer(tokenizer)

	while True:
	prompt = input("Você: ")
	inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
	_ = model.generate(**inputs, max_new_tokens=100, streamer=streamer)

	```
	---

	🚀 Próximos Passos

	Ampliar o dataset com mais exemplos em português

	Desenvolver variantes maiores para áreas acadêmicas específicas

	Integrar o modelo a plataformas educacionais e testar em ambientes reais



	---

	🔒 Licença

	Este modelo está licenciado sob:

	CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0)

	Você pode:

	Compartilhar — copiar e redistribuir o material em qualquer meio ou formato


	Sob as condições:

	Atribuição — Deve creditar os autores (ver seção "Equipe Fundadora")

	Não Comercial — Não pode usar para fins comerciais

	Sem Derivações — Não pode remixar ou transformar o material


	Este modelo é exclusivamente para fins acadêmicos e educacionais.


	---

	> Criado com dedicação, conhecimento e fé no futuro da educação.
	λχ Corp. — Código com alma. Máquinas com visão.




	---