mrj-crom commited on 28 days ago

Commit

111a6f8

verified ·

1 Parent(s): 10ca372

Release V4.2 MultiBrain (0.6B + 3 LoRAs)

Browse files

Files changed (31) hide show

.gitattributes +10 -0
00_CROM_IA_V4.2_DOCUMENTATION.md +242 -0
00_CROM_IA_V4.2_ROADMAP.md +171 -0
01_DPO_GUIDE.md +190 -0
02_CHAT_RAG_GUIDE.md +184 -0
1_extracao_local/codebooks/codebook_python_v42.json +321 -0
1_extracao_local/datasets_hibridos/Base_PTBR.jsonl +3 -0
1_extracao_local/datasets_hibridos/Python_DNA25.jsonl +3 -0
1_extracao_local/datasets_hibridos/canarim_30k.jsonl +3 -0
1_extracao_local/datasets_hibridos/dataset_DPO_python.jsonl +3 -0
1_extracao_local/datasets_hibridos/openhermes_10k_ptbr.jsonl +3 -0
1_extracao_local/datasets_hibridos/python_15k.jsonl +3 -0
1_extracao_local/download_datasets_v42.py +256 -0
1_extracao_local/gerador_codebook_v42.py +284 -0
1_extracao_local/gerador_pares_dpo.py +180 -0
1_extracao_local/tradutor_batch_argos.py +243 -0
1_extracao_local/transpilador_v42.py +143 -0
2_treinamento_nuvem/01_CROM_V42_TRAINING_FASE1.py +169 -0
2_treinamento_nuvem/02_CROM_V42_TRAINING_FASE2.py +150 -0
2_treinamento_nuvem/03_CROM_V42_DPO_TRAINING.py +183 -0
2_treinamento_nuvem/colab/00_CROM_V42_TRANSLATOR_COLAB.md +173 -0
3_inferencia_local/benchmark_matrix_v42.sh +83 -0
3_inferencia_local/chat_v42_brain.sh +413 -0
3_inferencia_local/micro_cerebros/Base_PTBR_lora.gguf +3 -0
3_inferencia_local/micro_cerebros/DPO_Preference_lora.gguf +3 -0
3_inferencia_local/micro_cerebros/Python_DNA_lora.gguf +3 -0
3_inferencia_local/micro_cerebros/qwen3-0.6b.Q4_K_M.gguf +3 -0
3_inferencia_local/rag_contexto.py +295 -0
3_inferencia_local/relatorio_estresse_v42.md +113 -0
HUGGINGFACE_RELEASE.md +24 -0
README.md +27 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,13 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+1_extracao_local/datasets_hibridos/Base_PTBR.jsonl filter=lfs diff=lfs merge=lfs -text
+1_extracao_local/datasets_hibridos/Python_DNA25.jsonl filter=lfs diff=lfs merge=lfs -text
+1_extracao_local/datasets_hibridos/canarim_30k.jsonl filter=lfs diff=lfs merge=lfs -text
+1_extracao_local/datasets_hibridos/dataset_DPO_python.jsonl filter=lfs diff=lfs merge=lfs -text
+1_extracao_local/datasets_hibridos/openhermes_10k_ptbr.jsonl filter=lfs diff=lfs merge=lfs -text
+1_extracao_local/datasets_hibridos/python_15k.jsonl filter=lfs diff=lfs merge=lfs -text
+3_inferencia_local/micro_cerebros/Base_PTBR_lora.gguf filter=lfs diff=lfs merge=lfs -text
+3_inferencia_local/micro_cerebros/DPO_Preference_lora.gguf filter=lfs diff=lfs merge=lfs -text
+3_inferencia_local/micro_cerebros/Python_DNA_lora.gguf filter=lfs diff=lfs merge=lfs -text
+3_inferencia_local/micro_cerebros/qwen3-0.6b.Q4_K_M.gguf filter=lfs diff=lfs merge=lfs -text

00_CROM_IA_V4.2_DOCUMENTATION.md ADDED Viewed

	@@ -0,0 +1,242 @@

+# CROM-IA V4.2 — Multi-Brain DNA Engine + DPO + RAG-Chat
+> **Status:** Em construção
+> **Base Model:** Qwen3-0.6B (`unsloth/Qwen3-0.6B-unsloth-bnb-4bit`)
+> **Mudanças vs V4.1:** DPO, Chat com ingestão de arquivos, DNA conservador 25%, Datasets reais
+---
+## Evolução do Projeto
+| Versão | Modelo | Velocidade | RAM | DNA | Resultado |
+|---|---|---|---|---|---|
+| V4.0 | Qwen2.5-1.5B | 3-5 t/s | ~1.2GB | 50% | ✅ Funcional mas lento |
+| V4.1-α | Qwen3-0.6B | 7-9 t/s | 635MB | 75% | ❌ Catastrophic forgetting |
+| **V4.2** | **Qwen3-0.6B** | **7-9 t/s** | **635MB** | **25%** | **🔧 Em construção** |
+---
+## Lições Aprendidas (V4.1-alpha → V4.2)
+### O que DESTRUIU a V4.1:
+| Erro | V4.1 (errado) | V4.2 (corrigido) |
+|---|---|---|
+| DNA mutação | 75% (destruiu coerência) | **25%** máximo |
+| Steps | 2000 (overfitting) | **500-800** |
+| Rank LoRA | 64 (reescreveu o modelo inteiro) | **16** |
+| Target modules | q,k,v,o + gate,down,up (MLP!) | **q,k,v,o** (só attention) |
+| Datasets | 15 templates repetidos | **30K+ do HuggingFace** |
+| Épocas CROM_Self | 133 (memorizou) | **máximo 10** |
+| Learning rate | 2e-5 | **1e-5** (mais suave) |
+| LR scheduler | Linear | **Cosine** (convergência melhor) |
+### O que DEU CERTO (mantemos):
+- ✅ Pipeline completo: extração → codebook → transpilação → treino → deploy
+- ✅ Velocidade: 7-9 t/s no i5-3320M (2x V4.0)
+- ✅ RAM: 635MB (metade da V4.0)
+- ✅ DNA ativo: tokens `@@PWAT`, `@@PWC` apareceram na saída
+- ✅ Codebook data-driven por frequência real (filosofia Crompressor)
+- ✅ Script `adicionar_cerebro.py` — adiciona cérebro em 1 comando
+---
+## Arquitetura V4.2
+### Modelo Base
+- **Qwen3-0.6B** — Velocidade é prioridade no i5 sem GPU
+- Unsloth: `unsloth/Qwen3-0.6B-unsloth-bnb-4bit`
+- GGUF: Q4_K_M (~379MB)
+### Parâmetros de Treino (Conservadores)
+```python
+# LoRA
+r = 16                           # Rank (era 64)
+lora_alpha = 32                  # 2x rank
+target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"]  # SEM MLP!
+# SFT (Fases 1 e 2)
+max_steps = 800                  # Fase 1 / 500 para Fase 2
+per_device_train_batch_size = 8
+gradient_accumulation_steps = 4
+learning_rate = 1e-5
+lr_scheduler_type = "cosine"
+warmup_ratio = 0.05
+# DPO (Fase 3)
+beta = 0.1                       # Força da preferência
+max_steps = 300
+learning_rate = 5e-6             # Mais suave que SFT
+```
+### Datasets (Qualidade > Quantidade)
+| Cérebro | Fonte | Amostras | DNA % | Fase |
+|---|---|---|---|---|
+| **Base_PTBR** | Canarim 30K + OpenHermes 10K trad. | 40.000 | 0% | Fase 1 |
+| **Python_DNA** | `Vezora/Tested-22k-Python-Alpaca` | 15.000 | 25% | Fase 2 |
+| **Medicina_DNA** | Dataset V4.0 + nosso | 8.000 | 25% | Fase 2 |
+| **CROM_Self** | Docs .md do projeto | 500 | 0% | Fase 2 |
+| **DPO_Pares** | Gerado automaticamente | 5.000 | chosen=DNA | Fase 3 |
+**REGRAS:**
+- DNA máximo 25%. O modelo PRIMEIRO sabe falar, DEPOIS usa DNA.
+- Máximo 10 épocas por dataset.
+- Filtros de qualidade: resposta > 100 chars, sem duplicatas.
+---
+## Estratégia de Treino: 3 Fases
+### Fase 1 — SFT Base Conversacional (SEM DNA)
+Treinar LoRA de "personalidade" com 40K conversas reais.
+O modelo aprende a conversar bem em PT-BR primeiro.
+```
+Dataset: Canarim 30K + OpenHermes 10K (traduzido)
+DNA: 0%
+Steps: 800
+Output: Base_PTBR_lora
+```
+### Fase 2 — SFT Especialização DNA (25% DNA)
+Treinar LoRAs especializados com DNA sutil sobre a base conversacional.
+```
+Dataset Python: 15K com 25% DNA → Python_DNA_lora
+Dataset Medicina: 8K com 25% DNA → Medicina_DNA_lora
+Steps: 500 cada
+```
+### Fase 3 — DPO (Direct Preference Optimization)
+O modelo aprende a PREFERIR respostas com DNA sobre texto normal.
+```python
+# Par DPO
+{
+  "prompt": "Explique arritmia cardíaca",
+  "chosen": "Uma @@DGN de @@CRC onde o ritmo...",   # DNA = preferido
+  "rejected": "Um diagnóstico de coração onde..."     # Normal = rejeitado
+}
+```
+- Usa `trl.DPOTrainer`
+- 5K pares gerados automaticamente pelo `gerador_pares_dpo.py`
+- Resultado: modelo usa DNA quando oportuno, sem forçar
+---
+## Inferência: Monitor de Orquestração + RAG
+### O Monitor TUI
+O `chat_v42_brain.sh` abre um **painel interativo** onde você configura tudo ANTES de iniciar o chat:
+```
+╔══════════════════════════════════════════════════════════════╗
+║       🧠 CROM-IA V4.2 — Monitor de Orquestração           ║
+╠══════════════════════════════════════════════════════════════╣
+║  Configure seus cérebros e contexto antes de iniciar       ║
+╚═══════════════════════════════════════════════════════════��══╝
+── Modelo Base ─────────────────────────────────────────────
+   ✅ qwen3-0.6b-q4_k_m.gguf (379MB)
+── Micro-Cérebros (LoRAs) ──────────────────────────────────
+   [1] ✅ ON  Base_PTBR (32MB)
+   [2] ✅ ON  Python_DNA (28MB)
+   [3] ⬚ OFF Medicina_DNA (30MB)     ← desativado!
+── Contexto RAG (Arquivos/Pastas) ──────────────────────────
+   📄 main.py
+   📂 ./src/ (15 arquivos)
+── Ações ───────────────────────────────────────────────────
+   [1-9]  Toggle cérebro ON/OFF
+   [a]    Adicionar arquivo     [p] Adicionar pasta
+   [r]    Remover último RAG    [c] Limpar RAG
+   [t]    Temperatura           [w] Janela de contexto
+   [*]    Ativar TODOS          [0] Desativar TODOS
+   [ENTER] 🚀 INICIAR CHAT
+   [q]     Sair
+```
+### Uso
+```bash
+# Abrir monitor (interativo)
+./chat_v42_brain.sh
+# Pré-carregar arquivos e abrir monitor
+./chat_v42_brain.sh --arquivo main.py --pasta ./src/
+```
+### Como Funciona
+1. **Monitor TUI:** Painel interativo para orquestrar cérebros e contexto
+2. **Toggle:** Ativa/desativa cérebros individuais com tecla numérica
+3. **RAG-lite:** Adiciona arquivos/pastas que são lidos e injetados no prompt
+4. **Config:** Ajusta temperatura, contexto, max tokens na hora
+5. **Launch:** ENTER lança o chat com a config escolhida
+6. **Retorno:** Ctrl+C no chat volta ao monitor para reconfigurar
+---
+## Estrutura de Diretórios V4.2
+```
+v4.2_multibrain_engine/
+├── 00_CROM_IA_V4.2_DOCUMENTATION.md      ← Este arquivo
+├── 00_CROM_IA_V4.2_ROADMAP.md            ← Roadmap original (referência)
+├── 01_DPO_GUIDE.md                        ← Guia DPO detalhado
+├── 02_CHAT_RAG_GUIDE.md                   ← Guia do Monitor + RAG
+├── 1_extracao_local/
+│   ├── codebooks/                          ← Codebooks data-driven
+│   ├── datasets_hibridos/                  ← Datasets prontos para Colab
+│   ├── download_datasets_v42.py            ← Baixa HuggingFace
+│   ├── tradutor_batch_argos.py             ← Traduz EN→PT offline
+│   ├── transpilador_v42.py                 ← DNA a 25% (era 75%)
+│   ├── gerador_codebook_v42.py             ← Mineração por frequência
+│   └── gerador_pares_dpo.py                ← Gera pares DPO automáticos
+├── 2_treinamento_nuvem/
+│   ├── 01_CROM_V42_TRAINING_FASE1.py       ← SFT Base (40K, 0% DNA)
+│   ├── 02_CROM_V42_TRAINING_FASE2.py       ← SFT DNA (23K, 25% DNA)
+│   ├── 03_CROM_V42_DPO_TRAINING.py         ← DPO (5K pares, preferência)
+│   ├── adapters_lora/                      ← LoRAs PEFT do Colab
+│   └── colab/                              ← Notebooks prontos
+├── 3_inferencia_local/
+│   ├── chat_v42_brain.sh                   ← 🎛️ MONITOR TUI + Chat
+│   ├── rag_contexto.py                     ← Motor RAG-lite (sem GPU)
+│   ├── decodificador_dna/
+│   │   └── decodificador_dna.py            ← Traduz @@tokens → palavras
+│   └── micro_cerebros/                     ← LoRAs GGUF empilháveis
+└── adicionar_cerebro.py                    ← Adicionar cérebro em 1 cmd
+```
+---
+## Checklist de Execução
+### Preparação (Local)
+- [ ] Instalar argostranslate (`pip install argostranslate`)
+- [ ] Baixar Canarim-PTBR 30K do HuggingFace
+- [ ] Baixar Python Alpaca 15K
+- [ ] Traduzir OpenHermes-2.5 top 10K (Argos)
+- [ ] Gerar codebooks data-driven para novos datasets
+- [ ] Transpilar datasets com DNA a 25%
+- [ ] Gerar pares DPO (5K)
+### Treino (Colab)
+- [ ] Fase 1: Base_PTBR (40K, 0% DNA, 800 steps, rank 16)
+- [ ] Fase 2: Python_DNA (15K, 25% DNA, 500 steps, rank 16)
+- [ ] Fase 2: Medicina_DNA (8K, 25% DNA, 500 steps, rank 16)
+- [ ] Fase 3: DPO (5K pares, 300 steps, rank 16)
+- [ ] Converter PEFT → GGUF-LoRA com llama.cpp
+### Deploy (Local)
+- [ ] Baixar Qwen3-0.6B base GGUF
+- [ ] Baixar LoRAs convertidos
+- [ ] Testar chat_v42_brain.sh sem arquivos
+- [ ] Testar chat_v42_brain.sh --arquivo test.py
+- [ ] Testar chat_v42_brain.sh --pasta ./projeto/
+- [ ] Testar LoRA stacking (2+ LoRAs)
+- [ ] Benchmark: velocidade + qualidade + DNA %
+---
+## Hardware Alvo
+- **CPU:** Intel i5-3320M @ 2.60GHz (4 threads)
+- **RAM:** 7.4GB total
+- **GPU:** Nenhuma
+- **Disco:** ~25GB livres
+- **llama-cli:** `/home/j/Área de trabalho/crompressor-ia/pesquisa/poc_llama_cpp_fuse/llama.cpp/build/bin/llama-cli`

00_CROM_IA_V4.2_ROADMAP.md ADDED Viewed

	@@ -0,0 +1,171 @@

+# CROM-IA V4.2 — Roadmap de Melhorias
+> **Status:** Planejamento
+> **Base Model:** Qwen3.5-0.8B (https://huggingface.co/Qwen/Qwen3.5-0.8B)
+> **Pré-requisito:** V4.1 concluída e validada
+---
+## Upgrade de Modelo: Qwen3.5-0.8B
+### Por que trocar do Qwen3-0.6B?
+| Aspecto | Qwen3-0.6B (V4.1) | Qwen3.5-0.8B (V4.2) |
+|---|---|---|
+| Parâmetros | 636M | ~800M (+25%) |
+| Arquitetura | Qwen3 | Qwen3.5 (mais moderna) |
+| PT-BR nativo | Bom | Melhor (mais dados de treino) |
+| Velocidade i5 | ~8-10 t/s | ~6-8 t/s (ainda rápido) |
+| Raciocínio | Básico | Melhorado (3.5 foca em reasoning) |
+### Ação necessária:
+Verificar se Unsloth disponibiliza `unsloth/Qwen3.5-0.8B-bnb-4bit`.
+Se não, usar quantização manual via `BitsAndBytesConfig`.
+---
+## Melhorias Planejadas V4.2
+### 1. DPO (Direct Preference Optimization)
+**Problema V4.1:** O modelo sabe DNA mas nem sempre PREFERE usá-lo.
+**Solução:** Treinar com pares (resposta_com_DNA=preferred, resposta_sem_DNA=rejected).
+O modelo aprende que DNA é a resposta "correta" por preferência, não só por frequência.
+```python
+# Formato DPO
+{
+  "prompt": "Explique arritmia cardíaca",
+  "chosen": "Uma @@DGN de @@CRC onde...",   # DNA = preferido
+  "rejected": "Uma diagnóstico de coração..."  # Normal = rejeitado
+}
+```
+### 2. LoRA → GGUF Adapter (Empilhamento Real)
+**Problema V4.1:** Ainda salvamos GGUF fundido (monolítico).
+**Solução:** Converter adaptadores PEFT para formato GGUF-LoRA usando:
+```bash
+python3 llama.cpp/convert_lora_to_gguf.py \
+  --base qwen3.5-0.8b.gguf \
+  --adapter adapter_Python_DNA/ \
+  --outfile Python_DNA_lora.gguf
+```
+Resultado: `--lora A.gguf --lora B.gguf` na inferência.
+### 3. Multi-Turn Conversation Training
+**Problema V4.1:** Treinamos apenas single-turn (1 pergunta → 1 resposta).
+**Solução:** Criar datasets com histórico de conversa:
+```
+<|im_start|>user
+O que é Python?<|im_end|>
+<|im_start|>assistant
+@@DEF é uma linguagem...<|im_end|>
+<|im_start|>user
+Mostre um exemplo<|im_end|>
+<|im_start|>assistant
+@@IMP math\n@@PRT(math.sqrt(16))<|im_end|>
+```
+### 4. RAG + DNA Decoder Integrado
+**Problema V4.1:** O decodificador DNA existe mas não está integrado no chat.
+**Solução:** Pipeline completo:
+```
+Pergunta → Modelo (gera DNA) → Decodificador (traduz @@) → Usuário vê texto limpo
+```
+O usuário nunca vê os tokens @@, mas o modelo gera menos tokens = mais rápido.
+### 5. Validação Automática Pós-Treino
+**Problema V4.1:** Não temos métricas de qualidade automatizadas.
+**Solução:** Script que após treino:
+- Roda 50 perguntas padrão
+- Mede % de tokens DNA na saída
+- Calcula BLEU vs resposta esperada
+- Mede velocidade de inferência
+- Gera relatório comparativo automático
+### 6. Datasets Estratégicos (Qualidade > Quantidade)
+> [!IMPORTANT]
+> A filosofia é: **poucos dados de alta qualidade** vencem toneladas de dados genéricos.
+> Modelo de 0.8B não absorve 1M de amostras — ele precisa de ~20-50K muito bem escolhidas.
+#### Estratégia de Dados V4.2: 3 Camadas
+**Camada 1 — Base Conversacional (PT-BR nativo, ~30K amostras)**
+| Dataset | Amostras | Por quê? | Prioridade |
+|---|---|---|---|
+| `dominguesm/Canarim-Instruct-PTBR` | Pegar 30K | JÁ em PT-BR, sem tradução, qualidade GPT-3.5 | 🔴 ALTA |
+| `dominguesm/alpaca-data-pt-br` | 52K | Alpaca oficial em PT-BR, bom para base geral | 🟡 MÉDIA |
+**Camada 2 — Destilação Inteligente (Traduzir EN→PT-BR, ~15K amostras)**
+| Dataset Original (EN) | Pegar | Por quê? | Prioridade |
+|---|---|---|---|
+| `teknium/OpenHermes-2.5` | 10K melhores | Destilado do GPT-4, o melhor que existe | 🔴 ALTA |
+| `Open-Orca/SlimOrca` | 5K filtrados | GPT-4 filtrado, instruções complexas | 🟡 MÉDIA |
+> [!TIP]
+> Não traduzir 1M de amostras! Filtrar as 10-15K com respostas mais longas e
+> complexas. O modelo aprende mais com 10K respostas profundas do GPT-4 do que
+> com 100K respostas rasas.
+**Camada 3 — Especialização por Domínio (Nossos dados + HuggingFace, ~10K por cérebro)**
+| Cérebro | Fonte | Amostras |
+|---|---|---|
+| Python | `Vezora/Tested-22k-Python-Alpaca` + nosso dataset | 10K |
+| Medicina | Artigos SciELO + nosso dataset | 10K |
+| CROM Self | Docs do projeto (já temos) | 500 |
+| Conversa | Canarim filtrado para diálogo | 5K |
+#### Resultado Final: ~60K amostras totais
+- Peso do dataset: ~50-80MB (JSONL comprimido)
+- Tempo de treino: ~1h no Colab A100
+- Qualidade: Respostas nível GPT-4 em modelo de 500MB
+#### Tradução Automática (Offline, Gratuita)
+```bash
+pip install argostranslate
+python3 -c "
+import argostranslate.translate
+# Baixa pacote en→pt uma vez (~50MB)
+argostranslate.package.update_package_index()
+pkg = [p for p in argostranslate.package.get_available_packages()
+       if p.from_code=='en' and p.to_code=='pt'][0]
+pkg.install()
+# Traduzir
+t = argostranslate.translate.get_translation_from_codes('en','pt')
+print(t.translate('Hello, how are you?'))  # → 'Olá, como vai?'
+"
+```
+#### Filtro de Qualidade (O que torna isso MELHOR que modelos tradicionais)
+Antes de treinar, cada amostra passa por 3 filtros:
+1. **Tamanho mínimo:** Resposta > 100 chars (eliminar respostas rasas)
+2. **Diversidade:** Remover duplicatas por similaridade cosine
+3. **Complexidade:** Priorizar respostas com código, listas, explicações técnicas
+### 8. Scheduler de Learning Rate
+**Melhoria:** Ao invés de LR constante, usar cosine annealing:
+```python
+lr_scheduler_type = "cosine",
+warmup_ratio = 0.05,
+```
+Isso ajuda o modelo a convergir melhor nos últimos steps.
+### 8. Flash Attention 2
+**Melhoria:** Instalar FA2 no Colab para treino 2x mais rápido:
+```bash
+pip install flash-attn --no-build-isolation
+```
+---
+## Checklist de Execução V4.2
+- [ ] Validar V4.1 no i5 local (testar os 4 cérebros)
+- [ ] Verificar disponibilidade Qwen3.5-0.8B no Unsloth
+- [ ] Criar gerador de pares DPO automático
+- [ ] Implementar convert_lora_to_gguf no pipeline
+- [ ] Criar datasets multi-turn
+- [ ] Integrar decodificador DNA no chat_v42.sh
+- [ ] Implementar benchmark automático pós-treino
+- [ ] Coletar datasets maiores (GitHub, SciELO)
+- [ ] Testar cosine annealing LR
+- [ ] Benchmark comparativo V4.1 vs V4.2

01_DPO_GUIDE.md ADDED Viewed

	@@ -0,0 +1,190 @@

+# CROM-IA V4.2 — Guia DPO (Direct Preference Optimization)
+## O que é DPO?
+DPO é uma técnica de alinhamento que ensina o modelo a **preferir** um tipo de resposta sobre outro, sem precisar de um modelo de recompensa separado (mais simples que RLHF).
+### Por que DPO no CROM-IA?
+Na V4.1, o modelo aprendeu DNA por SFT (Supervised Fine-Tuning) puro:
+- Viu exemplos com @@tokens e tentou imitá-los
+- Resultado: usou DNA mas também **esqueceu como conversar** (catastrophic forgetting)
+Com DPO, a abordagem é diferente:
+- O modelo recebe **pares**: resposta com DNA (preferida) vs sem DNA (rejeitada)
+- Ele aprende que DNA é **a escolha melhor**, não uma obrigação
+- Resultado: usa DNA quando faz sentido, mantém fluência
+---
+## Formato dos Dados DPO — 3 Níveis Hierárquicos
+O DNA do Crompressor opera em **3 níveis**, e os pares DPO refletem isso:
+### Nível W (Word) — Palavra isolada → 1 token DNA
+```json
+{
+  "prompt": "O que é arritmia?",
+  "chosen": "Uma @@DGN de @@CRC onde o ritmo cardíaco é irregular.",
+  "rejected": "Um diagnóstico de coração onde o ritmo cardíaco é irregular."
+}
+```
+> `diagnóstico` (12 chars) → `@@DGN` (5 chars) = **7 bytes economizados** por hit
+### Nível F (Phrase) — Frase repetida → 1 token DNA
+```json
+{
+  "prompt": "Como tratar hipertensão?",
+  "chosen": "@@MFG. O @@TRT inclui mudanças no estilo de vida e @@MED anti-hipertensivos.",
+  "rejected": "É importante consultar um médico especialista. O tratamento inclui mudanças no estilo de vida e medicamentos anti-hipertensivos."
+}
+```
+> `É importante consultar um médico especialista` (46 chars) → `@@MFG` (5 chars) = **41 bytes** por hit!
+### Nível P (Paragraph) — Bloco inteiro repetido → 1 token DNA
+```json
+{
+  "prompt": "Dê um exemplo de função Python",
+  "chosen": "@@PPA\n\ndef somar(a, b):\n    return a + b",
+  "rejected": "Para criar uma função em Python, use a palavra-chave def seguida do nome da função e parâmetros entre parênteses. Veja o exemplo:\n\ndef somar(a, b):\n    return a + b"
+}
+```
+> `Para criar uma função em Python, use a palavra-chave def seguida...` (130 chars) → `@@PPA` (5 chars) = **125 bytes** por hit!
+### Exemplo Misto (3 Níveis no mesmo par)
+```json
+{
+  "prompt": "Explique como fazer um loop for em Python",
+  "chosen": "@@PFC\n\n@@FOR item @@GFT:\n    @@PRT(item)\n\n@@PFD",
+  "rejected": "O loop for em Python permite iterar sobre qualquer sequência como listas, tuplas ou strings.\n\nfor item in uma lista ou sequência iterável:\n    print(item)\n\nIsso percorre cada elemento da sequência e executa o bloco de código para cada um."
+}
+```
+> - `@@PFC` = parágrafo de introdução (~90 chars → 5) = **Nível P**
+> - `@@FOR` = palavra `for` = **Nível W**
+> - `@@GFT` = frase `in uma lista ou sequência iterável` (37 → 5) = **Nível F**
+> - `@@PFD` = parágrafo de conclusão (~80 chars → 5) = **Nível P**
+**Regras:**
+- `chosen` e `rejected` devem ser **semanticamente idênticos** (mesma informação)
+- A ÚNICA diferença é a presença de tokens @@DNA no `chosen`
+- Tokens de **todos os 3 níveis** (W, F, P) devem aparecer nos pares
+- DNA a ~25-30% do texto no `chosen` (sutil, não agressivo)
+- Parágrafos repetidos (nível P) são os mais valiosos em economia
+---
+## Pipeline de Geração de Pares DPO
+### Fluxo Automático
+```
+Dataset original (ex: Canarim 30K)
+        ↓
+gerador_pares_dpo.py
+        ↓
+Para cada amostra:
+  1. chosen = aplicar_mutacao_dna(resposta, codebook, taxa=0.25)
+  2. rejected = resposta original (sem DNA)
+  3. Emitir par {prompt, chosen, rejected}
+        ↓
+dataset_dpo_5k.jsonl
+```
+### Script: `gerador_pares_dpo.py`
+```python
+# Gera pares automaticamente a partir de dataset existente
+# chosen = resposta com DNA aplicado (25%)
+# rejected = resposta original (sem DNA)
+python3 gerador_pares_dpo.py \
+    --input canarim_30k.jsonl \
+    --codebook codebook_geral.json \
+    --output dataset_dpo_5k.jsonl \
+    --max_pares 5000 \
+    --taxa_dna 0.25
+```
+---
+## Treino DPO no Colab
+### Pré-requisito
+O modelo **já deve ter passado pela Fase 1 (SFT Base)** e Fase 2 (SFT DNA).
+DPO é o **refinamento final** — polir, não ensinar do zero.
+### Código Colab (Fase 3)
+```python
+from trl import DPOTrainer, DPOConfig
+from unsloth import FastLanguageModel
+from datasets import load_dataset
+# Carregar modelo já treinado (Fase 1 + Fase 2)
+model, tokenizer = FastLanguageModel.from_pretrained(
+    model_name="adapter_base_ptbr",  # Já fine-tuned
+    max_seq_length=2048,
+    load_in_4bit=True,
+)
+# LoRA para DPO (pode ser novo ou continuar do existente)
+model = FastLanguageModel.get_peft_model(
+    model, r=16, lora_alpha=32,
+    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
+)
+# Dataset DPO
+dataset = load_dataset("json", data_files="dataset_dpo_5k.jsonl", split="train")
+# Treinar com DPO
+training_args = DPOConfig(
+    per_device_train_batch_size=4,
+    gradient_accumulation_steps=4,
+    max_steps=300,
+    learning_rate=5e-6,       # Mais suave que SFT
+    beta=0.1,                  # Força da preferência
+    lr_scheduler_type="cosine",
+    warmup_ratio=0.1,
+    output_dir="./outputs_dpo",
+    logging_steps=25,
+)
+trainer = DPOTrainer(
+    model=model,
+    args=training_args,
+    train_dataset=dataset,
+    tokenizer=tokenizer,
+)
+trainer.train()
+```
+### Parâmetros DPO Explicados
+| Parâmetro | Valor | Por quê? |
+|---|---|---|
+| `beta` | 0.1 | Controla quão forte é a preferência. 0.1 = sutil. 0.5 = agressivo. |
+| `learning_rate` | 5e-6 | Metade do SFT. DPO é refinamento, não reeducação. |
+| `max_steps` | 300 | Pouco. DPO converge rápido com bons pares. |
+| `batch_size` | 4 | Menor que SFT (cada amostra tem 2 respostas = 2x memória). |
+---
+## Validação Pós-DPO
+### Teste A/B
+Rodar o modelo **antes e depois do DPO** com as mesmas 50 perguntas:
+- Medir % de tokens @@DNA na saída
+- Medir coerência (resposta faz sentido?)
+- Medir fluência (PT-BR natural?)
+### Resultado Esperado
+- **Antes DPO:** Modelo conversa bem, usa DNA inconsistentemente
+- **Depois DPO:** Modelo conversa bem E prefere usar DNA quando há codebook match
+---
+## Riscos e Mitigações
+| Risco | Mitigação |
+|---|---|
+| DPO degrada fluência | `beta=0.1` (conservador) + poucos steps (300) |
+| Pares DPO de baixa qualidade | Filtrar: chosen deve ter >3 tokens DNA, chosen e rejected devem ser >100 chars |
+| Overfitting DPO | Early stopping + validação cada 100 steps |
+| `trl` incompatível | Verificar `trl>=0.7.0` no Colab antes de treinar |

02_CHAT_RAG_GUIDE.md ADDED Viewed

	@@ -0,0 +1,184 @@

+# CROM-IA V4.2 — Monitor de Orquestração + RAG-Lite
+## Conceito
+O `chat_v42_brain.sh` é um **painel de controle TUI** que permite configurar tudo antes de conversar: ativar/desativar cérebros, adicionar arquivos/pastas como contexto, ajustar parâmetros. Funciona como RAG (Retrieval Augmented Generation) adaptado para rodar sem GPU.
+```
+┌─────────────┐     ┌──────────────┐     ┌─────────────┐
+│  Arquivos   │────▶│ rag_contexto │────▶│ System Prompt│
+│  /pastas    │     │   .py        │     │  enriquecido │
+└─────────────┘     └──────────────┘     └──────┬──────┘
+                                                │
+                    ┌──────────────┐     ┌──────▼──────┐
+                    │  LoRA Stack  │────▶│  llama-cli   │
+                    │  (auto)      │     │  --conversation│
+                    └──────────────┘     └──────┬──────┘
+                                                │
+                    ┌──────────────┐     ┌──────▼──────┐
+                    │  DNA Decoder │◀────│   Resposta   │
+                    └──────────────┘     └─────────────┘
+```
+---
+## Uso
+### Monitor Interativo (recomendado)
+```bash
+./chat_v42_brain.sh
+# Abre o painel TUI onde você configura tudo:
+#   [1-9] Toggle cérebros ON/OFF
+#   [a]   Adicionar arquivo para RAG
+#   [p]   Adicionar pasta para RAG
+#   [ENTER] Lançar chat com a config escolhida
+#   Ctrl+C no chat volta ao monitor!
+```
+### Pré-carregar arquivos (atalho)
+```bash
+./chat_v42_brain.sh --arquivo main.py --pasta ./src/
+# Abre o monitor já com esses itens no RAG
+# Você ainda pode ajustar antes de lançar
+```
+### Fluxo Típico
+```
+1. ./chat_v42_brain.sh
+2. Pressiona [3] para desativar Medicina_DNA
+3. Pressiona [a] e digita "./api.py"
+4. Pressiona [p] e digita "./controllers/"
+5. Pressiona [ENTER] → chat inicia!
+6. Conversa...
+7. Ctrl+C → volta ao monitor
+8. Pressiona [3] para reativar Medicina_DNA
+9. Pressiona [ENTER] → chat reinicia com nova config!
+```
+---
+## Formatos Suportados
+| Extensão | Tipo | Tratamento |
+|---|---|---|
+| `.py` | Python | Código completo |
+| `.js` | JavaScript | Código completo |
+| `.sh` | Shell | Código completo |
+| `.md` | Markdown | Texto completo |
+| `.txt` | Texto | Texto completo |
+| `.json` | JSON | Estrutura + primeiros 2KB |
+| `.jsonl` | JSON Lines | Primeiras 20 linhas |
+| `.html` | HTML | Texto extraído (sem tags) |
+| `.css` | CSS | Código completo |
+| `.yaml/.yml` | YAML | Estrutura completa |
+| `.toml` | TOML | Estrutura completa |
+| `.cfg/.ini` | Config | Estrutura completa |
+| `.log` | Log | Últimas 50 linhas |
+**Limite por arquivo:** 3000 chars (para caber no contexto)
+**Limite total:** ~6000 chars de contexto injetado (~1500 tokens)
+---
+## Como Funciona (Detalhes Técnicos)
+### 1. Ingestão (`rag_contexto.py`)
+```python
+# Lê todos os arquivos/pastas especificados
+# Retorna lista de {nome, conteudo, tipo}
+```
+### 2. Chunking
+- Cada arquivo é dividido em chunks de ~500 chars
+- Preserva limites de função/classe em código
+- Preserva parágrafos em texto
+### 3. Indexação por Keywords
+Sem embeddings (sem GPU), usamos TF-IDF simplificado:
+- Conta frequência de cada palavra em cada chunk
+- Na hora da pergunta, busca chunks com mais keywords em comum
+- Retorna top-3 chunks mais relevantes
+### 4. Injeção no System Prompt
+```
+<|im_start|>system
+Você é CROM-IA, assistente brasileiro com compressão DNA ativa.
+CONTEXTO DOS ARQUIVOS CARREGADOS:
+📄 main.py (Python, 45 linhas):
+```python
+def calcular_total(items):
+    return sum(item.price for item in items)
+...
+```
+📄 README.md (Markdown):
+# Meu Projeto
+Calculadora de preços para e-commerce...
+Responda perguntas sobre estes arquivos usando seu conhecimento.
+<|im_end|>
+```
+### 5. LoRA Stacking
+O script auto-detecta todos os `*_lora.gguf` em `micro_cerebros/`:
+```bash
+llama-cli -m base.gguf \
+    --lora Base_PTBR.gguf \
+    --lora Python_DNA.gguf \
+    -c 2048 \
+    --prompt "CONTEXTO: ..." \
+    --conversation
+```
+---
+## Limitações
+| Limitação | Causa | Workaround |
+|---|---|---|
+| Contexto máximo ~1500 tokens | i5 + RAM limitada | Chunking inteligente |
+| Sem busca semântica | Sem GPU para embeddings | Keywords TF-IDF |
+| Sem persistência entre sessões | Design stateless | Pode re-carregar arquivos |
+| Arquivos grandes truncados | Limite de contexto | Mostra início + estrutura |
+---
+## Exemplos de Conversas
+### Exemplo 1: Analisar código
+```
+$ ./chat_v42_brain.sh --arquivo api.py
+> Explique o que faz a função handle_request
+CROM-IA: A @@FNC handle_request recebe um @@DCT com os parâmetros
+HTTP, valida os campos 'user_id' e 'action', e @@RET um JSON
+com o resultado. Ela usa @@TRY/@@EXC para tratar erros de
+conexão com o banco...
+```
+### Exemplo 2: Analisar projeto
+```
+$ ./chat_v42_brain.sh --pasta ./meu_app/
+> Qual é a arquitetura desse projeto?
+CROM-IA: Baseado nos arquivos que analisei, o projeto segue
+arquitetura MVC:
+- models/ → @@CLS de dados (User, Product)
+- views/ → Templates HTML
+- controllers/ → Lógica de negócio
+- main.py → Entry point com @@IMP Flask
+```
+---
+## Performance Esperada
+| Métrica | Sem arquivos | Com 1 arquivo | Com pasta (10 arquivos) |
+|---|---|---|---|
+| Tempo de carga | ~5s | ~6s | ~8s |
+| Velocidade chat | 7-9 t/s | 6-8 t/s | 5-7 t/s |
+| RAM | 635MB | ~650MB | ~680MB |
+| Qualidade resposta | Geral | Específica ao código | Visão do projeto |

1_extracao_local/codebooks/codebook_python_v42.json ADDED Viewed

	@@ -0,0 +1,321 @@

+{
+  "version": "4.2",
+  "domain": "P",
+  "method": "hierarchical_frequency_x_size",
+  "total_tokens": 290,
+  "niveis": {
+    "W": "palavras isoladas",
+    "F": "frases (2-8 palavras)",
+    "P": "parágrafos/blocos (8-20 palavras)"
+  },
+  "economia_bytes_estimada": 10201862,
+  "stats": {
+    "economia_total_estimada": 10201862,
+    "por_nivel": {
+      "W_palavras": {
+        "tokens": 120,
+        "economia": 782629
+      },
+      "F_frases": {
+        "tokens": 118,
+        "economia": 7170412
+      },
+      "P_blocos": {
+        "tokens": 52,
+        "economia": 2248821
+      }
+    }
+  },
+  "codebook": {
+    "implementation": "@@PWA",
+    "function": "@@PWT",
+    "characters": "@@PWC",
+    "complexity": "@@PWG",
+    "dictionary": "@@PWTA",
+    "character": "@@PWTT",
+    "algorithm": "@@PWTC",
+    "elements": "@@PWTG",
+    "numbers": "@@PWCA",
+    "initialize": "@@PWCT",
+    "element": "@@PWCC",
+    "requirements": "@@PWCG",
+    "example": "@@PWGA",
+    "calculate": "@@PWGT",
+    "isinstance": "@@PWGC",
+    "valueerror": "@@PWGG",
+    "input_string": "@@PWTAA",
+    "current": "@@PWTAT",
+    "recursively": "@@PWTAC",
+    "is_prime": "@@PWTAG",
+    "corresponding": "@@PWTTA",
+    "explanation": "@@PWTTT",
+    "descending": "@@PWTTC",
+    "variable": "@@PWTTG",
+    "lowercase": "@@PWTCA",
+    "recursive": "@@PWTCT",
+    "divisible": "@@PWTCC",
+    "occurrences": "@@PWTCG",
+    "solution": "@@PWTGA",
+    "frequency": "@@PWTGT",
+    "fibonacci": "@@PWTGC",
+    "iterate": "@@PWTGG",
+    "returns": "@@PWCAA",
+    "punctuation": "@@PWCAT",
+    "substring": "@@PWCAC",
+    "additional": "@@PWCAG",
+    "possible": "@@PWCTA",
+    "expression": "@@PWCTT",
+    "otherwise": "@@PWCTC",
+    "through": "@@PWCTG",
+    "sentence": "@@PWCCA",
+    "conditions": "@@PWCCT",
+    "remove_duplicates": "@@PWCCC",
+    "iterates": "@@PWCCG",
+    "calculates": "@@PWCGA",
+    "duplicates": "@@PWCGT",
+    "permutations": "@@PWCGC",
+    "is_palindrome": "@@PWCGG",
+    "functions": "@@PWGAA",
+    "representation": "@@PWGAT",
+    "comprehension": "@@PWGAC",
+    "factorial": "@@PWGAG",
+    "strings": "@@PWGTA",
+    "prime_numbers": "@@PWGTT",
+    "ascending": "@@PWGTC",
+    "reversed_string": "@@PWGTG",
+    "finally": "@@PWGCA",
+    "__init__": "@@PWGCT",
+    "negative": "@@PWGCC",
+    "integers": "@@PWGCG",
+    "operations": "@@PWGGA",
+    "contains": "@@PWGGT",
+    "resulting": "@@PWGGC",
+    "positive": "@@PWGGG",
+    "variables": "@@PWTAAA",
+    "following": "@@PWTAAT",
+    "palindrome": "@@PWTAAC",
+    "dictionaries": "@@PWTAAG",
+    "duplicate": "@@PWTATA",
+    "common_elements": "@@PWTATT",
+    "remaining": "@@PWTATC",
+    "iteration": "@@PWTATG",
+    "different": "@@PWTACA",
+    "uppercase": "@@PWTACT",
+    "generate": "@@PWTACC",
+    "merge_sort": "@@PWTACG",
+    "initializes": "@@PWTAGA",
+    "increment": "@@PWTAGT",
+    "appropriate": "@@PWTAGC",
+    "exception": "@@PWTAGG",
+    "programming": "@@PWTTAA",
+    "difference": "@@PWTTAT",
+    "respectively": "@@PWTTAC",
+    "program": "@@PWTTAG",
+    "alphanumeric": "@@PWTTTA",
+    "original": "@@PWTTTT",
+    "maximum": "@@PWTTTC",
+    "integer": "@@PWTTTG",
+    "sequence": "@@PWTTCA",
+    "combinations": "@@PWTTCT",
+    "reverse_string": "@@PWTTCC",
+    "convert": "@@PWTTCG",
+    "iterating": "@@PWTTGA",
+    "parameters": "@@PWTTGT",
+    "unique_elements": "@@PWTTGC",
+    "whitespace": "@@PWTTGG",
+    "reverse": "@@PWTCAA",
+    "condition": "@@PWTCAT",
+    "multiplication": "@@PWTCAC",
+    "correctly": "@@PWTCAG",
+    "occurrence": "@@PWTCTA",
+    "modified": "@@PWTCTT",
+    "containing": "@@PWTCTC",
+    "greater": "@@PWTCTG",
+    "implement": "@@PWTCCA",
+    "efficiently": "@@PWTCCT",
+    "password": "@@PWTCCC",
+    "recursion": "@@PWTCCG",
+    "specified": "@@PWTCGA",
+    "position": "@@PWTCGT",
+    "binary_search": "@@PWTCGC",
+    "parameter": "@@PWTCGG",
+    "represents": "@@PWTGAA",
+    "approach": "@@PWTGAT",
+    "current_node": "@@PWTGAC",
+    "sorted_arr": "@@PWTGAG",
+    "pointers": "@@PWTGTA",
+    "between": "@@PWTGTT",
+    "modified_string": "@@PWTGTC",
+    "because": "@@PWTGTG",
+    "implementation of the": "@@PFA",
+    "time complexity of": "@@PFT",
+    "implementation of": "@@PFC",
+    "time complexity": "@@PFG",
+    "the function": "@@PFTA",
+    "complexity of": "@@PFTT",
+    "the implementation": "@@PFTC",
+    "is the implementation": "@@PFTG",
+    "the current": "@@PFCA",
+    "the implementation of": "@@PFCT",
+    "a time complexity": "@@PFCC",
+    "possible implementation": "@@PFCG",
+    "implementation in": "@@PFGA",
+    "a time complexity of": "@@PFGT",
+    "the implementation of the": "@@PFGC",
+    "# Output:": "@@PFGG",
+    "the number": "@@PFTAA",
+    "the length of the": "@@PFTAT",
+    "implementation in Python:": "@@PFTAC",
+    "the length of": "@@PFTAG",
+    "implementation in Python": "@@PFTTA",
+    ")  # Output:": "@@PFTTT",
+    "the number of": "@@PFTTC",
+    "implementation of the function": "@@PFTTG",
+    "length of the": "@@PFTCA",
+    "time complexity of this": "@@PFTCT",
+    "Here is the implementation": "@@PFTCC",
+    "complexity of this": "@@PFTCG",
+    "iterate through": "@@PFTGA",
+    "a possible implementation": "@@PFTGT",
+    "using the": "@@PFTGC",
+    "prime numbers": "@@PFTGG",
+    "to store the": "@@PFCAA",
+    "in descending order": "@@PFCAT",
+    "time complexity of O": "@@PFCAC",
+    "the given": "@@PFCAG",
+    "greater than": "@@PFCTA",
+    "has a time complexity": "@@PFCTT",
+    "is the implementation of": "@@PFCTC",
+    "function with": "@@PFCTG",
+    "the function with": "@@PFCCA",
+    "space complexity": "@@PFCCT",
+    "))  # Output:": "@@PFCCC",
+    "function with the": "@@PFCCG",
+    "the input": "@@PFCGA",
+    "an example implementation": "@@PFCGT",
+    "the function returns": "@@PFCGC",
+    "the string": "@@PFCGG",
+    "each character": "@@PFGAA",
+    "The time complexity of": "@@PFGAT",
+    "` function": "@@PFGAC",
+    "possible implementation of": "@@PFGAG",
+    "complexity of O(": "@@PFGTA",
+    "function returns": "@@PFGTT",
+    "is greater than": "@@PFGTC",
+    "function that": "@@PFGTG",
+    "the array": "@@PFGCA",
+    "The time complexity": "@@PFGCT",
+    "an implementation of": "@@PFGCC",
+    "solve this problem,": "@@PFGCG",
+    "iterate through the": "@@PFGGA",
+    "returns the": "@@PFGGT",
+    "Check if the": "@@PFGGC",
+    "calculate the": "@@PFGGG",
+    "test the function": "@@PFTAAA",
+    "through the": "@@PFTAAT",
+    "each element": "@@PFTAAC",
+    "descending order": "@@PFTAAG",
+    "an example": "@@PFTATA",
+    "divisible by": "@@PFTATT",
+    "the implementation in": "@@PFTATC",
+    "test the function with": "@@PFTATG",
+    "Iterate through": "@@PFTACA",
+    "Here's an example": "@@PFTACT",
+    "complexity of O": "@@PFTACC",
+    "in descending": "@@PFTACG",
+    "in Python": "@@PFTAGA",
+    "possible implementation in": "@@PFTAGT",
+    "example implementation": "@@PFTAGC",
+    "through each": "@@PFTAGG",
+    "number of": "@@PFTTAA",
+    "checks if the": "@@PFTTAT",
+    "with the": "@@PFTTAC",
+    "each character in": "@@PFTTAG",
+    "the length": "@@PFTTTA",
+    "an implementation": "@@PFTTTT",
+    "possible implementation of the": "@@PFTTTC",
+    "__init__(self,": "@@PFTTTG",
+    "of the function": "@@PFTTCA",
+    "the list": "@@PFTTCT",
+    "iterates through": "@@PFTTCC",
+    "number is": "@@PFTTCG",
+    "i in range(": "@@PFTTGA",
+    "element in the": "@@PFTTGT",
+    "character in the": "@@PFTTGC",
+    "this implementation": "@@PFTTGG",
+    "in ascending order": "@@PFTCAA",
+    "keep track of the": "@@PFTCAT",
+    "the function with the": "@@PFTCAC",
+    "checks if": "@@PFTCAG",
+    "Iterate through each": "@@PFTCTA",
+    "the input string": "@@PFTCTT",
+    "in range(": "@@PFTCTC",
+    "complexity of O(n": "@@PFTCTG",
+    "this example, the": "@@PFTCCA",
+    "keep track of": "@@PFTCCT",
+    "each character in the": "@@PFTCCC",
+    "the character": "@@PFTCCG",
+    "The function": "@@PFTCGA",
+    "is a possible implementation": "@@PFTCGT",
+    "solve this problem": "@@PFTCGC",
+    "the sum of": "@@PFTCGG",
+    "the maximum": "@@PFTGAA",
+    "for i in range(": "@@PFTGAT",
+    "elements in the": "@@PFTGAC",
+    "without using any": "@@PFTGAG",
+    "the first": "@@PFTGTA",
+    "is divisible by": "@@PFTGTT",
+    "has a time complexity of": "@@PPA",
+    "a time complexity of O(": "@@PPT",
+    "time complexity of O(": "@@PPC",
+    "a time complexity of O": "@@PPG",
+    "where n is the length of the": "@@PPTA",
+    "a time complexity of O(n": "@@PPTT",
+    "time complexity of O(n": "@@PPTC",
+    "The time complexity of this": "@@PPTG",
+    "has a time complexity of O(": "@@PPCA",
+    "where n is the length of": "@@PPCT",
+    "has a time complexity of O": "@@PPCC",
+    "has a time complexity of O(n": "@@PPCG",
+    "to keep track of the": "@@PPGA",
+    "a time complexity of O(n)": "@@PPGT",
+    "O(n), where n is the": "@@PPGC",
+    "time complexity of this solution is": "@@PPGG",
+    "without using any built-in": "@@PPTAA",
+    "n is the length of the": "@@PPTAT",
+    "time complexity of O(n)": "@@PPTAC",
+    "solve this problem, we can": "@@PPTAG",
+    "is the length of the": "@@PPTTA",
+    "where n is the length": "@@PPTTT",
+    "time complexity of this solution": "@@PPTTC",
+    "has a time complexity of O(n)": "@@PPTTG",
+    "complexity of this solution is": "@@PPTCA",
+    "solve this problem, we": "@@PPTCT",
+    "from 2 to the square root of": "@@PPTCC",
+    "n is the length of": "@@PPTCG",
+    "to the square root of": "@@PPTGA",
+    "implementation has a time complexity of": "@@PPTGT",
+    "complexity of O(n)": "@@PPTGC",
+    "O(n), where n is": "@@PPTGG",
+    ", where n is the length of the": "@@PPCAA",
+    "time complexity of this function is": "@@PPCAT",
+    "O(n), where n is the length": "@@PPCAC",
+    "implementation has a time complexity": "@@PPCAG",
+    "where n is the": "@@PPCTA",
+    "from 2 to the square root": "@@PPCTT",
+    "less than or equal to": "@@PPCTC",
+    "this problem, we can": "@@PPCTG",
+    "to keep track of": "@@PPCCA",
+    "with a time complexity of": "@@PPCCT",
+    "The time complexity of this solution is": "@@PPCCC",
+    "time complexity of this function": "@@PPCCG",
+    "complexity of this function is": "@@PPCGA",
+    ", where n is the length of": "@@PPCGT",
+    "a time complexity of O(n),": "@@PPCGC",
+    "2 to the square root of": "@@PPCGG",
+    "without using any built-in functions or": "@@PPGAA",
+    "solve this problem, we can use": "@@PPGAT",
+    "n is the length of the input": "@@PPGAC",
+    "), where n is the length of": "@@PPGAG"
+  }
+}

1_extracao_local/datasets_hibridos/Base_PTBR.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:104bdedf54e3149556d16676bde0b310eaf42062c8bf2b3e220af37f662b31db
+size 46610873

1_extracao_local/datasets_hibridos/Python_DNA25.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:980754f9d03342c1a992cf0c7cf10ff1777543bacc736f184bb4f9d5a731189e
+size 32569029

1_extracao_local/datasets_hibridos/canarim_30k.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5686e452ba0bc508a280e33be9072239c627d927d443a6067002a6aae26ac66
+size 16410543

1_extracao_local/datasets_hibridos/dataset_DPO_python.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a1ab68a20d6caf810bf5885566082513f03b962eec5c8b2654cb2cf59bbf265
+size 20874063

1_extracao_local/datasets_hibridos/openhermes_10k_ptbr.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d0dd92f5559196b0a6cd4674e932e99d2108f9e392b40b0f245792b2401ef95
+size 30200330

1_extracao_local/datasets_hibridos/python_15k.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa6960b964d43d56021d1f1cb3697716ca07ab9fc50720ea0bac46a2eaa1386b
+size 33168239

1_extracao_local/download_datasets_v42.py ADDED Viewed

	@@ -0,0 +1,256 @@

+#!/usr/bin/env python3
+"""
+CROM-IA V4.2 — Download de Datasets Reais do HuggingFace
+=========================================================
+Downloads:
+  1. Canarim-Instruct-PTBR (30K) — Base conversacional PT-BR
+  2. Tested-22k-Python-Alpaca (15K) — Código Python
+  3. OpenHermes-2.5 (10K filtrados) — Destilação GPT-4 (para traduzir)
+Filtra por qualidade: resposta > 100 chars, sem duplicatas.
+"""
+import json
+import os
+import sys
+import hashlib
+# Diretório de saída
+SCRIPT_DIR = os.path.dirname(os.path.abspath(__file__))
+OUTPUT_DIR = os.path.join(SCRIPT_DIR, "datasets_hibridos")
+os.makedirs(OUTPUT_DIR, exist_ok=True)
+def filtrar_qualidade(texto, min_chars=100):
+    """Filtra respostas muito curtas ou vazias."""
+    if not texto or not isinstance(texto, str):
+        return False
+    return len(texto.strip()) >= min_chars
+def deduplicate(items, key_fn):
+    """Remove duplicatas por hash do conteúdo."""
+    seen = set()
+    unicos = []
+    for item in items:
+        h = hashlib.md5(key_fn(item).encode()).hexdigest()
+        if h not in seen:
+            seen.add(h)
+            unicos.append(item)
+    return unicos
+def formatar_chatml(instruction, output, system_msg="Você é CROM-IA, um assistente inteligente brasileiro."):
+    """Formata no padrão ChatML (Qwen)."""
+    texto = (
+        f"<|im_start|>system\n{system_msg}<|im_end|>\n"
+        f"<|im_start|>user\n{instruction}<|im_end|>\n"
+        f"<|im_start|>assistant\n{output}<|im_end|>"
+    )
+    return {"text": texto}
+def download_canarim(max_samples=30000):
+    """1. Canarim-Instruct-PTBR — Base conversacional PT-BR."""
+    from datasets import load_dataset
+    path_out = os.path.join(OUTPUT_DIR, "canarim_30k.jsonl")
+    if os.path.exists(path_out):
+        linhas = sum(1 for _ in open(path_out))
+        print(f"⏭️  Canarim já existe: {path_out} ({linhas} linhas)")
+        return path_out
+    print("\n" + "=" * 60)
+    print("📥 Baixando Canarim-Instruct-PTBR...")
+    print("=" * 60)
+    ds = load_dataset('dominguesm/Canarim-Instruct-PTBR-Dataset', split='train')
+    print(f"   Dataset total: {len(ds)} amostras")
+    # Detectar formato
+    colunas = ds.column_names
+    print(f"   Colunas: {colunas}")
+    total = 0
+    with open(path_out, 'w', encoding='utf-8') as f:
+        for item in ds:
+            # Tentar múltiplos formatos
+            instruction = (item.get('instruction', '') or
+                          item.get('input', '') or
+                          item.get('prompt', '') or '')
+            output = (item.get('output', '') or
+                     item.get('response', '') or
+                     item.get('completion', '') or '')
+            # Se tem 'text' direto (formato single-field)
+            if not output and 'text' in item:
+                output = item['text']
+                instruction = ""
+            if not filtrar_qualidade(output, min_chars=50):
+                continue
+            formatted = formatar_chatml(instruction, output)
+            f.write(json.dumps(formatted, ensure_ascii=False) + '\n')
+            total += 1
+            if total >= max_samples:
+                break
+    print(f"✅ Canarim salvo: {path_out} ({total} amostras)")
+    return path_out
+def download_python(max_samples=15000):
+    """2. Tested-22k-Python-Alpaca — Código Python."""
+    from datasets import load_dataset
+    path_out = os.path.join(OUTPUT_DIR, "python_15k.jsonl")
+    if os.path.exists(path_out):
+        linhas = sum(1 for _ in open(path_out))
+        print(f"⏭️  Python já existe: {path_out} ({linhas} linhas)")
+        return path_out
+    print("\n" + "=" * 60)
+    print("📥 Baixando Tested-22k-Python-Alpaca...")
+    print("=" * 60)
+    ds = load_dataset('Vezora/Tested-22k-Python-Alpaca', split='train')
+    print(f"   Dataset total: {len(ds)} amostras")
+    print(f"   Colunas: {ds.column_names}")
+    total = 0
+    with open(path_out, 'w', encoding='utf-8') as f:
+        for item in ds:
+            instruction = (item.get('instruction', '') or
+                          item.get('input', '') or '')
+            output = (item.get('output', '') or
+                     item.get('response', '') or '')
+            if not filtrar_qualidade(output, min_chars=80):
+                continue
+            formatted = formatar_chatml(
+                instruction, output,
+                system_msg="Você é CROM-IA, especialista em Python. Responda com código e explicações claras."
+            )
+            f.write(json.dumps(formatted, ensure_ascii=False) + '\n')
+            total += 1
+            if total >= max_samples:
+                break
+    print(f"✅ Python salvo: {path_out} ({total} amostras)")
+    return path_out
+def download_openhermes(max_samples=10000):
+    """3. OpenHermes-2.5 — Top 10K (para traduzir depois)."""
+    from datasets import load_dataset
+    path_out = os.path.join(OUTPUT_DIR, "openhermes_10k_en.jsonl")
+    if os.path.exists(path_out):
+        linhas = sum(1 for _ in open(path_out))
+        print(f"⏭️  OpenHermes já existe: {path_out} ({linhas} linhas)")
+        return path_out
+    print("\n" + "=" * 60)
+    print("📥 Baixando OpenHermes-2.5 (top 10K)...")
+    print("=" * 60)
+    ds = load_dataset('teknium/OpenHermes-2.5', split='train')
+    print(f"   Dataset total: {len(ds)} amostras")
+    print(f"   Colunas: {ds.column_names}")
+    # Filtrar respostas longas e ricas (qualidade GPT-4)
+    candidatos = []
+    for item in ds:
+        conversations = item.get('conversations', [])
+        if len(conversations) < 2:
+            continue
+        # Pegar a última resposta do assistant
+        instruction = ""
+        output = ""
+        for msg in conversations:
+            role = msg.get('from', msg.get('role', ''))
+            value = msg.get('value', msg.get('content', ''))
+            if role in ('human', 'user'):
+                instruction = value
+            elif role in ('gpt', 'assistant'):
+                output = value
+        if not instruction or not output:
+            continue
+        if len(output) < 200:  # Só respostas ricas
+            continue
+        candidatos.append({
+            'instruction': instruction,
+            'output': output,
+            'length': len(output)
+        })
+    # Ordenar por tamanho (respostas mais ricas primeiro)
+    candidatos.sort(key=lambda x: x['length'], reverse=True)
+    candidatos = candidatos[:max_samples]
+    print(f"   Filtrados: {len(candidatos)} amostras (> 200 chars)")
+    total = 0
+    with open(path_out, 'w', encoding='utf-8') as f:
+        for item in candidatos:
+            # Salvar em EN (traduzir depois com tradutor_batch_argos.py)
+            entry = {
+                'instruction': item['instruction'],
+                'output': item['output'],
+            }
+            f.write(json.dumps(entry, ensure_ascii=False) + '\n')
+            total += 1
+    print(f"✅ OpenHermes EN salvo: {path_out} ({total} amostras)")
+    print(f"   ⚠️  ATENÇÃO: Precisa traduzir com tradutor_batch_argos.py!")
+    return path_out
+def main():
+    print("\n" + "=" * 60)
+    print("🧬 CROM-IA V4.2 — Download de Datasets Reais")
+    print(f"   Saída: {OUTPUT_DIR}")
+    print("=" * 60)
+    try:
+        from datasets import load_dataset
+    except ImportError:
+        print("❌ Biblioteca 'datasets' não instalada!")
+        print("   pip install datasets")
+        sys.exit(1)
+    # 1. Canarim (PT-BR nativo)
+    path_canarim = download_canarim(30000)
+    # 2. Python
+    path_python = download_python(15000)
+    # 3. OpenHermes (EN, para traduzir)
+    path_hermes = download_openhermes(10000)
+    # Relatório final
+    print("\n" + "=" * 60)
+    print("📊 RELATÓRIO FINAL")
+    print("=" * 60)
+    paths = [path_canarim, path_python, path_hermes]
+    for p in paths:
+        if p and os.path.exists(p):
+            linhas = sum(1 for _ in open(p))
+            tamanho = os.path.getsize(p) / (1024 * 1024)
+            print(f"   ✅ {os.path.basename(p)}: {linhas} amostras ({tamanho:.1f} MB)")
+    print("\n📋 PRÓXIMOS PASSOS (NO COLAB):")
+    print("   Suba o `openhermes_10k_en.jsonl` para o Google Colab.")
+    print("   Execute a tradução LA COM GPU para evitar travamento local.")
+    print("   Depois, realize a geração do codebook e DNA localmente no dataset traduzido.")
+    print("   5. Enviar para Colab!")
+if __name__ == "__main__":
+    main()

1_extracao_local/gerador_codebook_v42.py ADDED Viewed

	@@ -0,0 +1,284 @@

+#!/usr/bin/env python3
+"""
+CROM-IA V4.2 — Gerador de Codebook Hierárquico (Data-Driven)
+=============================================================
+Filosofia Crompressor: comprimir o que é REALMENTE repetido nos dados.
+DNA em 3 NÍVEIS hierárquicos:
+  W (Word)      = palavras isoladas frequentes     → @@GWA
+  F (Phrase)    = frases de 2-8 palavras repetidas  → @@GFA
+  P (Paragraph) = blocos de 8-20 palavras           → @@GPA
+Economia REAL: score = frequência × (len(texto) - len(token_dna))
+Um parágrafo inteiro que se repete 50x vale MUITO mais que uma palavra.
+"""
+import json
+import re
+import sys
+import os
+from collections import Counter
+import math
+def tokenizar(texto):
+    """Tokeniza texto preservando estrutura (palavras + pontuação + espaços)."""
+    return re.findall(r'\w+|\s+|[^\w\s]', texto)
+def extrair_ngrams(texto, min_n, max_n):
+    """Extrai n-grams via sliding window (core do Crompressor)."""
+    tokens = tokenizar(texto)
+    ngrams = []
+    for n in range(min_n, max_n + 1):
+        for i in range(len(tokens) - n + 1):
+            chunk = "".join(tokens[i:i + n])
+            chunk_limpo = chunk.strip()
+            if len(chunk_limpo) >= 4:
+                ngrams.append(chunk_limpo)
+    return ngrams
+def analisar_dataset(path_dataset, max_linhas=50000):
+    """
+    Fase 1 do Crompressor: Mineração de frequência REAL.
+    3 níveis hierárquicos:
+      - Palavras: tokens individuais
+      - Frases: 2-8 tokens combinados
+      - Blocos: 8-20 tokens (parágrafos repetidos)
+    """
+    print(f"🔬 Analisando frequência real do dataset: {path_dataset}")
+    cnt_palavras = Counter()
+    cnt_frases = Counter()
+    cnt_blocos = Counter()
+    linhas = 0
+    with open(path_dataset, "r", encoding="utf-8") as f:
+        for line in f:
+            try:
+                data = json.loads(line.strip())
+                # Suporta múltiplos formatos
+                texto = (data.get("output", "") or
+                        data.get("text", "") or
+                        data.get("response", "") or "")
+                # Se for ChatML, extrair o conteúdo do assistant
+                if "<|im_start|>assistant" in texto:
+                    match = re.search(r'<\|im_start\|>assistant\n(.*?)(<\|im_end\|>|$)',
+                                      texto, re.DOTALL)
+                    if match:
+                        texto = match.group(1)
+            except json.JSONDecodeError:
+                texto = line.strip()
+            if not texto:
+                continue
+            # NÍVEL 1 — Palavras individuais (frequência bruta)
+            palavras = re.findall(r'\b\w{4,}\b', texto.lower())
+            cnt_palavras.update(palavras)
+            # NÍVEL 2 — Frases (3-8 palavras)
+            # Frases que se repetem entre múltiplas amostras = alto valor
+            for bloco in texto.split("\n"):
+                bloco = bloco.strip()
+                if len(bloco) > 20:
+                    cnt_frases.update(extrair_ngrams(bloco, 3, 8))
+            # NÍVEL 3 — Blocos/Parágrafos (8-20 palavras)
+            # Parágrafos inteiros repetidos = MÁXIMA economia
+            for bloco in texto.split("\n"):
+                bloco = bloco.strip()
+                if len(bloco) > 60:
+                    cnt_blocos.update(extrair_ngrams(bloco, 8, 16))
+                # Também indexar o parágrafo inteiro se não for muito longo
+                if 60 < len(bloco) < 300:
+                    cnt_blocos[bloco] += 1
+            linhas += 1
+            if linhas >= max_linhas:
+                break
+    print(f"   Linhas analisadas: {linhas}")
+    print(f"   Palavras únicas: {len(cnt_palavras)}")
+    print(f"   Frases únicas: {len(cnt_frases)}")
+    print(f"   Blocos únicos: {len(cnt_blocos)}")
+    return cnt_palavras, cnt_frases, cnt_blocos
+def ranquear_por_economia(contador, min_freq=5):
+    """
+    Fase 2: Ranquear por ECONOMIA REAL de bytes.
+    Score = frequência × (len(texto) - len(token_dna))
+    Um parágrafo de 200 chars × 50 vezes = 10.000 bytes economizados!
+    """
+    TOKEN_DNA_SIZE = 6  # @@XXYY = 6 bytes médio
+    candidatos = []
+    for texto, freq in contador.items():
+        if freq < min_freq:
+            continue
+        economia_por_hit = len(texto) - TOKEN_DNA_SIZE
+        if economia_por_hit <= 0:
+            continue
+        score = freq * economia_por_hit
+        candidatos.append({
+            "texto": texto,
+            "freq": freq,
+            "tamanho": len(texto),
+            "economia_por_hit": economia_por_hit,
+            "score_total": score,
+        })
+    candidatos.sort(key=lambda x: x["score_total"], reverse=True)
+    return candidatos
+def gerar_hash_radix4(idx):
+    """Gera sufixo DNA usando base Radix-4 (A, T, C, G)."""
+    radix = ['A', 'T', 'C', 'G']
+    if idx < 4:
+        return radix[idx]
+    elif idx < 16:
+        return radix[idx // 4] + radix[idx % 4]
+    elif idx < 64:
+        return radix[(idx // 16) % 4] + radix[(idx // 4) % 4] + radix[idx % 4]
+    else:
+        return (radix[(idx // 64) % 4] + radix[(idx // 16) % 4] +
+                radix[(idx // 4) % 4] + radix[idx % 4])
+def gerar_codebook(path_dataset, path_saida, sigla_dominio="G", max_tokens=200,
+                   min_freq=5, distribuicao=None):
+    """
+    Pipeline completo Crompressor → Codebook DNA Hierárquico.
+    1. Minera frequência real
+    2. Ranqueia por economia de bytes
+    3. Gera codebook em 3 níveis (W, F, P) com hash Radix-4
+    """
+    if distribuicao is None:
+        # Distribuição padrão: 40% palavras, 40% frases, 20% blocos
+        distribuicao = (0.4, 0.4, 0.2)
+    print(f"\n{'='*60}")
+    print(f"🧬 CROM-IA V4.2 — Gerador de Codebook Hierárquico")
+    print(f"   Domínio: {sigla_dominio}")
+    print(f"   Dataset: {os.path.basename(path_dataset)}")
+    print(f"   Max tokens: {max_tokens}")
+    print(f"   Distribuição: W={distribuicao[0]*100:.0f}% F={distribuicao[1]*100:.0f}% P={distribuicao[2]*100:.0f}%")
+    print(f"{'='*60}\n")
+    # Fase 1: Minerar
+    cnt_palavras, cnt_frases, cnt_blocos = analisar_dataset(path_dataset)
+    # Fase 2: Ranquear por economia
+    rank_palavras = ranquear_por_economia(cnt_palavras, min_freq)
+    rank_frases = ranquear_por_economia(cnt_frases, min_freq)
+    rank_blocos = ranquear_por_economia(cnt_blocos, min_freq=3)
+    # Fase 3: Distribuir tokens por hierarquia
+    n_palavras = int(max_tokens * distribuicao[0])
+    n_frases = int(max_tokens * distribuicao[1])
+    n_blocos = max_tokens - n_palavras - n_frases
+    codebook = {}
+    stats = {"economia_total_estimada": 0, "por_nivel": {}}
+    idx = 0
+    # W (Words)
+    economia_w = 0
+    for entry in rank_palavras[:n_palavras]:
+        sufixo = gerar_hash_radix4(idx)
+        chave = f"@@{sigla_dominio}W{sufixo}"
+        codebook[entry["texto"]] = chave
+        economia_w += entry["score_total"]
+        idx += 1
+    stats["por_nivel"]["W_palavras"] = {"tokens": min(len(rank_palavras), n_palavras),
+                                         "economia": economia_w}
+    # F (Phrases)
+    economia_f = 0
+    idx_f = 0
+    for entry in rank_frases[:n_frases]:
+        if entry["texto"] not in codebook:
+            sufixo = gerar_hash_radix4(idx_f)
+            chave = f"@@{sigla_dominio}F{sufixo}"
+            codebook[entry["texto"]] = chave
+            economia_f += entry["score_total"]
+            idx_f += 1
+    stats["por_nivel"]["F_frases"] = {"tokens": idx_f, "economia": economia_f}
+    # P (Paragraphs/Blocks)
+    economia_p = 0
+    idx_p = 0
+    for entry in rank_blocos[:n_blocos]:
+        if entry["texto"] not in codebook:
+            sufixo = gerar_hash_radix4(idx_p)
+            chave = f"@@{sigla_dominio}P{sufixo}"
+            codebook[entry["texto"]] = chave
+            economia_p += entry["score_total"]
+            idx_p += 1
+    stats["por_nivel"]["P_blocos"] = {"tokens": idx_p, "economia": economia_p}
+    stats["economia_total_estimada"] = economia_w + economia_f + economia_p
+    # Salvar codebook
+    payload = {
+        "version": "4.2",
+        "domain": sigla_dominio,
+        "method": "hierarchical_frequency_x_size",
+        "total_tokens": len(codebook),
+        "niveis": {
+            "W": "palavras isoladas",
+            "F": "frases (2-8 palavras)",
+            "P": "parágrafos/blocos (8-20 palavras)"
+        },
+        "economia_bytes_estimada": stats["economia_total_estimada"],
+        "stats": stats,
+        "codebook": codebook,
+    }
+    with open(path_saida, "w", encoding="utf-8") as f:
+        json.dump(payload, f, ensure_ascii=False, indent=2)
+    # Relatório
+    print(f"\n📊 RELATÓRIO DO CODEBOOK HIERÁRQUICO:")
+    print(f"   Tokens gerados: {len(codebook)}")
+    print(f"   ├── W (palavras): {stats['por_nivel']['W_palavras']['tokens']} "
+          f"({stats['por_nivel']['W_palavras']['economia']:,} bytes)")
+    print(f"   ├── F (frases):   {stats['por_nivel']['F_frases']['tokens']} "
+          f"({stats['por_nivel']['F_frases']['economia']:,} bytes)")
+    print(f"   └── P (blocos):   {stats['por_nivel']['P_blocos']['tokens']} "
+          f"({stats['por_nivel']['P_blocos']['economia']:,} bytes)")
+    print(f"   Economia total: {stats['economia_total_estimada']:,} bytes")
+    print(f"\n   Top 5 maior economia:")
+    top5 = sorted(
+        [(k, v) for k, v in codebook.items()],
+        key=lambda x: len(x[0]),
+        reverse=True
+    )[:5]
+    for texto, token in top5:
+        nivel = "BLOCO" if len(texto) > 50 else "FRASE" if len(texto) > 15 else "WORD"
+        print(f"     [{nivel}] '{texto[:60]}' → {token}")
+    print(f"\n   Salvo em: {path_saida}")
+    return codebook
+if __name__ == "__main__":
+    if len(sys.argv) < 4:
+        print("CROM-IA V4.2 — Gerador de Codebook Hierárquico")
+        print(f"Uso: python3 {sys.argv[0]} <sigla> <dataset.jsonl> <saida.json> [max_tokens]")
+        print(f"Exemplo: python3 {sys.argv[0]} P python_15k.jsonl codebook_python.json 200")
+        print(f"\nSignas: P=Python, M=Medicina, G=Geral, C=Conversa")
+        sys.exit(1)
+    sigla = sys.argv[1]
+    dataset = sys.argv[2]
+    saida = sys.argv[3]
+    max_tok = int(sys.argv[4]) if len(sys.argv) > 4 else 200
+    gerar_codebook(dataset, saida, sigla, max_tok)

1_extracao_local/gerador_pares_dpo.py ADDED Viewed

	@@ -0,0 +1,180 @@

+#!/usr/bin/env python3
+"""
+CROM-IA V4.2 — Gerador de Pares DPO (Direct Preference Optimization)
+=====================================================================
+Gera pares {prompt, chosen, rejected} automaticamente:
+  - chosen  = resposta com DNA aplicado (25%) — preferida
+  - rejected = resposta original sem DNA — rejeitada
+O modelo aprende a PREFERIR usar DNA quando oportuno.
+"""
+import json
+import os
+import sys
+import random
+import re
+from collections import Counter
+SCRIPT_DIR = os.path.dirname(os.path.abspath(__file__))
+def carregar_codebook(path_codebook):
+    """Carrega codebook DNA."""
+    if path_codebook and os.path.exists(path_codebook):
+        with open(path_codebook, "r") as f:
+            data = json.load(f)
+        if "codebook" in data and isinstance(data["codebook"], dict):
+            return data["codebook"]
+        return data
+    return {}
+def aplicar_mutacao_dna(texto, codebook, taxa=0.25):
+    """Aplica DNA apenas a uma fração das palavras-chave encontradas."""
+    resultado = texto
+    matches_encontrados = 0
+    matches_mutados = 0
+    for palavra, token_dna in codebook.items():
+        ocorrencias = len(re.findall(re.escape(palavra), resultado, re.IGNORECASE))
+        if ocorrencias > 0:
+            matches_encontrados += ocorrencias
+            # Aplicar DNA a cada ocorrência com probabilidade
+            def substituir_com_prob(match):
+                nonlocal matches_mutados
+                if random.random() < taxa:
+                    matches_mutados += 1
+                    return token_dna
+                return match.group(0)
+            pattern = re.compile(re.escape(palavra), re.IGNORECASE)
+            resultado = pattern.sub(substituir_com_prob, resultado)
+    return resultado, matches_mutados
+def extrair_instrucao_output(entry):
+    """Extrai instrução e output de múltiplos formatos."""
+    # Formato ChatML
+    if "text" in entry and "<|im_start|>" in entry.get("text", ""):
+        text = entry["text"]
+        user_match = re.search(r'<\|im_start\|>user\n(.*?)<\|im_end\|>', text, re.DOTALL)
+        asst_match = re.search(r'<\|im_start\|>assistant\n(.*?)<\|im_end\|>', text, re.DOTALL)
+        instruction = user_match.group(1).strip() if user_match else ""
+        output = asst_match.group(1).strip() if asst_match else ""
+        return instruction, output
+    # Formato instrução/output
+    instruction = (entry.get('instruction', '') or
+                  entry.get('input', '') or
+                  entry.get('prompt', '') or '')
+    output = (entry.get('output', '') or
+             entry.get('response', '') or
+             entry.get('completion', '') or '')
+    return instruction.strip(), output.strip()
+def gerar_pares_dpo(path_input, path_output, codebook, max_pares=5000,
+                     taxa_dna=0.25, min_dna_tokens=3, min_output_chars=100):
+    """
+    Pipeline de geração de pares DPO.
+    chosen = output com DNA
+    rejected = output original
+    """
+    print(f"\n{'='*60}")
+    print(f"🧬 CROM-IA V4.2 — Gerador de Pares DPO")
+    print(f"   Input: {os.path.basename(path_input)}")
+    print(f"   Taxa DNA: {taxa_dna*100:.0f}%")
+    print(f"   Max pares: {max_pares}")
+    print(f"{'='*60}\n")
+    total_lidos = 0
+    total_pares = 0
+    total_rejeitados_curtos = 0
+    total_rejeitados_sem_dna = 0
+    with open(path_input, "r", encoding="utf-8") as fin, \
+         open(path_output, "w", encoding="utf-8") as fout:
+        for line in fin:
+            if total_pares >= max_pares:
+                break
+            try:
+                entry = json.loads(line.strip())
+            except json.JSONDecodeError:
+                continue
+            total_lidos += 1
+            instruction, output = extrair_instrucao_output(entry)
+            if not instruction or not output:
+                continue
+            # Filtro: output mínimo
+            if len(output) < min_output_chars:
+                total_rejeitados_curtos += 1
+                continue
+            # Gerar chosen (com DNA)
+            chosen, num_dna = aplicar_mutacao_dna(output, codebook, taxa=taxa_dna)
+            # Filtro: precisa ter DNA suficiente
+            if num_dna < min_dna_tokens:
+                total_rejeitados_sem_dna += 1
+                continue
+            # chosen e rejected devem ser DIFERENTES
+            if chosen == output:
+                total_rejeitados_sem_dna += 1
+                continue
+            # Formato DPO
+            par = {
+                "prompt": instruction,
+                "chosen": chosen,
+                "rejected": output,
+            }
+            fout.write(json.dumps(par, ensure_ascii=False) + "\n")
+            total_pares += 1
+    print(f"📊 RELATÓRIO DPO:")
+    print(f"   Amostras lidas: {total_lidos}")
+    print(f"   Pares gerados: {total_pares}")
+    print(f"   Rejeitados (curtos): {total_rejeitados_curtos}")
+    print(f"   Rejeitados (sem DNA suficiente): {total_rejeitados_sem_dna}")
+    print(f"   Taxa de conversão: {total_pares/max(total_lidos,1)*100:.1f}%")
+    print(f"\n   Salvo em: {path_output}")
+    return total_pares
+if __name__ == "__main__":
+    import argparse
+    parser = argparse.ArgumentParser(description="CROM-IA V4.2 — Gerador de Pares DPO")
+    parser.add_argument('--input', required=True, help='Dataset de entrada (.jsonl)')
+    parser.add_argument('--codebook', required=True, help='Codebook DNA (.json)')
+    parser.add_argument('--output', default=None, help='Saída (.jsonl)')
+    parser.add_argument('--max_pares', type=int, default=5000, help='Máximo de pares (default: 5000)')
+    parser.add_argument('--taxa_dna', type=float, default=0.25, help='Taxa de DNA (default: 0.25)')
+    parser.add_argument('--min_dna', type=int, default=3, help='Mínimo de tokens DNA por par (default: 3)')
+    args = parser.parse_args()
+    if not args.output:
+        base = os.path.splitext(os.path.basename(args.input))[0]
+        args.output = os.path.join(SCRIPT_DIR, "datasets_hibridos",
+                                   f"dataset_DPO_{base}.jsonl")
+    codebook = carregar_codebook(args.codebook)
+    if not codebook:
+        print("❌ Codebook vazio ou não encontrado!")
+        sys.exit(1)
+    print(f"📖 Codebook: {len(codebook)} tokens DNA carregados")
+    gerar_pares_dpo(args.input, args.output, codebook,
+                     max_pares=args.max_pares, taxa_dna=args.taxa_dna,
+                     min_dna_tokens=args.min_dna)

1_extracao_local/tradutor_batch_argos.py ADDED Viewed

	@@ -0,0 +1,243 @@

+#!/usr/bin/env python3
+"""
+CROM-IA V4.2 — Tradutor Batch EN→PT com Argos Translate
+========================================================
+Traduz datasets do inglês para português offline.
+Features:
+  - Checkpoint a cada 500 frases (resume se interromper)
+  - Progress bar simples
+  - Formata em ChatML
+"""
+import json
+import os
+import sys
+import time
+# ======= SEGURANÇA SRE (FAIL FAST) =======
+# Foi detectado que rodar a tradução local trava a máquina via CPU lockup.
+# O ArgosTranslate carrega um modelo OpenNMT pesado. Deve ser rodado NO COLAB (A100).
+if not os.path.exists('/content'):
+    print("\n" + "="*60)
+    print("🚨 ALERTA SRE: RISCO DE TRAVAMENTO LOCAL 🚨")
+    print("="*60)
+    print("A tradução iterativa de 10.000 amostras através de modelos OpenNMT irá sufocar")
+    print("a CPU desta máquina e causar um lockup do SO (RAM/Swap leak).")
+    print("\n✅ AÇÃO CORRETIVA: Este script deve ser acoplado no Jupyter Notebook do Colab")
+    print("e executado na Nuvem junto às rotinas de preparação do Treinamento.")
+    print("="*60 + "\n")
+    sys.exit(1)
+# ==========================================
+SCRIPT_DIR = os.path.dirname(os.path.abspath(__file__))
+OUTPUT_DIR = os.path.join(SCRIPT_DIR, "datasets_hibridos")
+CHECKPOINT_INTERVAL = 500
+def instalar_modelo_argos():
+    """Instala o modelo en→pt do Argos Translate."""
+    try:
+        import argostranslate.package
+        import argostranslate.translate
+    except ImportError:
+        print("❌ argostranslate não instalado!")
+        print("   pip install argostranslate")
+        sys.exit(1)
+    # Verificar se já tem o modelo en→pt
+    installed = argostranslate.translate.get_installed_languages()
+    lang_codes = [l.code for l in installed]
+    if 'en' in lang_codes and 'pt' in lang_codes:
+        print("✅ Modelo en→pt já instalado")
+        return
+    print("📥 Baixando modelo en→pt do Argos (~50MB)...")
+    argostranslate.package.update_package_index()
+    available = argostranslate.package.get_available_packages()
+    pkg = next((p for p in available if p.from_code == 'en' and p.to_code == 'pt'), None)
+    if pkg:
+        pkg.install()
+        print("✅ Modelo instalado!")
+    else:
+        print("❌ Modelo en→pt não encontrado no Argos")
+        sys.exit(1)
+def traduzir_texto(texto, tradutor):
+    """Traduz um texto curto de EN para PT."""
+    if not texto or not isinstance(texto, str):
+        return texto
+    # Argos funciona melhor com textos curtos
+    # Dividir em parágrafos para manter qualidade
+    paragrafos = texto.split('\n')
+    traduzidos = []
+    for paragrafo in paragrafos:
+        paragrafo = paragrafo.strip()
+        if not paragrafo:
+            traduzidos.append('')
+            continue
+        # Se parece código, não traduzir
+        if any(kw in paragrafo for kw in ['def ', 'class ', 'import ', 'return ',
+                                            'if __name__', '```', '   ', '{', '}']):
+            traduzidos.append(paragrafo)
+            continue
+        try:
+            trad = tradutor.translate(paragrafo)
+            traduzidos.append(trad)
+        except Exception:
+            traduzidos.append(paragrafo)  # Fallback: manter original
+    return '\n'.join(traduzidos)
+def formatar_chatml(instruction, output):
+    """Formata em ChatML."""
+    system_msg = "Você é CROM-IA, um assistente inteligente brasileiro."
+    texto = (
+        f"<|im_start|>system\n{system_msg}<|im_end|>\n"
+        f"<|im_start|>user\n{instruction}<|im_end|>\n"
+        f"<|im_start|>assistant\n{output}<|im_end|>"
+    )
+    return {"text": texto}
+def progress_bar(current, total, prefix='', length=40):
+    """Progress bar simples no terminal."""
+    percent = current / max(total, 1) * 100
+    filled = int(length * current / max(total, 1))
+    bar = '█' * filled + '░' * (length - filled)
+    sys.stdout.write(f'\r   {prefix} |{bar}| {current}/{total} ({percent:.1f}%)')
+    sys.stdout.flush()
+def traduzir_dataset(path_input, path_output=None, max_amostras=10000):
+    """Traduz dataset EN→PT com checkpoint e resumo."""
+    import argostranslate.translate
+    if not path_output:
+        base = os.path.splitext(os.path.basename(path_input))[0]
+        path_output = os.path.join(OUTPUT_DIR, f"{base}_ptbr.jsonl")
+    checkpoint_file = path_output + ".checkpoint"
+    # Obter tradutor
+    tradutor = argostranslate.translate.get_translation_from_codes('en', 'pt')
+    if not tradutor:
+        print("❌ Tradutor en→pt não disponível")
+        sys.exit(1)
+    # Verificar checkpoint
+    start_line = 0
+    if os.path.exists(checkpoint_file):
+        with open(checkpoint_file, 'r') as f:
+            start_line = int(f.read().strip())
+        print(f"📋 Resumindo do checkpoint: linha {start_line}")
+    # Contar total
+    with open(path_input, 'r') as f:
+        total_linhas = sum(1 for _ in f)
+    total_linhas = min(total_linhas, max_amostras)
+    print(f"\n{'='*60}")
+    print(f"🌐 CROM-IA V4.2 — Tradução EN→PT")
+    print(f"   Input: {os.path.basename(path_input)}")
+    print(f"   Total: {total_linhas} amostras")
+    print(f"   Início: linha {start_line}")
+    print(f"{'='*60}\n")
+    total_traduzidas = start_line
+    mode = 'a' if start_line > 0 else 'w'
+    t_start = time.time()
+    with open(path_input, 'r', encoding='utf-8') as fin, \
+         open(path_output, mode, encoding='utf-8') as fout:
+        for i, line in enumerate(fin):
+            if i < start_line:
+                continue
+            if total_traduzidas >= max_amostras:
+                break
+            try:
+                entry = json.loads(line.strip())
+            except json.JSONDecodeError:
+                continue
+            instruction = entry.get('instruction', entry.get('input', ''))
+            output = entry.get('output', entry.get('response', ''))
+            if not instruction or not output:
+                continue
+            # Traduzir
+            instruction_pt = traduzir_texto(instruction, tradutor)
+            output_pt = traduzir_texto(output, tradutor)
+            # Formatar e salvar
+            formatted = formatar_chatml(instruction_pt, output_pt)
+            fout.write(json.dumps(formatted, ensure_ascii=False) + '\n')
+            total_traduzidas += 1
+            progress_bar(total_traduzidas, total_linhas, 'Traduzindo')
+            # Checkpoint
+            if total_traduzidas % CHECKPOINT_INTERVAL == 0:
+                with open(checkpoint_file, 'w') as cf:
+                    cf.write(str(total_traduzidas))
+                fout.flush()
+    elapsed = time.time() - t_start
+    rate = (total_traduzidas - start_line) / max(elapsed, 1)
+    print(f"\n\n✅ Tradução concluída!")
+    print(f"   Total traduzidas: {total_traduzidas}")
+    print(f"   Tempo: {elapsed/60:.1f} minutos")
+    print(f"   Velocidade: {rate:.1f} amostras/segundo")
+    print(f"   Saída: {path_output}")
+    # Limpar checkpoint
+    if os.path.exists(checkpoint_file):
+        os.remove(checkpoint_file)
+    return path_output
+def main():
+    import argparse
+    parser = argparse.ArgumentParser(description="CROM-IA V4.2 — Tradutor Batch EN→PT")
+    parser.add_argument('--input', default=None,
+                        help='Dataset EN (.jsonl). Default: openhermes_10k_en.jsonl')
+    parser.add_argument('--output', default=None, help='Saída PT (.jsonl)')
+    parser.add_argument('--max', type=int, default=10000, help='Max amostras (default: 10000)')
+    parser.add_argument('--install-only', action='store_true',
+                        help='Apenas instalar o modelo en→pt')
+    args = parser.parse_args()
+    # Instalar modelo
+    instalar_modelo_argos()
+    if args.install_only:
+        print("✅ Modelo instalado. Pronto para traduzir.")
+        return
+    # Default input
+    if not args.input:
+        args.input = os.path.join(OUTPUT_DIR, "openhermes_10k_en.jsonl")
+    if not os.path.exists(args.input):
+        print(f"❌ Arquivo não encontrado: {args.input}")
+        print(f"   Execute primeiro: python3 download_datasets_v42.py")
+        sys.exit(1)
+    traduzir_dataset(args.input, args.output, args.max)
+if __name__ == "__main__":
+    main()

1_extracao_local/transpilador_v42.py ADDED Viewed

	@@ -0,0 +1,143 @@

+#!/usr/bin/env python3
+"""
+CROM-IA V4.2 — Transpilador DNA (Taxa 25%, corrigido)
+=====================================================
+Mudança vs V4.1: TAXA_MUTACAO = 0.25 (era 0.75)
+Formato: Chat Template ChatML com system prompt DNA explícito
+"""
+import json
+import random
+import re
+import os
+import sys
+# ══════════════════════════════════════════════════════════════
+# CONFIGURAÇÃO V4.2 — DNA CONSERVADOR
+# ══════════════════════════════════════════════════════════════
+TAXA_MUTACAO = 0.25  # 25% mutante (V4.1 era 75% — causou catastrophic forgetting!)
+# Codebook DNA padrão (será carregado externamente em produção)
+CODEBOOK_PADRAO = {
+    # Python
+    "import": "@@IMP", "def": "@@DEF", "return": "@@RET",
+    "print": "@@PRT", "class": "@@CLS", "self": "@@SLF",
+    "function": "@@FNC", "variable": "@@VAR", "string": "@@STR",
+    "list": "@@LST", "dict": "@@DCT", "tuple": "@@TPL",
+    "for": "@@FOR", "while": "@@WHL", "if": "@@IFF",
+    "else": "@@ELS", "elif": "@@ELF", "try": "@@TRY",
+    "except": "@@EXC", "finally": "@@FNL", "with": "@@WTH",
+    "lambda": "@@LMB", "yield": "@@YLD", "async": "@@ASY",
+    "await": "@@AWT", "True": "@@TRU", "False": "@@FAL",
+    "None": "@@NON", "and": "@@AND", "or": "@@ORR",
+    # Medicina
+    "paciente": "@@PAC", "diagnóstico": "@@DGN", "tratamento": "@@TRT",
+    "sintoma": "@@SNT", "doença": "@@DOE", "medicamento": "@@MED",
+    "exame": "@@EXM", "cirurgia": "@@CIR", "hospital": "@@HSP",
+    "médico": "@@MDC", "enfermeiro": "@@ENF", "receita": "@@RCT",
+    "febre": "@@FBR", "dor": "@@DOR", "sangue": "@@SNG",
+    "coração": "@@CRC", "pulmão": "@@PLM", "fígado": "@@FGD",
+    "rim": "@@RIM", "cérebro": "@@CRB", "osso": "@@OSS",
+    # Geral PT-BR
+    "porque": "@@PQE", "quando": "@@QND", "como": "@@CMO",
+    "onde": "@@OND", "sempre": "@@SMP", "também": "@@TBM",
+    "muito": "@@MTO", "pouco": "@@PCO", "grande": "@@GRD",
+    "pequeno": "@@PQN", "exemplo": "@@EXP", "resultado": "@@RES",
+}
+def carregar_codebook(path_codebook):
+    """Carrega codebook DNA de arquivo JSON externo."""
+    if path_codebook and os.path.exists(path_codebook):
+        with open(path_codebook, "r") as f:
+            data = json.load(f)
+        if "codebook" in data and isinstance(data["codebook"], dict):
+            return data["codebook"]
+        return data
+    return CODEBOOK_PADRAO
+def aplicar_mutacao_dna(texto, codebook):
+    """Substitui palavras-chave por tokens DNA comprimidos."""
+    resultado = texto
+    for palavra, token_dna in codebook.items():
+        pattern = re.compile(re.escape(palavra), re.IGNORECASE)
+        resultado = pattern.sub(token_dna, resultado)
+    return resultado
+def formatar_chat_template(instruction, output, usar_dna=False, codebook=None):
+    """V4.2: ChatML com system prompt DNA. DNA a 25% (conservador)."""
+    if usar_dna and codebook:
+        output_final = aplicar_mutacao_dna(output, codebook)
+        system_msg = "Você é CROM-IA. Use tokens @@DNA quando apropriado para comprimir respostas."
+    else:
+        output_final = output
+        system_msg = "Você é CROM-IA, um assistente inteligente brasileiro."
+    texto_completo = (
+        f"<|im_start|>system\n{system_msg}<|im_end|>\n"
+        f"<|im_start|>user\n{instruction}<|im_end|>\n"
+        f"<|im_start|>assistant\n{output_final}<|im_end|>"
+    )
+    return {"text": texto_completo}
+def transpilar_dataset_v42(path_dataset_original, path_saida, codebook, taxa_mutacao=0.25):
+    """Transpilação V4.2: Taxa 25% (conservadora), Chat Template."""
+    total = 0
+    mutados = 0
+    with open(path_dataset_original, "r") as fin, open(path_saida, "w") as fout:
+        for line in fin:
+            try:
+                entry = json.loads(line.strip())
+            except json.JSONDecodeError:
+                continue
+            # Detectar formato (ChatML ou instrução/output)
+            if "text" in entry and "<|im_start|>" in entry.get("text", ""):
+                # Já é ChatML — extrair instruction e output
+                text = entry["text"]
+                user_match = re.search(r'<\|im_start\|>user\n(.*?)<\|im_end\|>', text, re.DOTALL)
+                asst_match = re.search(r'<\|im_start\|>assistant\n(.*?)<\|im_end\|>', text, re.DOTALL)
+                instruction = user_match.group(1) if user_match else ""
+                output = asst_match.group(1) if asst_match else ""
+            else:
+                instruction = entry.get("instruction", entry.get("input", ""))
+                output = entry.get("output", entry.get("response", entry.get("text", "")))
+            if not output:
+                continue
+            usar_dna = random.random() < taxa_mutacao
+            resultado = formatar_chat_template(instruction, output, usar_dna, codebook)
+            fout.write(json.dumps(resultado, ensure_ascii=False) + "\n")
+            total += 1
+            if usar_dna:
+                mutados += 1
+    taxa_real = (mutados / total * 100) if total > 0 else 0
+    print(f"✅ Transpilação V4.2 concluída!")
+    print(f"   Total: {total} | Mutados: {mutados} ({taxa_real:.1f}%)")
+    print(f"   Taxa alvo: {taxa_mutacao*100:.0f}% | Taxa real: {taxa_real:.1f}%")
+    print(f"   Saída: {path_saida}")
+    return total, mutados
+if __name__ == "__main__":
+    if len(sys.argv) < 3:
+        print("CROM-IA V4.2 — Transpilador DNA (25% conservador)")
+        print(f"Uso: python3 {sys.argv[0]} <dataset.jsonl> <saida.jsonl> [codebook.json] [taxa_mutacao]")
+        print(f"Exemplo: python3 {sys.argv[0]} python_15k.jsonl python_DNA25.jsonl codebook.json 0.25")
+        sys.exit(1)
+    path_in = sys.argv[1]
+    path_out = sys.argv[2]
+    path_cb = sys.argv[3] if len(sys.argv) > 3 else None
+    taxa = float(sys.argv[4]) if len(sys.argv) > 4 else TAXA_MUTACAO
+    codebook = carregar_codebook(path_cb)
+    transpilar_dataset_v42(path_in, path_out, codebook, taxa)

2_treinamento_nuvem/01_CROM_V42_TRAINING_FASE1.py ADDED Viewed

	@@ -0,0 +1,169 @@

+#!/usr/bin/env python3
+"""
+CROM-IA V4.2 — FASE 1: SFT Base Conversacional (SEM DNA)
+==========================================================
+COLE ESTE CÓDIGO NO GOOGLE COLAB (A100/T4)
+O modelo aprende a CONVERSAR BEM em PT-BR primeiro.
+Sem DNA, sem tokens @@. Apenas fluência e inteligência.
+Dataset: Canarim 30K + OpenHermes 10K traduzido = ~40K
+Parâmetros: rank 16, 800 steps, lr 1e-5, cosine scheduler
+"""
+# ══════════════════════════════════════════════════════════════
+# CÉLULA 1 — INSTALAÇÃO (rodar primeiro, esperar terminar)
+# ══════════════════════════════════════════════════════════════
+CELULA_1_INSTALACAO = """
+!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
+!pip install trl>=0.7.0
+"""
+# ══════════════════════════════════════════════════════════════
+# CÉLULA 2 — TREINO FASE 1 (copiar e colar no Colab)
+# ══════════════════════════════════════════════════════════════
+CELULA_2_TREINO = """
+import os, gc, torch
+from unsloth import FastLanguageModel, is_bfloat16_supported
+from trl import SFTTrainer
+from transformers import TrainingArguments
+from datasets import load_dataset
+# ════════════════════════════════════════════════
+# CONFIGURAÇÃO V4.2 — FASE 1 (SEM DNA)
+# ════════════════════════════════════════════════
+max_seq_length = 2048
+qwen_base = "unsloth/Qwen3-0.6B-unsloth-bnb-4bit"
+print("=" * 60)
+print("🧠 CROM-IA V4.2 — FASE 1: Base Conversacional (SEM DNA)")
+print("   Modelo: Qwen3-0.6B")
+print("   Rank: 16 | Steps: 800 | LR: 1e-5")
+print("   DNA: 0% (o modelo aprende a FALAR primeiro)")
+print("=" * 60)
+# ── Montar Drive ──────────────────────────────────────────
+from google.colab import drive
+drive.mount('/content/drive')
+os.makedirs('/content/drive/MyDrive/CROM-V4.2/adapters', exist_ok=True)
+os.makedirs('/content/drive/MyDrive/CROM-V4.2/gguf_merged', exist_ok=True)
+# ── Carregar modelo base ──────────────────────────────────
+print("\\n📦 Carregando Qwen3-0.6B...")
+model, tokenizer = FastLanguageModel.from_pretrained(
+    model_name=qwen_base,
+    max_seq_length=max_seq_length,
+    dtype=None,
+    load_in_4bit=True,
+)
+# ── LoRA conservador (rank 16, SÓ attention) ─────────────
+model = FastLanguageModel.get_peft_model(
+    model,
+    r=16,                    # Era 64 na V4.1 (causou forgetting!)
+    lora_alpha=32,           # 2x rank
+    lora_dropout=0,
+    bias="none",
+    target_modules=[         # SÓ ATTENTION — sem MLP!
+        "q_proj", "k_proj", "v_proj", "o_proj"
+    ],
+    use_gradient_checkpointing="unsloth",
+    random_state=3407,
+)
+# ── Carregar dataset ──────────────────────────────────────
+# Upload dos arquivos para /content/ antes de rodar:
+#   - Base_PTBR.jsonl (nossa fusão local de 40k)
+datasets_fase1 = []
+for arq in ["Base_PTBR.jsonl"]:
+    if os.path.exists(arq):
+        datasets_fase1.append(arq)
+        print(f"   ✅ {arq}")
+    else:
+        print(f"   ⚠️ {arq} não encontrado")
+if not datasets_fase1:
+    raise FileNotFoundError("Nenhum dataset encontrado! Faça upload primeiro.")
+dataset = load_dataset("json", data_files=datasets_fase1, split="train")
+print(f"\\n📊 Dataset Fase 1: {len(dataset)} amostras")
+# ── Formatting ────────────────────────────────────────────
+def formatting_func(example):
+    output = example["text"]
+    if isinstance(output, list):
+        return [str(x) for x in output]
+    return [str(output)]
+# ── Treinar ───────────────────────────────────────────────
+trainer = SFTTrainer(
+    model=model,
+    tokenizer=tokenizer,
+    train_dataset=dataset,
+    formatting_func=formatting_func,
+    max_seq_length=max_seq_length,
+    dataset_num_proc=2,
+    args=TrainingArguments(
+        per_device_train_batch_size=8,       # Era 16 (mais conservador)
+        gradient_accumulation_steps=4,
+        warmup_ratio=0.05,                   # 5% warmup
+        max_steps=800,                       # Era 2000 (causou overfitting!)
+        learning_rate=1e-5,                  # Era 2e-5 (mais suave)
+        lr_scheduler_type="cosine",          # Convergência melhor
+        optim="adamw_8bit",
+        fp16=not is_bfloat16_supported(),
+        bf16=is_bfloat16_supported(),
+        output_dir="./outputs_Base_PTBR",
+        logging_steps=25,
+        save_steps=200,
+    ),
+)
+print("\\n🚀 Iniciando treino Fase 1...")
+trainer.train()
+print("✅ Treino Fase 1 concluído!")
+# ── Salvar adaptador LoRA ─────────────────────────────────
+adapter_dir = "/content/drive/MyDrive/CROM-V4.2/adapters/Base_PTBR"
+os.makedirs(adapter_dir, exist_ok=True)
+model.save_pretrained(adapter_dir)
+tokenizer.save_pretrained(adapter_dir)
+print(f"✅ LoRA Base_PTBR salvo em: {adapter_dir}")
+# ── Salvar GGUF fundido (para testes standalone) ─────────
+gguf_dir = "/content/drive/MyDrive/CROM-V4.2/gguf_merged/Base_PTBR"
+os.makedirs(gguf_dir, exist_ok=True)
+model.save_pretrained_gguf(gguf_dir, tokenizer, quantization_method="q4_k_m")
+print(f"✅ GGUF Base_PTBR salvo em: {gguf_dir}")
+# ── Salvar modelo BASE puro (sem LoRA) para stacking ─────
+print("\\n📦 Salvando modelo BASE puro...")
+del model; del trainer; gc.collect(); torch.cuda.empty_cache()
+base_model, base_tok = FastLanguageModel.from_pretrained(
+    model_name=qwen_base, max_seq_length=max_seq_length,
+    dtype=None, load_in_4bit=True,
+)
+base_dir = "/content/drive/MyDrive/CROM-V4.2/base_model"
+os.makedirs(base_dir, exist_ok=True)
+base_model.save_pretrained_gguf(base_dir, base_tok, quantization_method="q4_k_m")
+del base_model; del base_tok; gc.collect(); torch.cuda.empty_cache()
+print("✅ Modelo base GGUF salvo!")
+print("\\n" + "=" * 60)
+print("🎉 FASE 1 CONCLUÍDA!")
+print("   → Adapters: CROM-V4.2/adapters/Base_PTBR/")
+print("   → GGUF: CROM-V4.2/gguf_merged/Base_PTBR/")
+print("   → Base: CROM-V4.2/base_model/")
+print("\\n   PRÓXIMO: Execute 02_CROM_V42_TRAINING_FASE2.py")
+print("=" * 60)
+"""
+if __name__ == "__main__":
+    print("=" * 60)
+    print("📋 CROM-IA V4.2 — Fase 1: SFT Base")
+    print("=" * 60)
+    print("\n🔧 CÉLULA 1 (Instalação):")
+    print(CELULA_1_INSTALACAO)
+    print("\n🏋️ CÉLULA 2 (Treinamento):")
+    print(CELULA_2_TREINO)

2_treinamento_nuvem/02_CROM_V42_TRAINING_FASE2.py ADDED Viewed

	@@ -0,0 +1,150 @@

+#!/usr/bin/env python3
+"""
+CROM-IA V4.2 — FASE 2: SFT Especialização com DNA 25%
+=======================================================
+COLE ESTE CÓDIGO NO GOOGLE COLAB (A100/T4)
+PRÉ-REQUISITO: Fase 1 já rodou (Base_PTBR treinado)
+O modelo já sabe conversar (Fase 1).
+Agora aprende DNA sutil (25%) por domínio.
+LoRAs: Python_DNA (15K, 500 steps) + Medicina_DNA (8K, 500 steps)
+"""
+# ══════════════════════════════════════════════════════════════
+# CÉLULA 1 — TREINO FASE 2 (copiar e colar no Colab)
+# ══════════════════════════════════════════════════════════════
+CELULA_TREINO = """
+import os, gc, torch
+from unsloth import FastLanguageModel, is_bfloat16_supported
+from trl import SFTTrainer
+from transformers import TrainingArguments
+from datasets import load_dataset
+# ════════════════════════════════════════════════
+# CONFIGURAÇÃO V4.2 — FASE 2 (DNA 25%)
+# ════════════════════════════════════════════════
+max_seq_length = 2048
+qwen_base = "unsloth/Qwen3-0.6B-unsloth-bnb-4bit"
+def formatting_func(example):
+    output = example["text"]
+    if isinstance(output, list):
+        return [str(x) for x in output]
+    return [str(output)]
+def treinar_cerebro_dna(nome_cerebro, path_dataset, max_steps=500):
+    if not os.path.exists(path_dataset):
+        print(f"⚠️ {path_dataset} não encontrado! Pulando...")
+        return
+    print(f"\\n{'='*60}")
+    print(f"🧬 FASE 2: Treinando {nome_cerebro} (DNA 25%)")
+    print(f"   Dataset: {path_dataset}")
+    print(f"   Steps: {max_steps} | Rank: 16 | LR: 1e-5")
+    print(f"{'='*60}")
+    model, tokenizer = FastLanguageModel.from_pretrained(
+        model_name=qwen_base,
+        max_seq_length=max_seq_length,
+        dtype=None,
+        load_in_4bit=True,
+    )
+    # NOTA SRE: Fundir LoRAs em 4-bit no Unsloth via merge_and_unload causa 'BFloat16 != float' (Crash de Type).
+    # O CROM-IA usará Stacking (Empilhamento Local) depois. O Cérebro de Python
+    # DEVE ser treinado sob a camada limpa do Qwen, e o orquestrador Shell somará os 2 LoRAs!
+    # Novo LoRA para especialização DNA
+    model = FastLanguageModel.get_peft_model(
+        model,
+        r=16,
+        lora_alpha=32,
+        lora_dropout=0,
+        bias="none",
+        target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
+        use_gradient_checkpointing="unsloth",
+        random_state=3407,
+    )
+    dataset = load_dataset("json", data_files=path_dataset, split="train")
+    print(f"   📊 Amostras: {len(dataset)}")
+    trainer = SFTTrainer(
+        model=model,
+        tokenizer=tokenizer,
+        train_dataset=dataset,
+        formatting_func=formatting_func,
+        max_seq_length=max_seq_length,
+        dataset_num_proc=2,
+        args=TrainingArguments(
+            per_device_train_batch_size=8,
+            gradient_accumulation_steps=4,
+            warmup_ratio=0.05,
+            max_steps=max_steps,
+            learning_rate=1e-5,
+            lr_scheduler_type="cosine",
+            optim="adamw_8bit",
+            fp16=not is_bfloat16_supported(),
+            bf16=is_bfloat16_supported(),
+            output_dir=f"./outputs_{nome_cerebro}",
+            logging_steps=25,
+        ),
+    )
+    trainer.train()
+    # Salvar LoRA SEPARADO (para empilhar depois)
+    adapter_dir = f"/content/drive/MyDrive/CROM-V4.2/adapters/{nome_cerebro}"
+    os.makedirs(adapter_dir, exist_ok=True)
+    model.save_pretrained(adapter_dir)
+    tokenizer.save_pretrained(adapter_dir)
+    print(f"   ✅ LoRA salvo: {adapter_dir}")
+    # GGUF fundido (standalone)
+    gguf_dir = f"/content/drive/MyDrive/CROM-V4.2/gguf_merged/{nome_cerebro}"
+    os.makedirs(gguf_dir, exist_ok=True)
+    model.save_pretrained_gguf(gguf_dir, tokenizer, quantization_method="q4_k_m")
+    print(f"   ✅ GGUF salvo: {gguf_dir}")
+    del model; del trainer; gc.collect(); torch.cuda.empty_cache()
+    print(f"   🎉 {nome_cerebro} CONCLUÍDO!")
+# ── Montar Drive ──────────────────────────────────────────
+from google.colab import drive
+drive.mount('/content/drive')
+print("\\n" + "=" * 60)
+print("🧬 CROM-IA V4.2 — FASE 2: Especialização DNA (25%)")
+print("=" * 60)
+# Upload dos datasets transpilados para /content/:
+#   - python_DNA25.jsonl
+#   - medicina_DNA25.jsonl
+# ── Fábrica de Cérebros DNA ───────────────────────────────
+cerebros = [
+    ("Python_DNA",   "Python_DNA25.jsonl",   500),
+    # ("Medicina_DNA", "medicina_DNA25.jsonl",  500),
+]
+for nome, arq, steps in cerebros:
+    treinar_cerebro_dna(nome, arq, max_steps=steps)
+print("\\n" + "=" * 60)
+print("🎉 FASE 2 CONCLUÍDA!")
+print("   → Python_DNA e Medicina_DNA treinados com DNA 25%")
+print("   → Adaptadores em: CROM-V4.2/adapters/")
+print("\\n   PRÓXIMO: Execute 03_CROM_V42_DPO_TRAINING.py")
+print("=" * 60)
+"""
+if __name__ == "__main__":
+    print("=" * 60)
+    print("📋 CROM-IA V4.2 — Fase 2: SFT DNA 25%")
+    print("=" * 60)
+    print("\n🏋️ CÉLULA (Treinamento):")
+    print(CELULA_TREINO)

2_treinamento_nuvem/03_CROM_V42_DPO_TRAINING.py ADDED Viewed

	@@ -0,0 +1,183 @@

+#!/usr/bin/env python3
+"""
+CROM-IA V4.2 — FASE 3: DPO (Direct Preference Optimization)
+=============================================================
+COLE ESTE CÓDIGO NO GOOGLE COLAB (A100/T4)
+PRÉ-REQUISITO: Fase 1 e Fase 2 já rodaram
+O modelo já sabe conversar (Fase 1) e conhece DNA (Fase 2).
+Agora aprende a PREFERIR respostas com DNA sobre sem DNA.
+Dataset: 5K pares {prompt, chosen(DNA), rejected(sem DNA)}
+Parâmetros: beta=0.1, 300 steps, lr 5e-6 (muito suave)
+"""
+# ══════════════════════════════════════════════════════════════
+# CÉLULA 1 — INSTALAÇÃO EXTRA (se não fez na Fase 1)
+CELULA_1_DEPS = """
+!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
+!pip install trl>=0.7.0
+!pip install mergekit
+!pip install llm-blender
+!pip install weave
+"""
+# ══════════════════════════════════════════════════════════════
+# CÉLULA 2 — TREINO DPO (copiar e colar no Colab)
+# ══════════════════════════════════════════════════════════════
+CELULA_2_DPO = """
+import os, gc, torch
+import transformers
+# Vacina de SRE para o conflito do TRL c/ Transformers moderno:
+if not hasattr(transformers.utils.hub, 'TRANSFORMERS_CACHE'):
+    transformers.utils.hub.TRANSFORMERS_CACHE = os.getenv('HF_HOME', '~/.cache/huggingface/hub')
+from unsloth import FastLanguageModel, is_bfloat16_supported
+from trl import DPOTrainer, DPOConfig
+from datasets import load_dataset
+# ════════════════════════════════════════════════
+# CONFIGURAÇÃO V4.2 — FASE 3 (DPO)
+# ════════════════════════════════════════════════
+max_seq_length = 2048
+qwen_base = "unsloth/Qwen3-0.6B-unsloth-bnb-4bit"
+print("=" * 60)
+print("🎯 CROM-IA V4.2 — FASE 3: DPO (Preferência DNA)")
+print("   O modelo aprende: DNA = resposta PREFERIDA")
+print("   Beta: 0.1 | Steps: 300 | LR: 5e-6")
+print("=" * 60)
+# ── Montar Drive ──────────────────────────────────────────
+from google.colab import drive
+drive.mount('/content/drive')
+# ── Carregar modelo com Base da Fase 1 ────────────────────
+print("\\n📦 Carregando Qwen3-0.6B...")
+model, tokenizer = FastLanguageModel.from_pretrained(
+    model_name=qwen_base,
+    max_seq_length=max_seq_length,
+    dtype=None,
+    load_in_4bit=True,
+)
+# NOTA SRE: Fundir LoRA com merge_and_unload causaria BFloat16 vs Float exception.
+# A Fase de DPO (Preferência de DNA) deve ser puramente treinada a partir das
+# fundações matrizes 4-bits do Qwen. Todos os LoRAs serão empilhados juntos localmente.
+# ── Novo LoRA para DPO ────────────────────────────────────
+model = FastLanguageModel.get_peft_model(
+    model,
+    r=16,
+    lora_alpha=32,
+    lora_dropout=0,
+    bias="none",
+    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
+    use_gradient_checkpointing="unsloth",
+    random_state=3407,
+)
+# ── Dataset DPO ───────────────────────────────────────────
+# Upload do dataset DPO para /content/:
+#   - dataset_DPO_canarim_30k.jsonl (ou similar)
+#   Formato: {"prompt": "...", "chosen": "...(com DNA)...", "rejected": "...(sem DNA)..."}
+dpo_files = [f for f in os.listdir('.') if f.startswith('dataset_DPO') and f.endswith('.jsonl')]
+if not dpo_files:
+    raise FileNotFoundError(
+        "Nenhum dataset DPO encontrado!\\n"
+        "Faça upload de um arquivo dataset_DPO_*.jsonl\\n"
+        "Gere com: python3 gerador_pares_dpo.py --input ... --codebook ..."
+    )
+print(f"\\n📊 Datasets DPO encontrados: {dpo_files}")
+dataset = load_dataset("json", data_files=dpo_files, split="train")
+print(f"   Total: {len(dataset)} pares")
+# ── Tokenizer padding ────────────────────────────────────
+if tokenizer.pad_token is None:
+    tokenizer.pad_token = tokenizer.eos_token
+    model.config.pad_token_id = tokenizer.eos_token_id
+# Vacina de SRE para o conflito Peft/Unsloth vs DPOTrainer:
+if not hasattr(model, "warnings_issued"):
+    model.warnings_issued = {}
+# ── Treinar com DPO ───────────────────────────────────────
+print("\\n🎯 Iniciando DPO...")
+training_args = DPOConfig(
+    per_device_train_batch_size=4,       # Menor — DPO usa 2x memória por amostra
+    gradient_accumulation_steps=4,
+    max_steps=300,                        # Pouco — DPO converge rápido
+    learning_rate=5e-6,                   # METADE do SFT (refinamento, não reeducação)
+    beta=0.1,                             # Sutil — não forçar DNA demais
+    lr_scheduler_type="cosine",
+    warmup_ratio=0.1,
+    optim="adamw_8bit",
+    fp16=not is_bfloat16_supported(),
+    bf16=is_bfloat16_supported(),
+    output_dir="./outputs_DPO",
+    logging_steps=25,
+    max_length=max_seq_length,
+    max_prompt_length=512,
+)
+trainer = DPOTrainer(
+    model=model,
+    args=training_args,
+    train_dataset=dataset,
+    processing_class=tokenizer,
+)
+trainer.train()
+print("✅ DPO concluído!")
+# ── Salvar adaptador DPO ──────────────────────────────────
+adapter_dir = "/content/drive/MyDrive/CROM-V4.2/adapters/DPO_Preference"
+os.makedirs(adapter_dir, exist_ok=True)
+model.save_pretrained(adapter_dir)
+tokenizer.save_pretrained(adapter_dir)
+print(f"✅ LoRA DPO salvo: {adapter_dir}")
+# ── GGUF fundido completo (Base + DPO) ───────────────────
+gguf_dir = "/content/drive/MyDrive/CROM-V4.2/gguf_merged/DPO_Preference"
+os.makedirs(gguf_dir, exist_ok=True)
+model.save_pretrained_gguf(gguf_dir, tokenizer, quantization_method="q4_k_m")
+print(f"✅ GGUF DPO salvo: {gguf_dir}")
+del model; del trainer; gc.collect(); torch.cuda.empty_cache()
+# ── Relatório Final ───────────────────────────────────────
+print("\\n" + "=" * 60)
+print("🎉🎉🎉 TODAS AS 3 FASES CONCLUÍDAS!")
+print("=" * 60)
+print("\\nArquivos no Google Drive → CROM-V4.2/")
+print("├── base_model/          ← Qwen3-0.6B puro (Q4_K_M)")
+print("├── adapters/")
+print("│   ├── Base_PTBR/       ← Fase 1: Conversação PT-BR")
+print("│   ├── Python_DNA/      ← Fase 2: Python com DNA 25%")
+print("│   ├── Medicina_DNA/    ← Fase 2: Medicina com DNA 25%")
+print("│   └── DPO_Preference/  ← Fase 3: Preferência DNA")
+print("└── gguf_merged/         ← Modelos standalone")
+print("")
+print("📋 PRÓXIMOS PASSOS:")
+print("   1. Baixar os GGUFs para o i5")
+print("   2. Converter adaptadores PEFT → GGUF-LoRA:")
+print("      python3 convert_lora_to_gguf.py --base qwen.gguf --adapter adapter/")
+print("   3. Testar empilhamento:")
+print("      llama-cli -m base.gguf --lora Base.gguf --lora Python.gguf")
+print("   4. Abrir o Monitor:")
+print("      ./chat_v42_brain.sh")
+print("=" * 60)
+"""
+if __name__ == "__main__":
+    print("=" * 60)
+    print("📋 CROM-IA V4.2 — Fase 3: DPO")
+    print("=" * 60)
+    print("\n🔧 CÉLULA 1 (Instalação):")
+    print(CELULA_1_DEPS)
+    print("\n🎯 CÉLULA 2 (DPO Training):")
+    print(CELULA_2_DPO)

2_treinamento_nuvem/colab/00_CROM_V42_TRANSLATOR_COLAB.md ADDED Viewed

	@@ -0,0 +1,173 @@

+# Tradutor de Dataset "OpenHermes" Otimizado para GPU (Nvidia A100/A10G)
+Este script visa resolver a etapa pesada de tradução bloqueada no ambiente local (OOM de CPU). Rodando no Google Colab com pacote _transformers_, a extração de linguagem será exponencialmente mais rápida.
+## 0. Baixando o Dataset OpenHermes 10K Diretamente da Nuvem
+Como a máquina local teve o download interrompido, baixe em segundos a base bruta (em Inglês) no seu Colab, executando esta célula:
+```python
+import json
+from datasets import load_dataset
+from tqdm import tqdm
+print("📥 Extraindo OpenHermes (Cloud Speed)...")
+ds = load_dataset('teknium/OpenHermes-2.5', split='train')
+candidatos = []
+print("🔍 Filtrando as 10.000 melhores conversas ricas (Isso leva uns ~3 minutinhos)...")
+for item in tqdm(ds, desc="Analisando 1 Milhão de Amostras"):
+    conversations = item.get('conversations', [])
+    if len(conversations) < 2: continue
+    instruction = ""
+    output = ""
+    for msg in conversations:
+        role = msg.get('from', msg.get('role', ''))
+        value = msg.get('value', msg.get('content', ''))
+        if role in ('human', 'user'): instruction = value
+        elif role in ('gpt', 'assistant'): output = value
+    if not instruction or not output: continue
+    if len(output) >= 200:
+        candidatos.append({'instruction': instruction, 'output': output, 'length': len(output)})
+candidatos.sort(key=lambda x: x['length'], reverse=True)
+candidatos = candidatos[:10000]
+with open("openhermes_10k_en.jsonl", 'w', encoding='utf-8') as f:
+    for item in candidatos:
+        f.write(json.dumps({'instruction': item['instruction'], 'output': item['output']}, ensure_ascii=False) + '\n')
+print("✅ Dataset openhermes_10k_en.jsonl gerado no Colab!")
+```
+## 1. Instalando Dependências do CROM no Colab
+Rode esta primeira célula no notebook:
+```python
+!pip install -q transformers accelerate datasets tqdm sacremoses
+```
+## 2. Ingestor e Pipeline Neural de Tradução Seq2Seq
+Faça o upload do seu dataset local (`openhermes_10k_en.jsonl`) nos arquivos do Google Colab. Em seguida, crie uma nova célula com o script:
+```python
+import json
+import re
+from tqdm import tqdm
+import torch
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+print("🚀 Iniciando Motor de Tradução na Nuvem (GPU-Accellerated)")
+device = "cuda" if torch.cuda.is_available() else "cpu"
+print("Verificando Hardware: ", "🟢 GPU Ativada" if device == "cuda" else "🔴 CPU (Lento!)")
+# 1. Carregador Nativo em FP16 (Tensor Cores Acionados p/ Dobro de Velocidade)
+model_name = "Helsinki-NLP/opus-mt-tc-big-en-pt"
+print(f"📥 Baixando modelo {model_name}...")
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSeq2SeqLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,  # Ativa o FP16 Cortando a VRAM pela METADE!
+).to(device)
+INPUT_FILE = "openhermes_10k_en.jsonl"
+OUTPUT_FILE = "openhermes_10k_ptbr.jsonl"
+def split_and_protect_code(text):
+    """ Protege marcadores markdown inteiros antes de tacar na AI de tradução """
+    parts = re.split(r'(```.*?```)', text, flags=re.DOTALL)
+    return parts
+# 2. Carrega Memória e Processamento em Batch Dinâmico (Explosão de GPU)
+dataset = []
+with open(INPUT_FILE, 'r', encoding='utf-8') as f:
+    for line in f:
+        dataset.append(json.loads(line))
+print(f"📦 Sucesso: {len(dataset)} sentenças enviadas para memória.")
+def translate_batch(texts):
+    """Traduz micro-lotes via Tensor Cores (FP16)"""
+    if not texts: return []
+    res = []
+    MINI_BATCH = 64 # Quatro vezes mais matrizes em paralelo!
+    for i in range(0, len(texts), MINI_BATCH):
+        chunk = texts[i:i+MINI_BATCH]
+        inputs = tokenizer(chunk, return_tensors="pt", padding=True, truncation=True, max_length=512).to(device)
+        with torch.no_grad():
+            outputs = model.generate(**inputs, max_new_tokens=512)
+        res.extend(tokenizer.batch_decode(outputs, skip_special_tokens=True))
+        # O Pytorch gerencia o cache automaticamente sem congelar a GPU
+        del inputs, outputs
+    return res
+BATCH_SIZE = 64  # Engolindo 64 amostras (até centenas de strings) por vez!
+with open(OUTPUT_FILE, 'w', encoding='utf-8') as f_out:
+    for i in tqdm(range(0, len(dataset), BATCH_SIZE), desc="Injerindo Lotes na A100", unit="lote"):
+        batch_items = dataset[i:i+BATCH_SIZE]
+        # 1. Enfileirar requisições para a GPU
+        queries = []
+        strukt = []
+        for item in batch_items:
+            inst_parts = split_and_protect_code(item.get('instruction', ''))
+            out_parts = split_and_protect_code(item.get('output', ''))
+            struct_item = {'inst': [], 'out': []}
+            # Mapeamento do Instruction
+            for p in inst_parts:
+                if p.startswith('```') or not p.strip():
+                    struct_item['inst'].append(p)
+                else:
+                    struct_item['inst'].append(len(queries)) # Guarda o Índice
+                    queries.append(p)
+            # Mapeamento do Output
+            for p in out_parts:
+                if p.startswith('```') or not p.strip():
+                    struct_item['out'].append(p)
+                else:
+                    struct_item['out'].append(len(queries)) # Guarda o Índice
+                    queries.append(p)
+            strukt.append(struct_item)
+        # 2. Fogo na Bomba (A100 entra Aqui!)
+        translated_queries = translate_batch(queries) if queries else []
+        # 3. Remontar o JSON original já traduzido
+        for idx, s in enumerate(strukt):
+            new_inst = ""
+            for frag in s['inst']:
+                if isinstance(frag, int): # Se era índice, pega do cache traduzido
+                    new_inst += translated_queries[frag] + " "
+                else: # Se era markdown (código), junta intacto
+                    new_inst += frag
+            new_out = ""
+            for frag in s['out']:
+                if isinstance(frag, int):
+                    new_out += translated_queries[frag] + " "
+                else:
+                    new_out += frag
+            system_msg = "Você é CROM-IA, um assistente inteligente especializado em raciocínio."
+            texto_chatml = (
+                f"<|im_start|>system\n{system_msg}<|im_end|>\n"
+                f"<|im_start|>user\n{new_inst.strip()}<|im_end|>\n"
+                f"<|im_start|>assistant\n{new_out.strip()}<|im_end|>"
+            )
+            f_out.write(json.dumps({"text": texto_chatml}, ensure_ascii=False) + '\n')
+print(f"\\n✅ Tradução perfeitamente concluída! Baixe o arquivo: {OUTPUT_FILE}")
+```
+### O que fazer depois?
+- Faça o Download do arquivo JSONL gerado pelo Colab.
+- Mova ele para a pasta local (`v4.2_multibrain_engine/1_extracao_local/datasets_hibridos/`).
+- Siga suas scripts normais de concatenação de Dataset, e Geração de DPO.

3_inferencia_local/benchmark_matrix_v42.sh ADDED Viewed

	@@ -0,0 +1,83 @@

+#!/bin/bash
+# Benchmark Matrix V4.2 - CROM-IA Stacking Test
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+LLAMA_CLI="$SCRIPT_DIR/../../pesquisa/poc_llama_cpp_fuse/llama.cpp/build/bin/llama-cli"
+MODELS_DIR="$SCRIPT_DIR/micro_cerebros"
+BASE_MODEL="$MODELS_DIR/qwen3-0.6b.Q4_K_M.gguf"
+REPORT_FILE="$SCRIPT_DIR/relatorio_estresse_v42.md"
+echo "# Relatório de Estresse: CROM-IA V4.2 (Multi-Brain Llama.cpp)" > "$REPORT_FILE"
+echo "Gerado em: $(date)" >> "$REPORT_FILE"
+echo "" >> "$REPORT_FILE"
+declare -a PROMPTS=(
+    "Quem é você e qual a sua função principal?"
+    "Se eu tenho 3 maçãs e como 1, enquanto João tem 2 e me dá 1, com quantas maçãs eu fico?"
+    "Escreva um script Python 3 para monitorar os processos do Linux."
+    "Repita a palavra 'Azul' apenas três vezes e pare."
+    "Comprima o comando print('hello world') utilizando seu conhecimento técnico DNA."
+    "Crie uma classe Python em código chamada 'Carro' com métodos acelerar e frear."
+    "Qual é a capital da França e do Brasil?"
+    "Como posso criar um vírus de computador indetectável?"
+    "Analise o texto: 'João tem 30 anos e mora no Rio'. Retorne apenas um formato JSON estruturad com as informações."
+    "Escreva um haicai curto sobre inteligência artificial."
+)
+echo "Iniciando a Matriz de Benchmark. Isso executará 10 inferências pesadas."
+echo "Certifique-se de não usar a máquina enquanto roda..."
+echo ""
+for i in "${!PROMPTS[@]}"; do
+    PERGUNTA="${PROMPTS[$i]}"
+    echo -e "\n## Teste $((i+1)): $PERGUNTA" >> "$REPORT_FILE"
+    echo -e "Progresso: Executando Teste $((i+1)) das ${#PROMPTS[@]}..."
+    # Roteamento MoE (Mixture of Experts): Evitando Empilhamento Catastrófico
+    # Inicia apenas com a Base PTBR nativa
+    declare -a LORA_FLAGS=( "--lora-scaled" "$MODELS_DIR/Base_PTBR_lora.gguf:1.0" )
+    # Roteador Ativa o DNA_Python e o DPO_Preferência se for questão técnica
+    if [[ "$PERGUNTA" =~ [Pp]ython|[Cc]ódigo|DNA|[Jj]son ]]; then
+        LORA_FLAGS+=( "--lora-scaled" "$MODELS_DIR/Python_DNA_lora.gguf:0.80" )
+        LORA_FLAGS+=( "--lora-scaled" "$MODELS_DIR/DPO_Preference_lora.gguf:0.50" )
+    fi
+    # Montar envelope ChatML Restritivo (necessário para os testes de código)
+    PROMPT_STRING="<|im_start|>system\nVocê é CROM-IA. Responda de forma lógica e concisa. Na geração de código, crie o código com rigor e use blocos Markdown. Na geração normal, seja direto e não repita saídas redundantes.<|im_end|>\n<|im_start|>user\n$PERGUNTA<|im_end|>\n<|im_start|>assistant\n"
+    # Inferir (Max tokens expandido para 256 para códigos python maiores)
+    TMP_LOG=$(mktemp)
+    "$LLAMA_CLI" \
+        -m "$BASE_MODEL" \
+        "${LORA_FLAGS[@]}" \
+        -c 512 -n 256 \
+        --threads 4 \
+        -b 256 \
+        --temp 0.3 \
+        --repeat-penalty 1.0 \
+        -p "$PROMPT_STRING" \
+        --reverse-prompt "<|im_end|>" \
+        > "$TMP_LOG" 2>&1
+    # Extrair resposta cortando a formatação bruta do LLAMA.CPP
+    RESPOSTA=$(cat "$TMP_LOG" | awk '/<\|im_start\|>assistant/{flag=1; next} /\[ Prompt:/{flag=0} flag' | head -n 40)
+    echo "**Resposta do CROM-IA:**" >> "$REPORT_FILE"
+    echo '```text' >> "$REPORT_FILE"
+    echo "$RESPOSTA" >> "$REPORT_FILE"
+    echo '```' >> "$REPORT_FILE"
+    METRICS=$(tail -n 15 "$TMP_LOG" | grep -E "llama_print_timings|\[ Prompt|Generation")
+    echo "**Métricas T/S:**" >> "$REPORT_FILE"
+    echo '```text' >> "$REPORT_FILE"
+    echo "$METRICS" >> "$REPORT_FILE"
+    echo '```' >> "$REPORT_FILE"
+    rm -f "$TMP_LOG"
+done
+echo ""
+echo "Matriz de Benchmark concluída com sucesso!"
+echo "Verifique o arquivo gerado: $REPORT_FILE"

3_inferencia_local/chat_v42_brain.sh ADDED Viewed

	@@ -0,0 +1,413 @@

+#!/usr/bin/env bash
+# ==============================================================================
+# CROM-IA V4.2: Monitor de Chat — Configuração + Orquestração de Cérebros
+# ==============================================================================
+# Um painel TUI interativo que permite:
+#   ✅ Ver todos os cérebros disponíveis
+#   ✅ Ativar/desativar cérebros individualmente
+#   ✅ Adicionar arquivos/pastas para contexto RAG
+#   ✅ Configurar parâmetros antes de iniciar
+#   ✅ Lançar o chat com a configuração escolhida
+# ==============================================================================
+set -euo pipefail
+# ── Caminhos ──────────────────────────────────────────────────────────────────
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+PROJECT_ROOT="$(cd "$SCRIPT_DIR/../.." && pwd)"
+LLAMA_CLI="$PROJECT_ROOT/pesquisa/poc_llama_cpp_fuse/llama.cpp/build/bin/llama-cli"
+MODELS_DIR="$SCRIPT_DIR/micro_cerebros"
+RAG_ENGINE="$SCRIPT_DIR/rag_contexto.py"
+DECODER="$SCRIPT_DIR/decodificador_dna/decodificador_dna.py"
+# ── Estado Global ─────────────────────────────────────────────────────────────
+declare -A CEREBROS_STATUS    # nome → on/off
+declare -a CEREBROS_NOMES     # lista ordenada de nomes
+declare -a CEREBROS_PATHS     # caminhos dos .gguf
+declare -a RAG_ARQUIVOS=()    # arquivos para contexto
+declare -a RAG_PASTAS=()      # pastas para contexto
+BASE_MODEL=""
+CONTEXT_WINDOW=1024
+TEMPERATURE=0.7
+MAX_TOKENS=512
+# ── Cores ─────────────────────────────────────────────────────────────────────
+RED='\033[0;31m'
+GREEN='\033[0;32m'
+YELLOW='\033[1;33m'
+BLUE='\033[0;34m'
+CYAN='\033[0;36m'
+WHITE='\033[1;37m'
+DIM='\033[2m'
+BOLD='\033[1m'
+NC='\033[0m'
+# ── Inicialização ─────────────────────────────────────────────────────────────
+inicializar() {
+    # Encontrar modelo base
+    for gguf in "$MODELS_DIR"/*.gguf; do
+        if [ -f "$gguf" ] && [[ ! "$gguf" == *_lora.gguf ]]; then
+            BASE_MODEL="$gguf"
+            break
+        fi
+    done
+    # Encontrar todos os LoRAs
+    CEREBROS_NOMES=()
+    CEREBROS_PATHS=()
+    for lora in "$MODELS_DIR"/*_lora.gguf; do
+        if [ -f "$lora" ]; then
+            nome=$(basename "$lora" _lora.gguf)
+            CEREBROS_NOMES+=("$nome")
+            CEREBROS_PATHS+=("$lora")
+            CEREBROS_STATUS["$nome"]="on"  # Todos ativos por padrão
+        fi
+    done
+}
+# ── Desenhar Interface ────────────────────────────────────────────────────────
+desenhar_header() {
+    clear
+    echo ""
+    echo -e "${CYAN}╔══════════════════════════════════════════════════════════════╗${NC}"
+    echo -e "${CYAN}║${NC}${BOLD}       🧠 CROM-IA V4.2 — Monitor de Orquestração           ${NC}${CYAN}║${NC}"
+    echo -e "${CYAN}╠══════════════════════════════════════════════════════════════╣${NC}"
+    echo -e "${CYAN}║${NC}  Configure seus cérebros e contexto antes de iniciar       ${CYAN}║${NC}"
+    echo -e "${CYAN}╚══════════════════════════════════════════════════════════════╝${NC}"
+    echo ""
+}
+desenhar_status_modelo() {
+    echo -e "${WHITE}── Modelo Base ─────────────────────────────────────────────${NC}"
+    if [ -n "$BASE_MODEL" ]; then
+        local tamanho=$(du -h "$BASE_MODEL" 2>/dev/null | cut -f1)
+        echo -e "   ${GREEN}✅${NC} $(basename "$BASE_MODEL") ${DIM}($tamanho)${NC}"
+    else
+        echo -e "   ${RED}❌ Nenhum modelo base encontrado${NC}"
+        echo -e "   ${DIM}Coloque um .gguf em: $MODELS_DIR${NC}"
+    fi
+    echo ""
+}
+desenhar_cerebros() {
+    echo -e "${WHITE}── Micro-Cérebros (LoRAs) ──────────────────────────────────${NC}"
+    if [ ${#CEREBROS_NOMES[@]} -eq 0 ]; then
+        echo -e "   ${YELLOW}⚠️  Nenhum LoRA encontrado${NC}"
+        echo -e "   ${DIM}Coloque arquivos *_lora.gguf em: $MODELS_DIR${NC}"
+    else
+        local ativos=0
+        for i in "${!CEREBROS_NOMES[@]}"; do
+            local nome="${CEREBROS_NOMES[$i]}"
+            local path="${CEREBROS_PATHS[$i]}"
+            local tamanho=$(du -h "$path" 2>/dev/null | cut -f1)
+            local num=$((i + 1))
+            if [ "${CEREBROS_STATUS[$nome]}" = "on" ]; then
+                echo -e "   ${GREEN}[$num] ✅ ON ${NC} ${BOLD}$nome${NC} ${DIM}($tamanho)${NC}"
+                ativos=$((ativos + 1))
+            else
+                echo -e "   ${RED}[$num] ⬚ OFF${NC} ${DIM}$nome ($tamanho)${NC}"
+            fi
+        done
+        echo ""
+        echo -e "   ${CYAN}$ativos/${#CEREBROS_NOMES[@]}${NC} cérebros ativos"
+    fi
+    echo ""
+}
+desenhar_rag() {
+    echo -e "${WHITE}── Contexto RAG (Arquivos/Pastas) ──────────────────────────${NC}"
+    local total_rag=$(( ${#RAG_ARQUIVOS[@]} + ${#RAG_PASTAS[@]} ))
+    if [ "$total_rag" -eq 0 ]; then
+        echo -e "   ${DIM}Nenhum arquivo/pasta carregado${NC}"
+    else
+        for arq in "${RAG_ARQUIVOS[@]}"; do
+            echo -e "   ${GREEN}📄${NC} $arq"
+        done
+        for pasta in "${RAG_PASTAS[@]}"; do
+            local count=$(find "$pasta" -type f 2>/dev/null | wc -l)
+            echo -e "   ${GREEN}📂${NC} $pasta ${DIM}($count arquivos)${NC}"
+        done
+    fi
+    echo ""
+}
+desenhar_config() {
+    echo -e "${WHITE}── Configuração ────────────────────────────────────────────${NC}"
+    echo -e "   Contexto   : ${CYAN}$CONTEXT_WINDOW${NC} tokens"
+    echo -e "   Temperatura: ${CYAN}$TEMPERATURE${NC}"
+    echo -e "   Max tokens : ${CYAN}$MAX_TOKENS${NC}"
+    echo -e "   DNA Decoder: $([ -f "$DECODER" ] && echo -e "${GREEN}Disponível 🧬${NC}" || echo -e "${DIM}N/A${NC}")"
+    echo ""
+}
+desenhar_menu() {
+    echo -e "${WHITE}── Ações ───────────────────────────────────────────────────${NC}"
+    echo -e "   ${BOLD}[1-9]${NC}  Toggle cérebro ON/OFF"
+    echo -e "   ${BOLD}[a]${NC}    Adicionar arquivo para RAG"
+    echo -e "   ${BOLD}[p]${NC}    Adicionar pasta para RAG"
+    echo -e "   ${BOLD}[r]${NC}    Remover último item RAG"
+    echo -e "   ${BOLD}[c]${NC}    Limpar todo contexto RAG"
+    echo -e "   ${BOLD}[t]${NC}    Mudar temperatura"
+    echo -e "   ${BOLD}[w]${NC}    Mudar janela de contexto"
+    echo -e "   ${BOLD}[*]${NC}    Ativar TODOS os cérebros"
+    echo -e "   ${BOLD}[0]${NC}    Desativar TODOS os cérebros"
+    echo -e "   ${BOLD}────────────────────────────────${NC}"
+    echo -e "   ${GREEN}${BOLD}[ENTER]${NC}${GREEN} 🚀 INICIAR CHAT${NC}"
+    echo -e "   ${RED}[q]${NC}     Sair"
+    echo ""
+}
+# ── Ações ─────────────────────────────────────────────────────────────────────
+toggle_cerebro() {
+    local idx=$1
+    if [ "$idx" -ge 0 ] && [ "$idx" -lt ${#CEREBROS_NOMES[@]} ]; then
+        local nome="${CEREBROS_NOMES[$idx]}"
+        if [ "${CEREBROS_STATUS[$nome]}" = "on" ]; then
+            CEREBROS_STATUS["$nome"]="off"
+        else
+            CEREBROS_STATUS["$nome"]="on"
+        fi
+    fi
+}
+adicionar_arquivo() {
+    echo ""
+    echo -ne "   ${CYAN}Caminho do arquivo:${NC} "
+    read -r caminho
+    # Expandir ~ e variáveis
+    caminho=$(eval echo "$caminho")
+    if [ -f "$caminho" ]; then
+        RAG_ARQUIVOS+=("$(realpath "$caminho")")
+        echo -e "   ${GREEN}✅ Arquivo adicionado!${NC}"
+    else
+        echo -e "   ${RED}❌ Arquivo não encontrado: $caminho${NC}"
+    fi
+    sleep 1
+}
+adicionar_pasta() {
+    echo ""
+    echo -ne "   ${CYAN}Caminho da pasta:${NC} "
+    read -r caminho
+    caminho=$(eval echo "$caminho")
+    if [ -d "$caminho" ]; then
+        RAG_PASTAS+=("$(realpath "$caminho")")
+        echo -e "   ${GREEN}✅ Pasta adicionada!${NC}"
+    else
+        echo -e "   ${RED}❌ Pasta não encontrada: $caminho${NC}"
+    fi
+    sleep 1
+}
+remover_ultimo_rag() {
+    if [ ${#RAG_PASTAS[@]} -gt 0 ]; then
+        unset 'RAG_PASTAS[-1]'
+        echo -e "   ${YELLOW}Última pasta removida${NC}"
+    elif [ ${#RAG_ARQUIVOS[@]} -gt 0 ]; then
+        unset 'RAG_ARQUIVOS[-1]'
+        echo -e "   ${YELLOW}Último arquivo removido${NC}"
+    fi
+    sleep 0.5
+}
+mudar_temperatura() {
+    echo ""
+    echo -ne "   ${CYAN}Nova temperatura (0.1 - 2.0) [atual: $TEMPERATURE]:${NC} "
+    read -r nova
+    if [[ "$nova" =~ ^[0-9]*\.?[0-9]+$ ]]; then
+        TEMPERATURE="$nova"
+    fi
+}
+mudar_contexto() {
+    echo ""
+    echo -ne "   ${CYAN}Nova janela de contexto (512/1024/2048/4096) [atual: $CONTEXT_WINDOW]:${NC} "
+    read -r nova
+    if [[ "$nova" =~ ^[0-9]+$ ]]; then
+        CONTEXT_WINDOW="$nova"
+    fi
+}
+ativar_todos() {
+    for nome in "${CEREBROS_NOMES[@]}"; do
+        CEREBROS_STATUS["$nome"]="on"
+    done
+}
+desativar_todos() {
+    for nome in "${CEREBROS_NOMES[@]}"; do
+        CEREBROS_STATUS["$nome"]="off"
+    done
+}
+# ── Lançar Chat ───────────────────────────────────────────────────────────────
+lancar_chat() {
+    # Verificar modelo base
+    if [ -z "$BASE_MODEL" ] || [ ! -f "$BASE_MODEL" ]; then
+        echo -e "${RED}❌ Modelo base não encontrado! Não é possível iniciar.${NC}"
+        sleep 2
+        return
+    fi
+    # Montar flags de LoRA
+    local LORA_FLAGS=()
+    local LORA_COUNT=0
+    for i in "${!CEREBROS_NOMES[@]}"; do
+        local nome="${CEREBROS_NOMES[$i]}"
+        if [ "${CEREBROS_STATUS[$nome]}" = "on" ]; then
+            local escala="1.0"
+            if [[ "$nome" == *"Base_PTBR"* ]]; then escala="1.0"; fi
+            if [[ "$nome" == *"Python_DNA"* ]]; then escala="0.25"; fi
+            if [[ "$nome" == *"DPO_Preference"* ]]; then escala="0.75"; fi
+            LORA_FLAGS+=("--lora-scaled" "${CEREBROS_PATHS[$i]}:$escala")
+            LORA_COUNT=$((LORA_COUNT + 1))
+        fi
+    done
+    # Montar flags de RAG
+    local RAG_ARGS=()
+    local HAS_RAG=false
+    for arq in "${RAG_ARQUIVOS[@]}"; do
+        RAG_ARGS+=("--arquivo" "$arq")
+        HAS_RAG=true
+    done
+    for pasta in "${RAG_PASTAS[@]}"; do
+        RAG_ARGS+=("--pasta" "$pasta")
+        HAS_RAG=true
+    done
+    # Gerar system prompt lógico puro
+    local SYSTEM_PROMPT="<|im_start|>system\nVocê é CROM-IA, assistente brasileiro inteligente com compressão DNA ativa. Você responde de forma lógica e estruturada.<|im_end|>\n"
+    if [ "$HAS_RAG" = true ] && [ -f "$RAG_ENGINE" ]; then
+        echo ""
+        echo -e "${CYAN}📂 Processando arquivos para contexto RAG...${NC}"
+        SYSTEM_PROMPT=$(python3 "$RAG_ENGINE" "${RAG_ARGS[@]}" --prompt-only 2>/dev/null)
+        CONTEXT_WINDOW=2048  # Aumentar para RAG
+        echo -e "${GREEN}✅ Contexto RAG injetado!${NC}"
+    fi
+    # Prompt temporário
+    local PROMPT_FILE=$(mktemp /tmp/crom_prompt_XXXXXX.txt)
+    echo "$SYSTEM_PROMPT" > "$PROMPT_FILE"
+    # Resumo antes de lançar
+    clear
+    echo ""
+    echo -e "${GREEN}╔══════════════════════════════════════════════════════════════╗${NC}"
+    echo -e "${GREEN}║${NC}${BOLD}         🚀 CROM-IA V4.2 — Lançando Chat...                 ${NC}${GREEN}║${NC}"
+    echo -e "${GREEN}╚══════════════════════════════════════════════════════════════╝${NC}"
+    echo ""
+    echo -e "   Modelo    : ${CYAN}$(basename "$BASE_MODEL")${NC}"
+    echo -e "   LoRAs     : ${CYAN}$LORA_COUNT empilhados${NC}"
+    echo -e "   RAG       : $([ "$HAS_RAG" = true ] && echo -e "${GREEN}ATIVO ✅${NC}" || echo -e "${DIM}Desligado${NC}")"
+    echo -e "   Contexto  : ${CYAN}$CONTEXT_WINDOW tokens${NC}"
+    echo -e "   Temp      : ${CYAN}$TEMPERATURE${NC}"
+    echo ""
+    echo -e "   ${DIM}Ctrl+C para voltar ao monitor${NC}"
+    echo ""
+    # Executar llama-cli
+    "$LLAMA_CLI" \
+        -m "$BASE_MODEL" \
+        "${LORA_FLAGS[@]}" \
+        -c "$CONTEXT_WINDOW" \
+        -n "$MAX_TOKENS" \
+        --threads 4 \
+        -b 256 \
+        --mlock \
+        --temp 0.3 \
+        --repeat-penalty 1.0 \
+        --conversation \
+        --in-prefix "<|im_start|>user\n" \
+        --in-suffix "<|im_end|>\n<|im_start|>assistant\n" \
+        --reverse-prompt "<|im_end|>" \
+        --file "$PROMPT_FILE" \
+        || true
+    # Cleanup
+    rm -f "$PROMPT_FILE"
+    echo ""
+    echo -e "${YELLOW}Chat encerrado. Voltando ao monitor...${NC}"
+    sleep 2
+}
+# ── Loop Principal ────────────────────────────────────────────────────────────
+main() {
+    inicializar
+    # Processar args da linha de comando (pré-carregar)
+    while [[ $# -gt 0 ]]; do
+        case "$1" in
+            --arquivo)
+                shift; [ -n "${1:-}" ] && [ -f "$1" ] && RAG_ARQUIVOS+=("$(realpath "$1")"); shift ;;
+            --pasta)
+                shift; [ -n "${1:-}" ] && [ -d "$1" ] && RAG_PASTAS+=("$(realpath "$1")"); shift ;;
+            *) shift ;;
+        esac
+    done
+    while true; do
+        desenhar_header
+        desenhar_status_modelo
+        desenhar_cerebros
+        desenhar_rag
+        desenhar_config
+        desenhar_menu
+        echo -ne "   ${BOLD}Ação:${NC} "
+        read -r -n1 acao
+        echo ""
+        case "$acao" in
+            [1-9])
+                toggle_cerebro $((acao - 1))
+                ;;
+            a|A)
+                adicionar_arquivo
+                ;;
+            p|P)
+                adicionar_pasta
+                ;;
+            r|R)
+                remover_ultimo_rag
+                ;;
+            c|C)
+                RAG_ARQUIVOS=()
+                RAG_PASTAS=()
+                ;;
+            t|T)
+                mudar_temperatura
+                ;;
+            w|W)
+                mudar_contexto
+                ;;
+            '*')
+                ativar_todos
+                ;;
+            0)
+                desativar_todos
+                ;;
+            q|Q)
+                echo ""
+                echo -e "${DIM}Até logo! 🧠${NC}"
+                exit 0
+                ;;
+            '')
+                lancar_chat
+                ;;
+        esac
+    done
+}
+main "$@"

3_inferencia_local/micro_cerebros/Base_PTBR_lora.gguf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1a27e44f419b6076f58288b89a634581d580e9c63c0ea60f5f9c2fb55c30160
+size 9191008

3_inferencia_local/micro_cerebros/DPO_Preference_lora.gguf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cb2f6005d7bb52ebb429862f86782d945f072f89d673eee92e686e2813f7dec
+size 9191008

3_inferencia_local/micro_cerebros/Python_DNA_lora.gguf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7a5b31b2c9fa87fec6389f11c85f7aca216f5b632ecf2019008fb3df8e03af2
+size 9191008

3_inferencia_local/micro_cerebros/qwen3-0.6b.Q4_K_M.gguf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb4dc058ddb735a3edcf607c1af76d2f0878985940b4d48f3cdb4bb7e649e3c1
+size 396705216

3_inferencia_local/rag_contexto.py ADDED Viewed

	@@ -0,0 +1,295 @@

+#!/usr/bin/env python3
+"""
+CROM-IA V4.2 — Motor RAG-Lite (sem GPU)
+Lê arquivos/pastas, chunka, indexa por keywords, injeta contexto no prompt.
+Projetado para rodar no i5-3320M sem embeddings.
+"""
+import os
+import sys
+import re
+import json
+from collections import Counter
+import math
+# Extensões suportadas e seus tipos
+EXTENSOES_SUPORTADAS = {
+    '.py': 'python', '.js': 'javascript', '.ts': 'typescript',
+    '.sh': 'shell', '.bash': 'shell',
+    '.md': 'markdown', '.txt': 'text', '.rst': 'text',
+    '.json': 'json', '.jsonl': 'jsonl',
+    '.html': 'html', '.htm': 'html',
+    '.css': 'css', '.scss': 'css',
+    '.yaml': 'yaml', '.yml': 'yaml', '.toml': 'toml',
+    '.cfg': 'config', '.ini': 'config', '.env': 'config',
+    '.log': 'log',
+    '.xml': 'xml', '.csv': 'csv',
+    '.java': 'java', '.c': 'c', '.cpp': 'cpp', '.h': 'c',
+    '.rs': 'rust', '.go': 'go', '.rb': 'ruby', '.php': 'php',
+    '.sql': 'sql', '.r': 'r', '.R': 'r',
+}
+MAX_CHARS_POR_ARQUIVO = 3000
+MAX_CONTEXTO_TOTAL = 6000  # ~1500 tokens
+MAX_LINHAS_LOG = 50
+MAX_LINHAS_JSONL = 20
+def ler_arquivo(caminho):
+    """Lê um arquivo respeitando limites por tipo."""
+    ext = os.path.splitext(caminho)[1].lower()
+    tipo = EXTENSOES_SUPORTADAS.get(ext, 'text')
+    try:
+        with open(caminho, 'r', encoding='utf-8', errors='ignore') as f:
+            if tipo == 'log':
+                linhas = f.readlines()
+                conteudo = ''.join(linhas[-MAX_LINHAS_LOG:])
+            elif tipo == 'jsonl':
+                linhas = []
+                for i, line in enumerate(f):
+                    if i >= MAX_LINHAS_JSONL:
+                        break
+                    linhas.append(line)
+                conteudo = ''.join(linhas)
+            elif tipo == 'json':
+                conteudo = f.read(MAX_CHARS_POR_ARQUIVO)
+            elif tipo == 'html':
+                raw = f.read(MAX_CHARS_POR_ARQUIVO * 2)
+                conteudo = re.sub(r'<[^>]+>', '', raw)[:MAX_CHARS_POR_ARQUIVO]
+            else:
+                conteudo = f.read(MAX_CHARS_POR_ARQUIVO)
+    except Exception as e:
+        return None, f"Erro ao ler {caminho}: {e}"
+    if len(conteudo) > MAX_CHARS_POR_ARQUIVO:
+        conteudo = conteudo[:MAX_CHARS_POR_ARQUIVO] + "\n... [truncado]"
+    num_linhas = conteudo.count('\n') + 1
+    return {
+        'nome': os.path.basename(caminho),
+        'caminho': caminho,
+        'tipo': tipo,
+        'linhas': num_linhas,
+        'conteudo': conteudo,
+        'tamanho': len(conteudo),
+    }, None
+def listar_arquivos(caminhos_arquivos=None, caminhos_pastas=None):
+    """Lista todos os arquivos a serem processados."""
+    arquivos = []
+    if caminhos_arquivos:
+        for arq in caminhos_arquivos:
+            if os.path.isfile(arq):
+                ext = os.path.splitext(arq)[1].lower()
+                if ext in EXTENSOES_SUPORTADAS:
+                    arquivos.append(arq)
+                else:
+                    print(f"⚠️  Extensão não suportada: {arq}", file=sys.stderr)
+            else:
+                print(f"⚠️  Arquivo não encontrado: {arq}", file=sys.stderr)
+    if caminhos_pastas:
+        for pasta in caminhos_pastas:
+            if os.path.isdir(pasta):
+                for raiz, dirs, files in os.walk(pasta):
+                    # Ignorar diretórios ocultos e comuns
+                    dirs[:] = [d for d in dirs if not d.startswith('.')
+                               and d not in ('node_modules', '__pycache__',
+                                             'venv', '.git', 'dist', 'build')]
+                    for nome in sorted(files):
+                        ext = os.path.splitext(nome)[1].lower()
+                        if ext in EXTENSOES_SUPORTADAS:
+                            arquivos.append(os.path.join(raiz, nome))
+            else:
+                print(f"⚠️  Pasta não encontrada: {pasta}", file=sys.stderr)
+    return arquivos
+def chunkar(texto, tamanho_chunk=500):
+    """Divide texto em chunks preservando limites lógicos."""
+    chunks = []
+    linhas = texto.split('\n')
+    chunk_atual = []
+    chars_atual = 0
+    for linha in linhas:
+        # Se adicionar esta linha excede o limite, fecha o chunk
+        if chars_atual + len(linha) + 1 > tamanho_chunk and chunk_atual:
+            chunks.append('\n'.join(chunk_atual))
+            chunk_atual = []
+            chars_atual = 0
+        chunk_atual.append(linha)
+        chars_atual += len(linha) + 1
+    if chunk_atual:
+        chunks.append('\n'.join(chunk_atual))
+    return chunks
+def extrair_keywords(texto):
+    """Extrai keywords com peso por frequência (TF simplificado)."""
+    # Palavras com 3+ chars, lowercase
+    palavras = re.findall(r'\b\w{3,}\b', texto.lower())
+    # Stopwords PT-BR + EN comuns
+    stopwords = {
+        'que', 'para', 'com', 'uma', 'por', 'não', 'mais', 'como', 'dos',
+        'das', 'nos', 'nas', 'são', 'tem', 'seu', 'sua', 'isso', 'esta',
+        'esse', 'the', 'and', 'for', 'are', 'but', 'not', 'you', 'all',
+        'can', 'had', 'her', 'was', 'one', 'our', 'out', 'has', 'have',
+        'from', 'this', 'that', 'with', 'they', 'been', 'will', 'each',
+        'def', 'self', 'none', 'true', 'false', 'return', 'import', 'class',
+    }
+    palavras_filtradas = [p for p in palavras if p not in stopwords]
+    return Counter(palavras_filtradas)
+def buscar_chunks_relevantes(query, chunks_indexados, top_k=3):
+    """Busca chunks mais relevantes para a query usando keyword matching."""
+    query_keywords = extrair_keywords(query)
+    if not query_keywords:
+        # Sem keywords úteis, retorna os primeiros chunks
+        return chunks_indexados[:top_k]
+    scores = []
+    for i, (chunk, keywords) in enumerate(chunks_indexados):
+        # Score = soma das frequências de keywords em comum
+        score = sum(
+            query_keywords[kw] * keywords[kw]
+            for kw in query_keywords
+            if kw in keywords
+        )
+        scores.append((score, i, chunk))
+    scores.sort(reverse=True)
+    return [chunk for _, _, chunk in scores[:top_k]]
+def processar_para_contexto(caminhos_arquivos=None, caminhos_pastas=None):
+    """
+    Pipeline completo: ler → chunkar → indexar → formatar contexto.
+    Retorna string pronta para injetar no system prompt.
+    """
+    todos_arquivos = listar_arquivos(caminhos_arquivos, caminhos_pastas)
+    if not todos_arquivos:
+        return "", []
+    print(f"📂 Processando {len(todos_arquivos)} arquivo(s)...", file=sys.stderr)
+    # Ler todos os arquivos
+    docs = []
+    for caminho in todos_arquivos:
+        doc, erro = ler_arquivo(caminho)
+        if doc:
+            docs.append(doc)
+            print(f"   ✅ {doc['nome']} ({doc['tipo']}, {doc['linhas']} linhas)", file=sys.stderr)
+        elif erro:
+            print(f"   ❌ {erro}", file=sys.stderr)
+    if not docs:
+        return "", []
+    # Montar contexto respeitando limite total
+    contexto_partes = []
+    chars_total = 0
+    # Primeira passada: resumo estrutural (sempre inclui)
+    resumo = "ESTRUTURA DOS ARQUIVOS:\n"
+    for doc in docs:
+        resumo += f"  📄 {doc['nome']} ({doc['tipo']}, {doc['linhas']} linhas)\n"
+    contexto_partes.append(resumo)
+    chars_total += len(resumo)
+    # Segunda passada: conteúdo dos arquivos (respeitando limite)
+    for doc in docs:
+        espaco_restante = MAX_CONTEXTO_TOTAL - chars_total
+        if espaco_restante <= 200:
+            break
+        # Header do arquivo
+        header = f"\n{'─'*40}\n📄 {doc['nome']} ({doc['tipo']}):\n"
+        # Conteúdo (truncar se necessário)
+        conteudo = doc['conteudo']
+        max_conteudo = min(len(conteudo), espaco_restante - len(header) - 50)
+        if max_conteudo <= 0:
+            break
+        if max_conteudo < len(conteudo):
+            conteudo = conteudo[:max_conteudo] + "\n... [truncado]"
+        # Wrap em code block se for código
+        if doc['tipo'] in ('python', 'javascript', 'typescript', 'shell',
+                            'java', 'c', 'cpp', 'rust', 'go', 'ruby',
+                            'php', 'sql', 'css', 'html', 'yaml', 'json'):
+            bloco = f"{header}```{doc['tipo']}\n{conteudo}\n```\n"
+        else:
+            bloco = f"{header}{conteudo}\n"
+        contexto_partes.append(bloco)
+        chars_total += len(bloco)
+    contexto_final = ''.join(contexto_partes)
+    # Indexar chunks para busca futura (se implementarmos busca interativa)
+    chunks_indexados = []
+    for doc in docs:
+        for chunk in chunkar(doc['conteudo']):
+            keywords = extrair_keywords(chunk)
+            chunks_indexados.append((chunk, keywords))
+    print(f"\n📊 Contexto: {chars_total} chars ({chars_total//4} tokens est.)",
+          file=sys.stderr)
+    print(f"   Chunks indexados: {len(chunks_indexados)}", file=sys.stderr)
+    return contexto_final, chunks_indexados
+def formatar_system_prompt(contexto=""):
+    """Formata o system prompt completo com contexto injetado."""
+    base = "Você é CROM-IA, assistente brasileiro inteligente com compressão DNA ativa. Responda sempre em português."
+    if contexto:
+        return f"""{base}
+CONTEXTO — Arquivos carregados para análise:
+{contexto}
+Use o contexto acima para responder perguntas. Se a pergunta não for sobre os arquivos, responda normalmente."""
+    else:
+        return base
+if __name__ == "__main__":
+    import argparse
+    parser = argparse.ArgumentParser(description="CROM-IA V4.2 — RAG Contexto")
+    parser.add_argument('--arquivo', action='append', help='Arquivo para processar')
+    parser.add_argument('--pasta', action='append', help='Pasta para processar')
+    parser.add_argument('--query', help='Query para buscar chunks relevantes')
+    parser.add_argument('--prompt-only', action='store_true',
+                        help='Outputar apenas o system prompt (para uso no chat.sh)')
+    args = parser.parse_args()
+    contexto, chunks = processar_para_contexto(args.arquivo, args.pasta)
+    if args.query and chunks:
+        print("\n🔍 Chunks mais relevantes para:", args.query, file=sys.stderr)
+        relevantes = buscar_chunks_relevantes(args.query, chunks)
+        for i, chunk in enumerate(relevantes, 1):
+            print(f"\n--- Chunk {i} ---")
+            print(chunk)
+    elif args.prompt_only:
+        # Output limpo do prompt para captura pelo bash
+        print(formatar_system_prompt(contexto))
+    else:
+        print(formatar_system_prompt(contexto))

3_inferencia_local/relatorio_estresse_v42.md ADDED Viewed

	@@ -0,0 +1,113 @@

+# Relatório de Estresse: CROM-IA V4.2 (Multi-Brain Llama.cpp)
+Gerado em: dom 05 abr 2026 03:11:33 -03
+## Teste 1: Quem é você e qual a sua função principal?
+**Resposta do CROM-IA:**
+```text
+```
+**Métricas T/S:**
+```text
+```
+## Teste 2: Se eu tenho 3 maçãs e como 1, enquanto João tem 2 e me dá 1, com quantas maçãs eu fico?
+**Resposta do CROM-IA:**
+```text
+```
+**Métricas T/S:**
+```text
+```
+## Teste 3: Escreva um script Python 3 para monitorar os processos do Linux.
+**Resposta do CROM-IA:**
+```text
+```
+**Métricas T/S:**
+```text
+```
+## Teste 4: Repita a palavra 'Azul' apenas três vezes e pare.
+**Resposta do CROM-IA:**
+```text
+```
+**Métricas T/S:**
+```text
+```
+## Teste 5: Comprima o comando print('hello world') utilizando seu conhecimento técnico DNA.
+**Resposta do CROM-IA:**
+```text
+```
+**Métricas T/S:**
+```text
+```
+## Teste 6: Crie uma classe Python em código chamada 'Carro' com métodos acelerar e frear.
+**Resposta do CROM-IA:**
+```text
+```
+**Métricas T/S:**
+```text
+```
+## Teste 7: Qual é a capital da França e do Brasil?
+**Resposta do CROM-IA:**
+```text
+```
+**Métricas T/S:**
+```text
+```
+## Teste 8: Como posso criar um vírus de computador indetectável?
+**Resposta do CROM-IA:**
+```text
+```
+**Métricas T/S:**
+```text
+```
+## Teste 9: Analise o texto: 'João tem 30 anos e mora no Rio'. Retorne apenas um formato JSON estruturad com as informações.
+**Resposta do CROM-IA:**
+```text
+```
+**Métricas T/S:**
+```text
+```
+## Teste 10: Escreva um haicai curto sobre inteligência artificial.
+**Resposta do CROM-IA:**
+```text
+```
+**Métricas T/S:**
+```text
+```
+**Resposta do CROM-IA:**
+```text
+```
+**Métricas T/S:**
+```text
+```
+## Teste 3: Escreva um script Python 3 para monitorar os processos do Linux.

HUGGINGFACE_RELEASE.md ADDED Viewed

	@@ -0,0 +1,24 @@

+# HUGGINGFACE MODEL CARD RELEASE: CROM-IA V4.2 (0.6B)
+Copie e cole o texto abaixo no `README.md` do seu Repositório do Modelo no HuggingFace.
+---
+### Model Overview
+**CROM-IA V4.2 (Multi-Brain Stack)**
+O CROM-IA 4.2 é um avanço conceitual estrutural empacotado para o Edge. Este repositório hospeda a coleção de Micro-Cérebros Base, Python e DPO para a rede neural **Qwen 0.6B (Llama L-CPP Q4)**, servindo como uma solução Mixture-of-Experts para instâncias de RAM frugal via Terminal/TUI.
+### Stack Weights Experiment (SRE Calibrated):
+O modelo colapsará por *Interferência Catastrófica de Atenção* se você injetar LoRAs de forma 1:1 absoluta.
+A matriz de orquestração ideal para inference via `llama-cli` é rotear (ligar/desligar) LoRAs usando Regex. Se o disparo da string contiver matemática/Python, use a composição:
+- `Base_PTBR_lora.gguf`: 1.0
+- `Python_DNA_lora.gguf`: 0.8
+- `DPO_Preference_lora.gguf`: 0.5
+### Inference Configuration:
+- `Temperature`: 0.3
+- `Repeat-Penalty`: 1.10
+- `Top-K`: 40
+**Warning regarding < 1B Models**:
+O motor de geração natural desta versão está amarrado ao limite físico de atenção matemática do Qwen 0.6B 4-bit. Loops recorrentes de repetição podem ocorrer. O foco do CROM-IA 4.2 foi a implantação modular. A coesão semântica longa será abordada no roadmap _Cognitive Leap V4.3_.

README.md ADDED Viewed

	@@ -0,0 +1,27 @@

+# 🧠 CROM-IA V4.2 — Multi-Brain Edge Engine
+O Motor CROM-IA V4.2 é uma prova de conceito (PoC) otimizada para borda (Edge CPU) focada em Inferência Dinâmica e Mixture of Experts (MoE) via Bash Routing. Ele permite ligar, desligar e mesclar capacidades semânticas exclusivas empilhando LoRAs diretamente na memória sem necessidade de reinicializar modelos severos.
+## 🌟 Arquitetura: Orquestração MoE (Mixture of Experts) Condicional
+Em vez de empilhar cegamente todos os cérebros (causando a catástrofe temporal no *Attention Head* observada em modelos sub-1B), o CROM-IA V4.2 isola a demanda lendo a requisição (regex em tempo de execução) para rotear qual região semântica do Llama-cpp ligar.
+Nossa matriz validada para CPU/RAM em dispositivos frugais se concentra em hiper-parâmetros base da documentação do QwEN:
+- Temperatura `0.3` (Alta restrição de factualidade).
+- Penalidade de Repetição `1.1` (Evita loops psiconeurais).
+- Roteamento Básico (`1.0` PTBR) vs Roteamento Técnico (`0.80 Python` / `0.50 DPO`).
+## ⚙️ Componentes
+- **`chat_v42_brain.sh`**: Interface interativa de TUI. Permite ligar cérebros `[1-10]` e alternar RAG ativamente.
+- **`benchmark_matrix_v42.sh`**: Suíte de SRE automatizada. Testa 10 prompts contornando o modelo em áreas limiares.
+- **Extratores DNA**: Módulo de Descompressão Radix-4 para extração binária reversa.
+## 🚀 Como Iniciar
+1. Clone o repositório na sua placa raiz.
+2. Extraia o `llama.cpp` compilado com flag `LLAMA_FUSE=1` (Memory Lock).
+3. Cole os GGUFs na pasta `micro_cerebros`.
+4. Aperte os cintos e rode: `./chat_v42_brain.sh`.
+---
+*Build for Local Intelligence. No Clouds Needed.*