Ricardouchub
/

code-specialist-7b

@@ -7,7 +7,11 @@ base_model:
 - mistralai/Mistral-7B-Instruct-v0.3
 tags:
 - code
 ---
 # Code Specialist 7B
 <p align="left">
@@ -21,59 +25,67 @@ tags:
     <img src="https://img.shields.io/badge/Transformers-4.56+-purple?style=flat-square&logo=huggingface&logoColor=white" alt="Transformers"/>
   </a>
   <a href="https://github.com/Ricardouchub">
-    <img src="https://img.shields.io/badge/Autor-Ricardo_Urdaneta-000000?style=flat-square&logo=github&logoColor=white" alt="Author"/>
   </a>
 </p>
-## Descripción
-**Code Specialist 7B** es un modelo de lenguaje basado en **Mistral-7B-Instruct-v0.3**, adaptado mediante **SFT (Supervised Fine-Tuning)** con datasets especializados en **Python y SQL**.
-El entrenamiento fue realizado con el objetivo de mejorar la capacidad del modelo en **resolución de problemas de analisis de datos y data science**.
-Este modelo mantiene la arquitectura original de **7B parámetros**, pero incorpora un ajuste fino orientado a código, lo que lo hace más robusto en generación de funciones, queries SQL y respuestas técnicas.
 ---
-## Modelo base
 - [Mistral-7B-Instruct-v0.3](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3)
-- Arquitectura: Transformer Decoder-only
-- Parámetros: ~7B
 ---
-## Dataset utilizado para SFT
 - [CodeAlpaca-20k](https://huggingface.co/datasets/sahil2801/CodeAlpaca-20k)
-- [code_instructions_122k (alpaca-style)](https://huggingface.co/datasets/TokenBender/code_instructions_122k_alpaca_style)
-Ambos datasets fueron **filtrados a ejemplos de Python y SQL**, con formato de prompts estilo **Alpaca/Mistral**.
-Ejemplo de formato aplicado:
 ```
-[INST] Escribe una función en Python que sume dos números. [/INST]
 def add(a, b):
     return a + b
 ```
 ---
-## Entrenamiento
-- **Método:** QLoRA con Merge final de pesos
-- **Frameworks:** transformers, trl, peft, bitsandbytes
-- **Hardware:** GPU 12GB VRAM (cuantización en 4-bit para entrenamiento)
-- **Hiperparámetros principales:**
-  - per_device_train_batch_size=2
-  - gradient_accumulation_steps=4
-  - learning_rate=2e-4
-  - num_train_epochs=1
-  - max_seq_length=1024
 ---
-## Uso
 ```python
 from transformers import AutoTokenizer, AutoModelForCausalLM
@@ -82,7 +94,7 @@ model_id = "Ricardouchub/Code-Specialist-7B"
 tok = AutoTokenizer.from_pretrained(model_id)
 mdl = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")
-prompt = "[INST] Escribe una función en Python que calcule la media de una lista. [/INST]"
 inputs = tok(prompt, return_tensors="pt").to(mdl.device)
 out = mdl.generate(**inputs, max_new_tokens=256)
@@ -91,14 +103,14 @@ print(tok.decode(out[0], skip_special_tokens=True))
 ---
-## Benchmarks iniciales
-- **Eval simple (Python tasks):** mejora en tareas básicas de programación para uso en **data analysis, SQL queries y snippets Python** comparado con el modelo base.
-- Se recomienda evaluar en HumanEval / MBPP para métricas reproducibles.
 ---
-## Autor
 **Ricardo Urdaneta**
 - [LinkedIn](https://www.linkedin.com/in/ricardourdanetacastro/)
@@ -106,13 +118,13 @@ print(tok.decode(out[0], skip_special_tokens=True))
 ---
-## Limitaciones
-- El modelo **no garantiza exactitud 100%** en código complejo.
-- Puede generar respuestas incoherentes en prompts ambiguos.
 ---
-## Licencia
-El modelo se publica con la misma licencia que **Mistral-7B-Instruct-v0.3**: **MIT**

 - mistralai/Mistral-7B-Instruct-v0.3
 tags:
 - code
+- python
+- sql
+- data-science
 ---
 # Code Specialist 7B
 <p align="left">
     <img src="https://img.shields.io/badge/Transformers-4.56+-purple?style=flat-square&logo=huggingface&logoColor=white" alt="Transformers"/>
   </a>
   <a href="https://github.com/Ricardouchub">
+    <img src="https://img.shields.io/badge/Author-Ricardo_Urdaneta-000000?style=flat-square&logo=github&logoColor=white" alt="Author"/>
   </a>
 </p>
+---
+## Description
+**Code Specialist 7B** is a fine-tuned version of **Mistral-7B-Instruct-v0.3**, trained through **Supervised Fine-Tuning (SFT)** using datasets focused on **Python and SQL**.
+The goal of this training was to enhance the model’s performance in **data analysis, programming problem-solving, and technical reasoning**.
+The model preserves the **7B parameter Transformer decoder-only** architecture while introducing a code-oriented fine-tuning, resulting in improved robustness for function generation, SQL queries, and technical answers.
 ---
+## Base Model
 - [Mistral-7B-Instruct-v0.3](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3)
+- Architecture: Transformer (decoder-only)
+- Parameters: ~7B
 ---
+## Datasets Used for SFT
 - [CodeAlpaca-20k](https://huggingface.co/datasets/sahil2801/CodeAlpaca-20k)
+- [Code Instructions 122k (Alpaca-style)](https://huggingface.co/datasets/TokenBender/code_instructions_122k_alpaca_style)
+Both datasets were **filtered to include only Python and SQL examples**, following **Alpaca/Mistral-style** instruction formatting.
+Example prompt format:
 ```
+[INST] Write a Python function that adds two numbers. [/INST]
 def add(a, b):
     return a + b
 ```
 ---
+## Training Details
+| **Aspect**        | **Detail** |
+|--------------------|-------------|
+| **Method**         | QLoRA with final weight merge |
+| **Frameworks**     | `transformers`, `trl`, `peft`, `bitsandbytes` |
+| **Hardware**       | GPU with 12 GB VRAM (4-bit quantization for training) |
+### Main Hyperparameters
+| **Parameter** | **Value** |
+|----------------|-----------|
+| `per_device_train_batch_size` | 2 |
+| `gradient_accumulation_steps` | 4 |
+| `learning_rate` | 2e-4 |
+| `num_train_epochs` | 1 |
+| `max_seq_length` | 1024 |
 ---
+## Usage
 ```python
 from transformers import AutoTokenizer, AutoModelForCausalLM
 tok = AutoTokenizer.from_pretrained(model_id)
 mdl = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")
+prompt = "[INST] Write a Python function that calculates the average of a list. [/INST]"
 inputs = tok(prompt, return_tensors="pt").to(mdl.device)
 out = mdl.generate(**inputs, max_new_tokens=256)
 ---
+## Initial Benchmarks
+- **Simple evaluation (Python tasks):** Improved results on small programming and data-related tasks, including **data analysis, SQL query generation, and Python snippets**, compared to the base model.
+- Further evaluation on **HumanEval** or **MBPP** is recommended for reproducible metrics.
 ---
+## Author
 **Ricardo Urdaneta**
 - [LinkedIn](https://www.linkedin.com/in/ricardourdanetacastro/)
 ---
+## Limitations
+- The model does **not guarantee 100% accuracy** on complex programming tasks.
+- It may produce inconsistent results for ambiguous or incomplete prompts.
 ---
+## License
+This model is released under the same license as **Mistral-7B-Instruct-v0.3** — **MIT License**.