| ⚙️ Config -> BATCH_PER_DEVICE=1, GRAD_ACC=32, MAX_LEN=1024, LR=0.0002, EPOCHS_TOTAL=1.0, CHUNK_SIZE=300, TOK_BATCH=32 |
| 📦 DATA_PATH=/workspace/data/evaluaciones_pares_input_output.jsonl.gz |
| 🔠 Cargando tokenizador... |
| 🧠 Cargando modelo base 4-bit... |
| ♻️ Retomando desde checkpoint previo... |
| trainable params: 7,176,192 || all params: 1,144,383,488 || trainable%: 0.6271 |
| 🔢 Contando líneas totales (una pasada) ... |
| ✅ Total de líneas: 20000 |
|
|
| ==================== BLOQUE 1 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.7478, 'train_samples_per_second': 0.514, 'train_steps_per_second': 0.114, 'train_loss': 1.3522244691848755, 'epoch': 0.11} |
| ✅ Bloque 1 terminado. Acumulado: 300/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 2 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8455, 'train_samples_per_second': 0.574, 'train_steps_per_second': 0.127, 'train_loss': 1.4102396965026855, 'epoch': 0.11} |
| ✅ Bloque 2 terminado. Acumulado: 600/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 3 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8688, 'train_samples_per_second': 0.572, 'train_steps_per_second': 0.127, 'train_loss': 1.376889705657959, 'epoch': 0.11} |
| ✅ Bloque 3 terminado. Acumulado: 900/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 4 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.9219, 'train_samples_per_second': 0.568, 'train_steps_per_second': 0.126, 'train_loss': 1.4048157930374146, 'epoch': 0.11} |
| ✅ Bloque 4 terminado. Acumulado: 1200/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 5 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8425, 'train_samples_per_second': 0.574, 'train_steps_per_second': 0.128, 'train_loss': 1.4059597253799438, 'epoch': 0.11} |
| ✅ Bloque 5 terminado. Acumulado: 1500/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 6 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8155, 'train_samples_per_second': 0.576, 'train_steps_per_second': 0.128, 'train_loss': 1.3940027952194214, 'epoch': 0.11} |
| ✅ Bloque 6 terminado. Acumulado: 1800/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 7 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.9907, 'train_samples_per_second': 0.563, 'train_steps_per_second': 0.125, 'train_loss': 1.3537384271621704, 'epoch': 0.11} |
| ✅ Bloque 7 terminado. Acumulado: 2100/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 8 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.029, 'train_samples_per_second': 0.56, 'train_steps_per_second': 0.125, 'train_loss': 1.3489651679992676, 'epoch': 0.11} |
| ✅ Bloque 8 terminado. Acumulado: 2400/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 9 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8209, 'train_samples_per_second': 0.575, 'train_steps_per_second': 0.128, 'train_loss': 1.4223603010177612, 'epoch': 0.11} |
| ✅ Bloque 9 terminado. Acumulado: 2700/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 10 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.796, 'train_samples_per_second': 0.577, 'train_steps_per_second': 0.128, 'train_loss': 1.4088714122772217, 'epoch': 0.11} |
| ✅ Bloque 10 terminado. Acumulado: 3000/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 11 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.9274, 'train_samples_per_second': 0.568, 'train_steps_per_second': 0.126, 'train_loss': 1.4210320711135864, 'epoch': 0.11} |
| ✅ Bloque 11 terminado. Acumulado: 3300/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 12 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8712, 'train_samples_per_second': 0.572, 'train_steps_per_second': 0.127, 'train_loss': 1.4202042818069458, 'epoch': 0.11} |
| ✅ Bloque 12 terminado. Acumulado: 3600/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 13 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.4636, 'train_samples_per_second': 0.532, 'train_steps_per_second': 0.118, 'train_loss': 1.45803701877594, 'epoch': 0.11} |
| ✅ Bloque 13 terminado. Acumulado: 3900/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 14 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8809, 'train_samples_per_second': 0.571, 'train_steps_per_second': 0.127, 'train_loss': 1.375520944595337, 'epoch': 0.11} |
| ✅ Bloque 14 terminado. Acumulado: 4200/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 15 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 9.0132, 'train_samples_per_second': 0.499, 'train_steps_per_second': 0.111, 'train_loss': 1.4456514120101929, 'epoch': 0.11} |
| ✅ Bloque 15 terminado. Acumulado: 4500/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 16 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.9159, 'train_samples_per_second': 0.568, 'train_steps_per_second': 0.126, 'train_loss': 1.3990974426269531, 'epoch': 0.11} |
| ✅ Bloque 16 terminado. Acumulado: 4800/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 17 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8909, 'train_samples_per_second': 0.57, 'train_steps_per_second': 0.127, 'train_loss': 1.3655331134796143, 'epoch': 0.11} |
| ✅ Bloque 17 terminado. Acumulado: 5100/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 18 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.2736, 'train_samples_per_second': 0.544, 'train_steps_per_second': 0.121, 'train_loss': 1.367121696472168, 'epoch': 0.11} |
| ✅ Bloque 18 terminado. Acumulado: 5400/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 19 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8921, 'train_samples_per_second': 0.57, 'train_steps_per_second': 0.127, 'train_loss': 1.4294403791427612, 'epoch': 0.11} |
| ✅ Bloque 19 terminado. Acumulado: 5700/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 20 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8161, 'train_samples_per_second': 0.576, 'train_steps_per_second': 0.128, 'train_loss': 1.4076168537139893, 'epoch': 0.11} |
| ✅ Bloque 20 terminado. Acumulado: 6000/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 21 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.799, 'train_samples_per_second': 0.577, 'train_steps_per_second': 0.128, 'train_loss': 1.3925199508666992, 'epoch': 0.11} |
| ✅ Bloque 21 terminado. Acumulado: 6300/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 22 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.2108, 'train_samples_per_second': 0.548, 'train_steps_per_second': 0.122, 'train_loss': 1.3582611083984375, 'epoch': 0.11} |
| ✅ Bloque 22 terminado. Acumulado: 6600/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 23 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.9328, 'train_samples_per_second': 0.567, 'train_steps_per_second': 0.126, 'train_loss': 1.3844921588897705, 'epoch': 0.11} |
| ✅ Bloque 23 terminado. Acumulado: 6900/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 24 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.5347, 'train_samples_per_second': 0.527, 'train_steps_per_second': 0.117, 'train_loss': 1.4399304389953613, 'epoch': 0.11} |
| ✅ Bloque 24 terminado. Acumulado: 7200/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 25 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.945, 'train_samples_per_second': 0.566, 'train_steps_per_second': 0.126, 'train_loss': 1.4433614015579224, 'epoch': 0.11} |
| ✅ Bloque 25 terminado. Acumulado: 7500/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 26 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.9109, 'train_samples_per_second': 0.569, 'train_steps_per_second': 0.126, 'train_loss': 1.459897518157959, 'epoch': 0.11} |
| ✅ Bloque 26 terminado. Acumulado: 7800/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 27 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8354, 'train_samples_per_second': 0.574, 'train_steps_per_second': 0.128, 'train_loss': 1.4087351560592651, 'epoch': 0.11} |
| ✅ Bloque 27 terminado. Acumulado: 8100/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 28 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8052, 'train_samples_per_second': 0.577, 'train_steps_per_second': 0.128, 'train_loss': 1.3621701002120972, 'epoch': 0.11} |
| ✅ Bloque 28 terminado. Acumulado: 8400/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 29 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.2427, 'train_samples_per_second': 0.546, 'train_steps_per_second': 0.121, 'train_loss': 1.41074538230896, 'epoch': 0.11} |
| ✅ Bloque 29 terminado. Acumulado: 8700/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 30 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8657, 'train_samples_per_second': 0.572, 'train_steps_per_second': 0.127, 'train_loss': 1.352297067642212, 'epoch': 0.11} |
| ✅ Bloque 30 terminado. Acumulado: 9000/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 31 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8948, 'train_samples_per_second': 0.57, 'train_steps_per_second': 0.127, 'train_loss': 1.418897032737732, 'epoch': 0.11} |
| ✅ Bloque 31 terminado. Acumulado: 9300/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 32 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8016, 'train_samples_per_second': 0.577, 'train_steps_per_second': 0.128, 'train_loss': 1.4292913675308228, 'epoch': 0.11} |
| ✅ Bloque 32 terminado. Acumulado: 9600/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 33 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8676, 'train_samples_per_second': 0.572, 'train_steps_per_second': 0.127, 'train_loss': 1.3893479108810425, 'epoch': 0.11} |
| ✅ Bloque 33 terminado. Acumulado: 9900/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 34 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.3348, 'train_samples_per_second': 0.54, 'train_steps_per_second': 0.12, 'train_loss': 1.3993480205535889, 'epoch': 0.11} |
| ✅ Bloque 34 terminado. Acumulado: 10200/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 35 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8154, 'train_samples_per_second': 0.576, 'train_steps_per_second': 0.128, 'train_loss': 1.4724717140197754, 'epoch': 0.11} |
| ✅ Bloque 35 terminado. Acumulado: 10500/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 36 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.2463, 'train_samples_per_second': 0.546, 'train_steps_per_second': 0.121, 'train_loss': 1.3512485027313232, 'epoch': 0.11} |
| ✅ Bloque 36 terminado. Acumulado: 10800/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 37 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.0336, 'train_samples_per_second': 0.56, 'train_steps_per_second': 0.124, 'train_loss': 1.3714691400527954, 'epoch': 0.11} |
| ✅ Bloque 37 terminado. Acumulado: 11100/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 38 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.0084, 'train_samples_per_second': 0.562, 'train_steps_per_second': 0.125, 'train_loss': 1.4171221256256104, 'epoch': 0.11} |
| ✅ Bloque 38 terminado. Acumulado: 11400/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 39 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8908, 'train_samples_per_second': 0.57, 'train_steps_per_second': 0.127, 'train_loss': 1.4297702312469482, 'epoch': 0.11} |
| ✅ Bloque 39 terminado. Acumulado: 11700/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 40 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8308, 'train_samples_per_second': 0.575, 'train_steps_per_second': 0.128, 'train_loss': 1.4469853639602661, 'epoch': 0.11} |
| ✅ Bloque 40 terminado. Acumulado: 12000/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 41 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.0149, 'train_samples_per_second': 0.561, 'train_steps_per_second': 0.125, 'train_loss': 1.4268006086349487, 'epoch': 0.11} |
| ✅ Bloque 41 terminado. Acumulado: 12300/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 42 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.9279, 'train_samples_per_second': 0.568, 'train_steps_per_second': 0.126, 'train_loss': 1.4060312509536743, 'epoch': 0.11} |
| ✅ Bloque 42 terminado. Acumulado: 12600/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 43 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.927, 'train_samples_per_second': 0.568, 'train_steps_per_second': 0.126, 'train_loss': 1.473849892616272, 'epoch': 0.11} |
| ✅ Bloque 43 terminado. Acumulado: 12900/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 44 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8225, 'train_samples_per_second': 0.575, 'train_steps_per_second': 0.128, 'train_loss': 1.4086536169052124, 'epoch': 0.11} |
| ✅ Bloque 44 terminado. Acumulado: 13200/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 45 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.038, 'train_samples_per_second': 0.56, 'train_steps_per_second': 0.124, 'train_loss': 1.4090956449508667, 'epoch': 0.11} |
| ✅ Bloque 45 terminado. Acumulado: 13500/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 46 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8592, 'train_samples_per_second': 0.573, 'train_steps_per_second': 0.127, 'train_loss': 1.4210567474365234, 'epoch': 0.11} |
| ✅ Bloque 46 terminado. Acumulado: 13800/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 47 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.985, 'train_samples_per_second': 0.564, 'train_steps_per_second': 0.125, 'train_loss': 1.357202172279358, 'epoch': 0.11} |
| ✅ Bloque 47 terminado. Acumulado: 14100/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 48 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8731, 'train_samples_per_second': 0.572, 'train_steps_per_second': 0.127, 'train_loss': 1.4002933502197266, 'epoch': 0.11} |
| ✅ Bloque 48 terminado. Acumulado: 14400/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 49 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8413, 'train_samples_per_second': 0.574, 'train_steps_per_second': 0.128, 'train_loss': 1.4064139127731323, 'epoch': 0.11} |
| ✅ Bloque 49 terminado. Acumulado: 14700/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 50 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.9053, 'train_samples_per_second': 0.569, 'train_steps_per_second': 0.126, 'train_loss': 1.4215424060821533, 'epoch': 0.11} |
| ✅ Bloque 50 terminado. Acumulado: 15000/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 51 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 8.4462, 'train_samples_per_second': 0.533, 'train_steps_per_second': 0.118, 'train_loss': 1.397919774055481, 'epoch': 0.11} |
| ✅ Bloque 51 terminado. Acumulado: 15300/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 52 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8452, 'train_samples_per_second': 0.574, 'train_steps_per_second': 0.127, 'train_loss': 1.4646857976913452, 'epoch': 0.11} |
| ✅ Bloque 52 terminado. Acumulado: 15600/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 53 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.7995, 'train_samples_per_second': 0.577, 'train_steps_per_second': 0.128, 'train_loss': 1.395652413368225, 'epoch': 0.11} |
| ✅ Bloque 53 terminado. Acumulado: 15900/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 54 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8485, 'train_samples_per_second': 0.573, 'train_steps_per_second': 0.127, 'train_loss': 1.367691159248352, 'epoch': 0.11} |
| ✅ Bloque 54 terminado. Acumulado: 16200/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 55 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.9295, 'train_samples_per_second': 0.567, 'train_steps_per_second': 0.126, 'train_loss': 1.4012526273727417, 'epoch': 0.11} |
| ✅ Bloque 55 terminado. Acumulado: 16500/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 56 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.884, 'train_samples_per_second': 0.571, 'train_steps_per_second': 0.127, 'train_loss': 1.3737818002700806, 'epoch': 0.11} |
| ✅ Bloque 56 terminado. Acumulado: 16800/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 57 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.79, 'train_samples_per_second': 0.578, 'train_steps_per_second': 0.128, 'train_loss': 1.4407134056091309, 'epoch': 0.11} |
| ✅ Bloque 57 terminado. Acumulado: 17100/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 58 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.9038, 'train_samples_per_second': 0.569, 'train_steps_per_second': 0.127, 'train_loss': 1.4103862047195435, 'epoch': 0.11} |
| ✅ Bloque 58 terminado. Acumulado: 17400/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 59 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.9517, 'train_samples_per_second': 0.566, 'train_steps_per_second': 0.126, 'train_loss': 1.4260621070861816, 'epoch': 0.11} |
| ✅ Bloque 59 terminado. Acumulado: 17700/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 60 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8696, 'train_samples_per_second': 0.572, 'train_steps_per_second': 0.127, 'train_loss': 1.43145751953125, 'epoch': 0.11} |
| ✅ Bloque 60 terminado. Acumulado: 18000/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 61 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.7647, 'train_samples_per_second': 0.58, 'train_steps_per_second': 0.129, 'train_loss': 1.4067848920822144, 'epoch': 0.11} |
| ✅ Bloque 61 terminado. Acumulado: 18300/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 62 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8886, 'train_samples_per_second': 0.57, 'train_steps_per_second': 0.127, 'train_loss': 1.444780707359314, 'epoch': 0.11} |
| ✅ Bloque 62 terminado. Acumulado: 18600/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 63 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.7427, 'train_samples_per_second': 0.581, 'train_steps_per_second': 0.129, 'train_loss': 1.397607445716858, 'epoch': 0.11} |
| ✅ Bloque 63 terminado. Acumulado: 18900/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 64 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.832, 'train_samples_per_second': 0.575, 'train_steps_per_second': 0.128, 'train_loss': 1.3948101997375488, 'epoch': 0.11} |
| ✅ Bloque 64 terminado. Acumulado: 19200/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 65 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8257, 'train_samples_per_second': 0.575, 'train_steps_per_second': 0.128, 'train_loss': 1.3686237335205078, 'epoch': 0.11} |
| ✅ Bloque 65 terminado. Acumulado: 19500/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 66 ==================== |
| 🧩 Ejemplos en bloque: 300 |
| ⏱️ Épocas en este bloque: 0.0150 |
| {'train_runtime': 7.8839, 'train_samples_per_second': 0.571, 'train_steps_per_second': 0.127, 'train_loss': 1.4106920957565308, 'epoch': 0.11} |
| ✅ Bloque 66 terminado. Acumulado: 19800/20000 líneas | global_step=1 |
|
|
| ==================== BLOQUE 67 ==================== |
| 🧩 Ejemplos en bloque: 200 |
| ⏱️ Épocas en este bloque: 0.0100 |
| {'train_runtime': 7.9257, 'train_samples_per_second': 0.252, 'train_steps_per_second': 0.126, 'train_loss': 1.433011770248413, 'epoch': 0.16} |
| ✅ Bloque 67 terminado. Acumulado: 20000/20000 líneas | global_step=1 |
|
|
| 🎉 Entrenamiento TOTAL completado. Modelo en: /workspace/output/starcoder_1b_qlora |
|
|