File size: 187,483 Bytes
fcb293e |
1 2 3 4 5 6 7 8 9 10 11 |
chat_template.jinja: 0%| | 0.00/610 [00:00<?, ?B/s]
chat_template.jinja: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 610/610 [00:00<00:00, 5.87MB/s]
Generating train split: 0 examples [00:00, ? examples/s]
Generating train split: 3750 examples [00:00, 22963.93 examples/s]
Generating train split: 7559 examples [00:00, 26942.73 examples/s]
Generating train split: 11364 examples [00:00, 28691.58 examples/s]
Generating train split: 15116 examples [00:00, 29522.06 examples/s]
Generating train split: 18888 examples [00:00, 30132.51 examples/s]
Generating train split: 22552 examples [00:00, 30267.93 examples/s]
Generating train split: 26332 examples [00:00, 30596.15 examples/s]
Generating train split: 30050 examples [00:01, 30678.36 examples/s]
Generating train split: 33871 examples [00:01, 29698.75 examples/s]
Generating train split: 37565 examples [00:01, 29924.17 examples/s]
Generating train split: 38770 examples [00:01, 29592.22 examples/s]
Mapping RL Dataset (num_proc=208): 0%| | 0/38770 [00:00<?, ? examples/s]
Mapping RL Dataset (num_proc=208): 0%|▌ | 187/38770 [00:03<11:34, 55.53 examples/s]
Mapping RL Dataset (num_proc=208): 1%|█▏ | 374/38770 [00:03<05:07, 124.98 examples/s]
Mapping RL Dataset (num_proc=208): 2%|██▎ | 748/38770 [00:03<02:17, 277.21 examples/s]
Mapping RL Dataset (num_proc=208): 3%|███▌ | 1122/38770 [00:04<01:20, 468.07 examples/s]
Mapping RL Dataset (num_proc=208): 4%|████▋ | 1496/38770 [00:04<00:56, 664.37 examples/s]
Mapping RL Dataset (num_proc=208): 5%|█████▉ | 1870/38770 [00:04<00:41, 899.24 examples/s]
Mapping RL Dataset (num_proc=208): 6%|███████ | 2244/38770 [00:04<00:35, 1017.45 examples/s]
Mapping RL Dataset (num_proc=208): 8%|█████████▎ | 3002/38770 [00:04<00:21, 1632.90 examples/s]
Mapping RL Dataset (num_proc=208): 10%|███████████▋ | 3740/38770 [00:05<00:16, 2163.81 examples/s]
Mapping RL Dataset (num_proc=208): 11%|████████████▊ | 4114/38770 [00:05<00:16, 2147.38 examples/s]
Mapping RL Dataset (num_proc=208): 12%|██████████████ | 4488/38770 [00:05<00:16, 2135.70 examples/s]
Mapping RL Dataset (num_proc=208): 13%|███████████████▏ | 4862/38770 [00:05<00:15, 2124.77 examples/s]
Mapping RL Dataset (num_proc=208): 14%|████████████████▎ | 5236/38770 [00:05<00:15, 2122.27 examples/s]
Mapping RL Dataset (num_proc=208): 14%|█████████████████▌ | 5610/38770 [00:06<00:15, 2113.90 examples/s]
Mapping RL Dataset (num_proc=208): 15%|██████████████████▋ | 5984/38770 [00:06<00:15, 2105.07 examples/s]
Mapping RL Dataset (num_proc=208): 16%|███████████████████▊ | 6358/38770 [00:06<00:15, 2118.10 examples/s]
Mapping RL Dataset (num_proc=208): 17%|█████████████████████ | 6732/38770 [00:06<00:15, 2119.72 examples/s]
Mapping RL Dataset (num_proc=208): 18%|██████████████████████▏ | 7106/38770 [00:06<00:15, 2108.19 examples/s]
Mapping RL Dataset (num_proc=208): 19%|███████████████████████▎ | 7480/38770 [00:06<00:14, 2124.60 examples/s]
Mapping RL Dataset (num_proc=208): 20%|████████████████████████▌ | 7854/38770 [00:07<00:14, 2118.13 examples/s]
Mapping RL Dataset (num_proc=208): 21%|█████████████████████████▋ | 8228/38770 [00:07<00:14, 2112.65 examples/s]
Mapping RL Dataset (num_proc=208): 22%|██████████████████████████▊ | 8602/38770 [00:07<00:14, 2105.46 examples/s]
Mapping RL Dataset (num_proc=208): 23%|████████████████████████████ | 8976/38770 [00:07<00:14, 2113.61 examples/s]
Mapping RL Dataset (num_proc=208): 24%|█████████████████████████████▏ | 9350/38770 [00:07<00:13, 2106.87 examples/s]
Mapping RL Dataset (num_proc=208): 25%|██████████████████████████████▎ | 9724/38770 [00:07<00:13, 2103.51 examples/s]
Mapping RL Dataset (num_proc=208): 26%|███████████████████████████████▎ | 10098/38770 [00:08<00:13, 2124.20 examples/s]
Mapping RL Dataset (num_proc=208): 27%|████████████████████████████████▍ | 10472/38770 [00:08<00:13, 2107.93 examples/s]
Mapping RL Dataset (num_proc=208): 28%|█████████████████████████████████▌ | 10846/38770 [00:08<00:14, 1955.27 examples/s]
Mapping RL Dataset (num_proc=208): 29%|██████████████████████████████████▋ | 11220/38770 [00:08<00:12, 2185.03 examples/s]
Mapping RL Dataset (num_proc=208): 30%|███████████████████████████████████▉ | 11594/38770 [00:08<00:13, 2054.25 examples/s]
Mapping RL Dataset (num_proc=208): 31%|█████████████████████████████████████ | 11968/38770 [00:09<00:13, 2052.42 examples/s]
Mapping RL Dataset (num_proc=208): 32%|██████████████████████████████████████▏ | 12342/38770 [00:09<00:14, 1816.54 examples/s]
Mapping RL Dataset (num_proc=208): 33%|███████████████████████████████████████▎ | 12716/38770 [00:09<00:13, 1892.83 examples/s]
Mapping RL Dataset (num_proc=208): 34%|████████████████████████████████████████▌ | 13090/38770 [00:09<00:13, 1949.26 examples/s]
Mapping RL Dataset (num_proc=208): 35%|█████████████████████████████████████████▋ | 13464/38770 [00:09<00:12, 1999.20 examples/s]
Mapping RL Dataset (num_proc=208): 36%|██████████████████████████████████████████▊ | 13838/38770 [00:10<00:12, 1989.05 examples/s]
Mapping RL Dataset (num_proc=208): 37%|███████████████████████████████████████████▉ | 14212/38770 [00:10<00:12, 2023.99 examples/s]
Mapping RL Dataset (num_proc=208): 38%|█████████████████████████████████████████████▏ | 14586/38770 [00:10<00:11, 2038.68 examples/s]
Mapping RL Dataset (num_proc=208): 39%|██████████████████████████████████████████████▎ | 14960/38770 [00:10<00:11, 2061.95 examples/s]
Mapping RL Dataset (num_proc=208): 40%|███████████████████████████████████████████████▍ | 15334/38770 [00:10<00:11, 2074.61 examples/s]
Mapping RL Dataset (num_proc=208): 41%|████████████████████████████████████████████████▌ | 15706/38770 [00:10<00:11, 2074.42 examples/s]
Mapping RL Dataset (num_proc=208): 41%|█████████████████████████████████████████████████▊ | 16078/38770 [00:11<00:10, 2083.05 examples/s]
Mapping RL Dataset (num_proc=208): 42%|██████████████████████████████████████████████████▉ | 16450/38770 [00:11<00:10, 2083.67 examples/s]
Mapping RL Dataset (num_proc=208): 43%|████████████████████████████████████████████████████ | 16822/38770 [00:11<00:10, 2066.37 examples/s]
Mapping RL Dataset (num_proc=208): 44%|█████████████████████████████████████████████████████▏ | 17194/38770 [00:11<00:10, 2082.44 examples/s]
Mapping RL Dataset (num_proc=208): 45%|██████████████████████████████████████████████████████▎ | 17566/38770 [00:11<00:10, 2087.42 examples/s]
Mapping RL Dataset (num_proc=208): 46%|███████████████████████████████████████████████████████▌ | 17938/38770 [00:11<00:10, 2080.22 examples/s]
Mapping RL Dataset (num_proc=208): 47%|████████████████████████████████████████████████████████▋ | 18310/38770 [00:12<00:09, 2097.15 examples/s]
Mapping RL Dataset (num_proc=208): 48%|█████████████████████████████████████████████████████████▊ | 18682/38770 [00:12<00:09, 2094.41 examples/s]
Mapping RL Dataset (num_proc=208): 49%|██████████████████████████████████████████████████████████▉ | 19054/38770 [00:12<00:09, 2087.86 examples/s]
Mapping RL Dataset (num_proc=208): 50%|████████████████████████████████████████████████████████████▏ | 19426/38770 [00:12<00:09, 2101.71 examples/s]
Mapping RL Dataset (num_proc=208): 51%|█████████████████████████████████████████████████████████████▎ | 19798/38770 [00:12<00:09, 2099.25 examples/s]
Mapping RL Dataset (num_proc=208): 52%|██████████████████████████████████████████████████████████████▍ | 20170/38770 [00:13<00:08, 2086.30 examples/s]
Mapping RL Dataset (num_proc=208): 53%|███████████████████████████████████████████████████████████████▌ | 20542/38770 [00:13<00:08, 2097.06 examples/s]
Mapping RL Dataset (num_proc=208): 54%|████████████████████████████████████████████████████████████████▋ | 20914/38770 [00:13<00:08, 2094.35 examples/s]
Mapping RL Dataset (num_proc=208): 55%|█████████████████████████████████████████████████████████████████▉ | 21286/38770 [00:13<00:08, 2080.43 examples/s]
Mapping RL Dataset (num_proc=208): 56%|███████████████████████████████████████████████████████████████████ | 21658/38770 [00:13<00:08, 2094.68 examples/s]
Mapping RL Dataset (num_proc=208): 57%|████████████████████████████████████████████████████████████████████▏ | 22030/38770 [00:13<00:08, 2087.74 examples/s]
Mapping RL Dataset (num_proc=208): 58%|█████████████████████████████████████████████████████████████████████▎ | 22402/38770 [00:14<00:07, 2086.43 examples/s]
Mapping RL Dataset (num_proc=208): 59%|██████████████████████████████████████████████████████████████████████▍ | 22774/38770 [00:14<00:06, 2285.94 examples/s]
Mapping RL Dataset (num_proc=208): 60%|███████████████████████████████████████████████████████████████████████▋ | 23146/38770 [00:14<00:07, 2202.69 examples/s]
Mapping RL Dataset (num_proc=208): 61%|████████████████████████████████████████████████████████████████████████▊ | 23518/38770 [00:15<00:12, 1231.67 examples/s]
Mapping RL Dataset (num_proc=208): 62%|█████████████████████████████████████████████████████████████████████████▉ | 23890/38770 [00:15<00:10, 1414.65 examples/s]
Mapping RL Dataset (num_proc=208): 63%|███████████████████████████████████████████████████████████████████████████ | 24262/38770 [00:15<00:09, 1578.56 examples/s]
Mapping RL Dataset (num_proc=208): 64%|████████████████████████████████████████████████████████████████████████████▏ | 24634/38770 [00:15<00:08, 1712.12 examples/s]
Mapping RL Dataset (num_proc=208): 64%|█████████████████████████████████████████████████████████████████████████████▍ | 25006/38770 [00:15<00:07, 1824.62 examples/s]
Mapping RL Dataset (num_proc=208): 65%|██████████████████████████████████████████████████████████████████████████████▌ | 25378/38770 [00:15<00:06, 1915.43 examples/s]
Mapping RL Dataset (num_proc=208): 66%|███████████████████████████████████████████████████████████████████████████████▋ | 25750/38770 [00:16<00:06, 1984.02 examples/s]
Mapping RL Dataset (num_proc=208): 67%|████████████████████████████████████████████████████████████████████████████████▊ | 26122/38770 [00:16<00:06, 2029.23 examples/s]
Mapping RL Dataset (num_proc=208): 68%|██████████████████████████████████████████████████████████████████████████████████ | 26494/38770 [00:16<00:05, 2067.79 examples/s]
Mapping RL Dataset (num_proc=208): 69%|███████████████████████████████████████████████████████████████████████████████████▏ | 26866/38770 [00:16<00:05, 2091.36 examples/s]
Mapping RL Dataset (num_proc=208): 70%|████████████████████████████████████████████████████████████████████████████████████▎ | 27238/38770 [00:16<00:05, 2113.83 examples/s]
Mapping RL Dataset (num_proc=208): 71%|█████████████████████████████████████████████████████████████████████████████████████▍ | 27610/38770 [00:16<00:05, 2131.26 examples/s]
Mapping RL Dataset (num_proc=208): 72%|██████████████████████████████████████████████████████████████████████████████████████▌ | 27982/38770 [00:17<00:05, 2138.95 examples/s]
Mapping RL Dataset (num_proc=208): 73%|███████████████████████████████████████████████████████████████████████████████████████▊ | 28354/38770 [00:17<00:04, 2147.43 examples/s]
Mapping RL Dataset (num_proc=208): 74%|████████████████████████████████████████████████████████████████████████████████████████▉ | 28726/38770 [00:17<00:04, 2147.42 examples/s]
Mapping RL Dataset (num_proc=208): 75%|██████████████████████████████████████████████████████████████████████████████████████████ | 29098/38770 [00:17<00:04, 2140.94 examples/s]
Mapping RL Dataset (num_proc=208): 76%|███████████████████████████████████████████████████████████████████████████████████████████▏ | 29470/38770 [00:17<00:04, 2139.64 examples/s]
Mapping RL Dataset (num_proc=208): 77%|████████████████████████████████████████████████████████████████████████████████████████████▎ | 29842/38770 [00:17<00:04, 2143.16 examples/s]
Mapping RL Dataset (num_proc=208): 78%|█████████████████████████████████████████████████████████████████████████████████████████████▌ | 30214/38770 [00:18<00:03, 2152.26 examples/s]
Mapping RL Dataset (num_proc=208): 79%|██████████████████████████████████████████████████████████████████████████████████████████████▋ | 30586/38770 [00:18<00:03, 2150.88 examples/s]
Mapping RL Dataset (num_proc=208): 80%|███████████████████████████████████████████████████████████████████████████████████████████████▊ | 30958/38770 [00:18<00:03, 2152.37 examples/s]
Mapping RL Dataset (num_proc=208): 81%|████████████████████████████████████████████████████████████████████████████████████████████████▉ | 31330/38770 [00:18<00:03, 2051.46 examples/s]
Mapping RL Dataset (num_proc=208): 82%|██████████████████████████████████████████████████████████████████████████████████████████████████ | 31702/38770 [00:18<00:03, 2182.92 examples/s]
Mapping RL Dataset (num_proc=208): 83%|███████████████████████████████████████████████████████████████████████████████████████████████████▎ | 32074/38770 [00:19<00:03, 2172.42 examples/s]
Mapping RL Dataset (num_proc=208): 84%|████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 32446/38770 [00:19<00:03, 1865.97 examples/s]
Mapping RL Dataset (num_proc=208): 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 32818/38770 [00:19<00:03, 1914.76 examples/s]
Mapping RL Dataset (num_proc=208): 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 33190/38770 [00:19<00:02, 1975.08 examples/s]
Mapping RL Dataset (num_proc=208): 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 33562/38770 [00:19<00:02, 2009.16 examples/s]
Mapping RL Dataset (num_proc=208): 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████ | 33934/38770 [00:20<00:02, 2015.93 examples/s]
Mapping RL Dataset (num_proc=208): 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 34306/38770 [00:20<00:02, 2047.26 examples/s]
Mapping RL Dataset (num_proc=208): 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 34678/38770 [00:20<00:01, 2047.01 examples/s]
Mapping RL Dataset (num_proc=208): 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 35050/38770 [00:20<00:01, 2056.36 examples/s]
Mapping RL Dataset (num_proc=208): 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 35422/38770 [00:20<00:01, 2058.63 examples/s]
Mapping RL Dataset (num_proc=208): 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 35794/38770 [00:20<00:01, 2057.86 examples/s]
Mapping RL Dataset (num_proc=208): 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 36166/38770 [00:21<00:01, 2047.58 examples/s]
Mapping RL Dataset (num_proc=208): 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 36538/38770 [00:21<00:01, 2073.82 examples/s]
Mapping RL Dataset (num_proc=208): 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 36910/38770 [00:21<00:00, 2073.66 examples/s]
Mapping RL Dataset (num_proc=208): 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 37282/38770 [00:21<00:00, 2068.80 examples/s]
Mapping RL Dataset (num_proc=208): 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 37654/38770 [00:21<00:00, 2081.79 examples/s]
Mapping RL Dataset (num_proc=208): 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 38026/38770 [00:21<00:00, 2257.97 examples/s]
Mapping RL Dataset (num_proc=208): 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 38398/38770 [00:22<00:00, 2222.49 examples/s]
Mapping RL Dataset (num_proc=208): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38770/38770 [00:22<00:00, 2240.52 examples/s]
Mapping RL Dataset (num_proc=208): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38770/38770 [00:23<00:00, 1676.14 examples/s]
Dropping Long Sequences (num_proc=208): 0%| | 0/38770 [00:00<?, ? examples/s]
Dropping Long Sequences (num_proc=208): 0%|▌ | 187/38770 [00:04<15:15, 42.16 examples/s]
Dropping Long Sequences (num_proc=208): 2%|██▎ | 748/38770 [00:04<03:00, 210.91 examples/s]
Dropping Long Sequences (num_proc=208): 3%|███▍ | 1122/38770 [00:04<01:52, 335.69 examples/s]
Dropping Long Sequences (num_proc=208): 4%|████▌ | 1496/38770 [00:04<01:12, 515.81 examples/s]
Dropping Long Sequences (num_proc=208): 5%|█████▋ | 1870/38770 [00:05<00:52, 703.83 examples/s]
Dropping Long Sequences (num_proc=208): 6%|██████▊ | 2244/38770 [00:05<00:39, 921.58 examples/s]
Dropping Long Sequences (num_proc=208): 7%|███████▊ | 2618/38770 [00:05<00:32, 1128.15 examples/s]
Dropping Long Sequences (num_proc=208): 8%|█████████▌ | 3179/38770 [00:05<00:25, 1398.78 examples/s]
Dropping Long Sequences (num_proc=208): 9%|██████████▋ | 3553/38770 [00:05<00:23, 1524.44 examples/s]
Dropping Long Sequences (num_proc=208): 10%|███████████▋ | 3927/38770 [00:06<00:20, 1697.47 examples/s]
Dropping Long Sequences (num_proc=208): 11%|████████████▊ | 4301/38770 [00:06<00:19, 1805.03 examples/s]
Dropping Long Sequences (num_proc=208): 12%|█████████████▉ | 4675/38770 [00:06<00:20, 1668.66 examples/s]
Dropping Long Sequences (num_proc=208): 14%|███████████████▋ | 5236/38770 [00:06<00:16, 2017.10 examples/s]
Dropping Long Sequences (num_proc=208): 14%|████████████████▊ | 5610/38770 [00:06<00:15, 2085.06 examples/s]
Dropping Long Sequences (num_proc=208): 15%|█████████████████▉ | 5984/38770 [00:07<00:15, 2098.87 examples/s]
Dropping Long Sequences (num_proc=208): 16%|███████████████████ | 6358/38770 [00:07<00:15, 2102.57 examples/s]
Dropping Long Sequences (num_proc=208): 17%|████████████████████▏ | 6732/38770 [00:07<00:15, 2117.17 examples/s]
Dropping Long Sequences (num_proc=208): 18%|█████████████████████▎ | 7106/38770 [00:07<00:14, 2124.56 examples/s]
Dropping Long Sequences (num_proc=208): 19%|██████████████████████▍ | 7480/38770 [00:07<00:14, 2146.65 examples/s]
Dropping Long Sequences (num_proc=208): 20%|███████████████████████▍ | 7854/38770 [00:08<00:16, 1829.60 examples/s]
Dropping Long Sequences (num_proc=208): 22%|█████████████████████████▏ | 8415/38770 [00:08<00:13, 2238.73 examples/s]
Dropping Long Sequences (num_proc=208): 23%|██████████████████████████▊ | 8976/38770 [00:08<00:15, 1947.56 examples/s]
Dropping Long Sequences (num_proc=208): 24%|███████████████████████████▉ | 9350/38770 [00:08<00:14, 2014.08 examples/s]
Dropping Long Sequences (num_proc=208): 26%|█████████████████████████████▋ | 9911/38770 [00:08<00:12, 2331.00 examples/s]
Dropping Long Sequences (num_proc=208): 27%|██████████████████████████████▌ | 10285/38770 [00:09<00:12, 2268.87 examples/s]
Dropping Long Sequences (num_proc=208): 27%|███████████████████████████████▌ | 10659/38770 [00:09<00:12, 2235.62 examples/s]
Dropping Long Sequences (num_proc=208): 28%|████████████████████████████████▋ | 11033/38770 [00:09<00:11, 2512.14 examples/s]
Dropping Long Sequences (num_proc=208): 29%|█████████████████████████████████▊ | 11407/38770 [00:09<00:13, 2103.09 examples/s]
Dropping Long Sequences (num_proc=208): 30%|██████████████████████████████████▉ | 11781/38770 [00:09<00:14, 1863.35 examples/s]
Dropping Long Sequences (num_proc=208): 32%|████████████████████████████████████▌ | 12342/38770 [00:10<00:12, 2185.19 examples/s]
Dropping Long Sequences (num_proc=208): 33%|█████████████████████████████████████▋ | 12716/38770 [00:10<00:12, 2137.80 examples/s]
Dropping Long Sequences (num_proc=208): 34%|██████████████████████████████████████▊ | 13090/38770 [00:10<00:12, 2075.51 examples/s]
Dropping Long Sequences (num_proc=208): 35%|███████████████████████████████████████▉ | 13464/38770 [00:10<00:11, 2254.71 examples/s]
Dropping Long Sequences (num_proc=208): 36%|█████████████████████████████████████████ | 13838/38770 [00:10<00:11, 2095.98 examples/s]
Dropping Long Sequences (num_proc=208): 37%|██████████████████████████████████████████▋ | 14399/38770 [00:10<00:10, 2416.40 examples/s]
Dropping Long Sequences (num_proc=208): 38%|███████████████████████████████████████████▊ | 14773/38770 [00:11<00:10, 2309.73 examples/s]
Dropping Long Sequences (num_proc=208): 39%|████████████████████████████████████████████▉ | 15147/38770 [00:11<00:12, 1936.41 examples/s]
Dropping Long Sequences (num_proc=208): 40%|██████████████████████████████████████████████ | 15520/38770 [00:11<00:11, 2045.93 examples/s]
Dropping Long Sequences (num_proc=208): 41%|███████████████████████████████████████████████▋ | 16078/38770 [00:11<00:12, 1852.99 examples/s]
Dropping Long Sequences (num_proc=208): 42%|████████████████████████████████████████████████▊ | 16450/38770 [00:12<00:11, 1920.41 examples/s]
Dropping Long Sequences (num_proc=208): 44%|██████████████████████████████████████████████████▍ | 17008/38770 [00:12<00:11, 1971.78 examples/s]
Dropping Long Sequences (num_proc=208): 45%|███████████████████████████████████████████████████▌ | 17380/38770 [00:12<00:10, 2002.16 examples/s]
Dropping Long Sequences (num_proc=208): 46%|█████████████████████████████████████████████████████▏ | 17938/38770 [00:12<00:09, 2298.85 examples/s]
Dropping Long Sequences (num_proc=208): 47%|██████████████████████████████████████████████████████▎ | 18310/38770 [00:12<00:09, 2215.59 examples/s]
Dropping Long Sequences (num_proc=208): 48%|███████████████████████████████████████████████████████▍ | 18682/38770 [00:13<00:09, 2188.20 examples/s]
Dropping Long Sequences (num_proc=208): 49%|████████████████████████████████████████████████████████▌ | 19054/38770 [00:13<00:10, 1918.69 examples/s]
Dropping Long Sequences (num_proc=208): 50%|█████████████████████████████████████████████████████████▌ | 19426/38770 [00:13<00:09, 1981.25 examples/s]
Dropping Long Sequences (num_proc=208): 51%|██████████████████████████████████████████████████████████▋ | 19798/38770 [00:13<00:09, 2016.87 examples/s]
Dropping Long Sequences (num_proc=208): 53%|████████████████████████████████████████████████████████████▍ | 20356/38770 [00:13<00:08, 2050.73 examples/s]
Dropping Long Sequences (num_proc=208): 53%|█████████████████████████████████████████████████████████████▍ | 20728/38770 [00:14<00:08, 2068.31 examples/s]
Dropping Long Sequences (num_proc=208): 54%|██████████████████████████████████████████████████████████████▌ | 21100/38770 [00:14<00:09, 1837.96 examples/s]
Dropping Long Sequences (num_proc=208): 56%|████████████████████████████████████████████████████████████████▏ | 21658/38770 [00:14<00:07, 2200.48 examples/s]
Dropping Long Sequences (num_proc=208): 57%|█████████████████████████████████████████████████████████████████▎ | 22030/38770 [00:14<00:08, 1916.78 examples/s]
Dropping Long Sequences (num_proc=208): 58%|███████████████████████████████████████████████████████████████████ | 22588/38770 [00:14<00:07, 2242.36 examples/s]
Dropping Long Sequences (num_proc=208): 59%|████████████████████████████████████████████████████████████████████ | 22960/38770 [00:15<00:08, 1936.92 examples/s]
Dropping Long Sequences (num_proc=208): 61%|█████████████████████████████████████████████████████████████████████▊ | 23518/38770 [00:15<00:06, 2242.65 examples/s]
Dropping Long Sequences (num_proc=208): 62%|██████████████████████████████████████████████████████████████████████▊ | 23890/38770 [00:15<00:06, 2200.93 examples/s]
Dropping Long Sequences (num_proc=208): 63%|███████████████████████████████████████████████████████████████████████▉ | 24262/38770 [00:15<00:06, 2182.75 examples/s]
Dropping Long Sequences (num_proc=208): 64%|█████████████████████████████████████████████████████████████████████████ | 24634/38770 [00:16<00:07, 1903.82 examples/s]
Dropping Long Sequences (num_proc=208): 65%|███████████████████████████████████████████████████████████████████████████▎ | 25378/38770 [00:16<00:05, 2248.66 examples/s]
Dropping Long Sequences (num_proc=208): 67%|████████████████████████████████████████████████████████████████████████████▉ | 25936/38770 [00:16<00:06, 1991.53 examples/s]
Dropping Long Sequences (num_proc=208): 69%|███████████████████████████████████████████████████████████████████████████████▏ | 26680/38770 [00:16<00:05, 2246.56 examples/s]
Dropping Long Sequences (num_proc=208): 70%|████████████████████████████████████████████████████████████████████████████████▏ | 27052/38770 [00:17<00:05, 2223.45 examples/s]
Dropping Long Sequences (num_proc=208): 71%|█████████████████████████████████████████████████████████████████████████████████▎ | 27424/38770 [00:17<00:05, 1917.41 examples/s]
Dropping Long Sequences (num_proc=208): 72%|██████████████████████████████████████████████████████████████████████████████████▍ | 27796/38770 [00:17<00:05, 2028.01 examples/s]
Dropping Long Sequences (num_proc=208): 73%|███████████████████████████████████████████████████████████████████████████████████▌ | 28168/38770 [00:17<00:05, 2054.93 examples/s]
Dropping Long Sequences (num_proc=208): 74%|█████████████████████████████████████████████████████████████████████████████████████▏ | 28726/38770 [00:17<00:04, 2363.30 examples/s]
Dropping Long Sequences (num_proc=208): 75%|██████████████████████████████████████████████████████████████████████████████████████▎ | 29098/38770 [00:18<00:04, 2256.55 examples/s]
Dropping Long Sequences (num_proc=208): 76%|███████████████████████████████████████████████████████████████████████████████████████▍ | 29470/38770 [00:18<00:04, 2281.06 examples/s]
Dropping Long Sequences (num_proc=208): 77%|████████████████████████████████████████████████████████████████████████████████████████▌ | 29842/38770 [00:18<00:04, 1957.56 examples/s]
Dropping Long Sequences (num_proc=208): 78%|█████████████████████████████████████████████████████████████████████████████████████████▌ | 30214/38770 [00:18<00:04, 2015.13 examples/s]
Dropping Long Sequences (num_proc=208): 79%|███████████████████████████████████████████████████████████████████████████████████████████▎ | 30772/38770 [00:18<00:03, 2343.72 examples/s]
Dropping Long Sequences (num_proc=208): 81%|████████████████████████████████████████████████████████████████████████████████████████████▉ | 31330/38770 [00:19<00:03, 2017.13 examples/s]
Dropping Long Sequences (num_proc=208): 82%|██████████████████████████████████████████████████████████████████████████████████████████████▌ | 31888/38770 [00:19<00:03, 2282.39 examples/s]
Dropping Long Sequences (num_proc=208): 83%|███████████████████████████████████████████████████████████████████████████████████████████████▋ | 32260/38770 [00:19<00:02, 2259.54 examples/s]
Dropping Long Sequences (num_proc=208): 84%|████████████████████████████████████████████████████████████████████████████████████████████████▊ | 32632/38770 [00:19<00:02, 2220.17 examples/s]
Dropping Long Sequences (num_proc=208): 85%|█████████████████████████████████████████████████████████████████████████████████████████████████▉ | 33004/38770 [00:19<00:02, 2184.86 examples/s]
Dropping Long Sequences (num_proc=208): 87%|███████████████████████████████████████████████████████████████████████████████████████████████████▌ | 33562/38770 [00:20<00:02, 2172.07 examples/s]
Dropping Long Sequences (num_proc=208): 88%|████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 33934/38770 [00:20<00:02, 2110.06 examples/s]
Dropping Long Sequences (num_proc=208): 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 34306/38770 [00:20<00:02, 2188.31 examples/s]
Dropping Long Sequences (num_proc=208): 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 34678/38770 [00:20<00:02, 1899.20 examples/s]
Dropping Long Sequences (num_proc=208): 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 35050/38770 [00:20<00:01, 2187.66 examples/s]
Dropping Long Sequences (num_proc=208): 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████ | 35422/38770 [00:20<00:01, 2237.90 examples/s]
Dropping Long Sequences (num_proc=208): 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 35794/38770 [00:21<00:01, 2220.34 examples/s]
Dropping Long Sequences (num_proc=208): 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 36166/38770 [00:21<00:01, 2300.79 examples/s]
Dropping Long Sequences (num_proc=208): 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 36538/38770 [00:21<00:00, 2292.04 examples/s]
Dropping Long Sequences (num_proc=208): 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 36910/38770 [00:21<00:00, 2276.31 examples/s]
Dropping Long Sequences (num_proc=208): 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 37282/38770 [00:21<00:00, 2146.86 examples/s]
Dropping Long Sequences (num_proc=208): 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 37840/38770 [00:21<00:00, 2419.98 examples/s]
Dropping Long Sequences (num_proc=208): 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 38212/38770 [00:22<00:00, 2121.23 examples/s]
Dropping Long Sequences (num_proc=208): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38770/38770 [00:22<00:00, 2313.82 examples/s]
Dropping Long Sequences (num_proc=208): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38770/38770 [00:23<00:00, 1667.81 examples/s]
Saving the dataset (0/133 shards): 0%| | 0/34053 [00:00<?, ? examples/s]
Saving the dataset (0/133 shards): 1%|▉ | 257/34053 [00:04<09:28, 59.45 examples/s]
Saving the dataset (1/133 shards): 1%|▉ | 257/34053 [00:04<09:28, 59.45 examples/s]
Saving the dataset (2/133 shards): 2%|█▊ | 514/34053 [00:04<09:24, 59.45 examples/s]
Saving the dataset (3/133 shards): 2%|██▊ | 771/34053 [00:04<09:19, 59.45 examples/s]
Saving the dataset (4/133 shards): 3%|███▋ | 1028/34053 [00:04<09:15, 59.45 examples/s]
Saving the dataset (5/133 shards): 4%|████▋ | 1285/34053 [00:04<09:11, 59.45 examples/s]
Saving the dataset (6/133 shards): 5%|█████▌ | 1541/34053 [00:04<09:06, 59.45 examples/s]
Saving the dataset (7/133 shards): 5%|██████▍ | 1797/34053 [00:04<09:02, 59.45 examples/s]
Saving the dataset (8/133 shards): 6%|███████▍ | 2053/34053 [00:04<08:58, 59.45 examples/s]
Saving the dataset (9/133 shards): 7%|████████▎ | 2309/34053 [00:04<08:53, 59.45 examples/s]
Saving the dataset (10/133 shards): 8%|█████████▏ | 2565/34053 [00:04<08:49, 59.45 examples/s]
Saving the dataset (11/133 shards): 8%|██████████ | 2821/34053 [00:04<08:45, 59.45 examples/s]
Saving the dataset (12/133 shards): 9%|███████████ | 3077/34053 [00:04<08:41, 59.45 examples/s]
Saving the dataset (13/133 shards): 10%|███████████▉ | 3333/34053 [00:04<08:36, 59.45 examples/s]
Saving the dataset (14/133 shards): 11%|████████████▊ | 3589/34053 [00:04<08:32, 59.45 examples/s]
Saving the dataset (15/133 shards): 11%|█████████████▊ | 3845/34053 [00:04<08:28, 59.45 examples/s]
Saving the dataset (16/133 shards): 12%|██████████████▋ | 4101/34053 [00:04<08:23, 59.45 examples/s]
Saving the dataset (17/133 shards): 13%|███████████████▌ | 4357/34053 [00:04<08:19, 59.45 examples/s]
Saving the dataset (18/133 shards): 14%|████████████████▌ | 4613/34053 [00:04<08:15, 59.45 examples/s]
Saving the dataset (19/133 shards): 14%|█████████████████▍ | 4869/34053 [00:04<08:10, 59.45 examples/s]
Saving the dataset (20/133 shards): 15%|██████████████████▎ | 5125/34053 [00:04<08:06, 59.45 examples/s]
Saving the dataset (21/133 shards): 16%|███████████████████▎ | 5381/34053 [00:04<08:02, 59.45 examples/s]
Saving the dataset (22/133 shards): 17%|████████████████████▏ | 5637/34053 [00:04<07:57, 59.45 examples/s]
Saving the dataset (23/133 shards): 17%|█████████████████████ | 5893/34053 [00:04<07:53, 59.45 examples/s]
Saving the dataset (24/133 shards): 18%|██████████████████████ | 6149/34053 [00:04<07:49, 59.45 examples/s]
Saving the dataset (25/133 shards): 19%|██████████████████████▉ | 6405/34053 [00:04<07:45, 59.45 examples/s]
Saving the dataset (26/133 shards): 20%|███████████████████████▊ | 6661/34053 [00:04<07:40, 59.45 examples/s]
Saving the dataset (27/133 shards): 20%|████████████████████████▊ | 6917/34053 [00:04<07:36, 59.45 examples/s]
Saving the dataset (28/133 shards): 21%|█████████████████████████▋ | 7173/34053 [00:04<07:32, 59.45 examples/s]
Saving the dataset (29/133 shards): 22%|██████████████████████████▌ | 7429/34053 [00:04<07:27, 59.45 examples/s]
Saving the dataset (30/133 shards): 23%|███████████████████████████▌ | 7685/34053 [00:04<07:23, 59.45 examples/s]
Saving the dataset (31/133 shards): 23%|████████████████████████████▍ | 7941/34053 [00:04<07:19, 59.45 examples/s]
Saving the dataset (32/133 shards): 24%|█████████████████████████████▎ | 8197/34053 [00:04<07:14, 59.45 examples/s]
Saving the dataset (33/133 shards): 25%|██████████████████████████████▎ | 8453/34053 [00:04<07:10, 59.45 examples/s]
Saving the dataset (34/133 shards): 26%|███████████████████████████████▏ | 8709/34053 [00:04<07:06, 59.45 examples/s]
Saving the dataset (35/133 shards): 26%|████████████████████████████████ | 8965/34053 [00:04<07:01, 59.45 examples/s]
Saving the dataset (36/133 shards): 27%|█████████████████████████████████ | 9221/34053 [00:04<06:57, 59.45 examples/s]
Saving the dataset (37/133 shards): 28%|█████████████████████████████████▉ | 9477/34053 [00:04<06:53, 59.45 examples/s]
Saving the dataset (38/133 shards): 29%|██████████████████████████████████▊ | 9733/34053 [00:04<06:49, 59.45 examples/s]
Saving the dataset (39/133 shards): 29%|███████████████████████████████████▊ | 9989/34053 [00:04<06:44, 59.45 examples/s]
Saving the dataset (40/133 shards): 30%|████████████████████████████████████▍ | 10245/34053 [00:04<06:40, 59.45 examples/s]
Saving the dataset (41/133 shards): 31%|█████████████████████████████████████▎ | 10501/34053 [00:04<06:36, 59.45 examples/s]
Saving the dataset (42/133 shards): 32%|██████████████████████████████████████▏ | 10757/34053 [00:04<06:31, 59.45 examples/s]
Saving the dataset (43/133 shards): 32%|███████████████████████████████████████▏ | 11013/34053 [00:04<06:27, 59.45 examples/s]
Saving the dataset (44/133 shards): 33%|████████████████████████████████████████ | 11269/34053 [00:04<06:23, 59.45 examples/s]
Saving the dataset (45/133 shards): 34%|████████████████████████████████████████▉ | 11525/34053 [00:04<06:18, 59.45 examples/s]
Saving the dataset (46/133 shards): 35%|█████████████████████████████████████████▊ | 11781/34053 [00:04<06:14, 59.45 examples/s]
Saving the dataset (47/133 shards): 35%|██████████████████████████████████████████▊ | 12037/34053 [00:04<06:10, 59.45 examples/s]
Saving the dataset (48/133 shards): 36%|███████████████████████████████████████████▋ | 12293/34053 [00:04<06:05, 59.45 examples/s]
Saving the dataset (49/133 shards): 37%|████████████████████████████████████████████▌ | 12549/34053 [00:04<06:01, 59.45 examples/s]
Saving the dataset (50/133 shards): 38%|█████████████████████████████████████████████▍ | 12805/34053 [00:04<05:57, 59.45 examples/s]
Saving the dataset (51/133 shards): 38%|██████████████████████████████████████████████▍ | 13061/34053 [00:04<05:53, 59.45 examples/s]
Saving the dataset (52/133 shards): 39%|███████████████████████████████████████████████▎ | 13317/34053 [00:04<05:48, 59.45 examples/s]
Saving the dataset (53/133 shards): 40%|████████████████████████████████████████████████▏ | 13573/34053 [00:04<05:44, 59.45 examples/s]
Saving the dataset (54/133 shards): 41%|█████████████████████████████████████████████████▏ | 13829/34053 [00:04<05:40, 59.45 examples/s]
Saving the dataset (55/133 shards): 41%|██████████████████████████████████████████████████ | 14085/34053 [00:04<05:35, 59.45 examples/s]
Saving the dataset (56/133 shards): 42%|██████████████████████████████████████████████████▉ | 14341/34053 [00:04<05:31, 59.45 examples/s]
Saving the dataset (57/133 shards): 43%|███████████████████████████████████████████████████▊ | 14597/34053 [00:04<05:27, 59.45 examples/s]
Saving the dataset (58/133 shards): 44%|████████████████████████████████████████████████████▊ | 14853/34053 [00:04<05:22, 59.45 examples/s]
Saving the dataset (59/133 shards): 44%|█████████████████████████████████████████████████████▋ | 15109/34053 [00:04<05:18, 59.45 examples/s]
Saving the dataset (60/133 shards): 45%|██████████████████████████████████████████████████████▌ | 15365/34053 [00:04<05:14, 59.45 examples/s]
Saving the dataset (61/133 shards): 46%|███████████████████████████████████████████████████████▌ | 15621/34053 [00:04<05:10, 59.45 examples/s]
Saving the dataset (62/133 shards): 47%|████████████████████████████████████████████████████████▍ | 15877/34053 [00:04<05:05, 59.45 examples/s]
Saving the dataset (63/133 shards): 47%|█████████████████████████████████████████████████████████▎ | 16133/34053 [00:04<05:01, 59.45 examples/s]
Saving the dataset (64/133 shards): 48%|██████████████████████████████████████████████████████████▏ | 16389/34053 [00:04<04:57, 59.45 examples/s]
Saving the dataset (65/133 shards): 49%|███████████████████████████████████████████████████████████▏ | 16645/34053 [00:04<04:52, 59.45 examples/s]
Saving the dataset (66/133 shards): 50%|████████████████████████████████████████████████████████████ | 16901/34053 [00:04<04:48, 59.45 examples/s]
Saving the dataset (67/133 shards): 50%|████████████████████████████████████████████████████████████▉ | 17157/34053 [00:04<04:44, 59.45 examples/s]
Saving the dataset (68/133 shards): 51%|█████████████████████████████████████████████████████████████▊ | 17413/34053 [00:04<04:39, 59.45 examples/s]
Saving the dataset (69/133 shards): 52%|██████████████████████████████████████████████████████████████▊ | 17669/34053 [00:04<04:35, 59.45 examples/s]
Saving the dataset (70/133 shards): 53%|███████████████████████████████████████████████████████████████▋ | 17925/34053 [00:04<04:31, 59.45 examples/s]
Saving the dataset (71/133 shards): 53%|████████████████████████████████████████████████████████████████▌ | 18181/34053 [00:04<04:26, 59.45 examples/s]
Saving the dataset (72/133 shards): 54%|█████████████████████████████████████████████████████████████████▌ | 18437/34053 [00:04<04:22, 59.45 examples/s]
Saving the dataset (73/133 shards): 55%|██████████████████████████████████████████████████████████████████▍ | 18693/34053 [00:04<04:18, 59.45 examples/s]
Saving the dataset (74/133 shards): 56%|███████████████████████████████████████████████████████████████████▎ | 18949/34053 [00:04<04:14, 59.45 examples/s]
Saving the dataset (75/133 shards): 56%|████████████████████████████████████████████████████████████████████▏ | 19205/34053 [00:04<04:09, 59.45 examples/s]
Saving the dataset (76/133 shards): 57%|█████████████████████████████████████████████████████████████████████▏ | 19461/34053 [00:04<04:05, 59.45 examples/s]
Saving the dataset (77/133 shards): 58%|██████████████████████████████████████████████████████████████████████ | 19717/34053 [00:04<04:01, 59.45 examples/s]
Saving the dataset (78/133 shards): 59%|██████████████████████████████████████████████████████████████████████▉ | 19973/34053 [00:04<03:56, 59.45 examples/s]
Saving the dataset (79/133 shards): 59%|███████████████████████████████████████████████████████████████████████▉ | 20229/34053 [00:04<03:52, 59.45 examples/s]
Saving the dataset (80/133 shards): 60%|████████████████████████████████████████████████████████████████████████▊ | 20485/34053 [00:04<03:48, 59.45 examples/s]
Saving the dataset (81/133 shards): 61%|█████████████████████████████████████████████████████████████████████████▋ | 20741/34053 [00:04<03:43, 59.45 examples/s]
Saving the dataset (82/133 shards): 62%|██████████████████████████████████████████████████████████████████████████▌ | 20997/34053 [00:04<03:39, 59.45 examples/s]
Saving the dataset (83/133 shards): 62%|███████████████████████████████████████████████████████████████████████████▌ | 21253/34053 [00:04<03:35, 59.45 examples/s]
Saving the dataset (84/133 shards): 63%|████████████████████████████████████████████████████████████████████████████▍ | 21509/34053 [00:04<03:30, 59.45 examples/s]
Saving the dataset (85/133 shards): 64%|█████████████████████████████████████████████████████████████████████████████▎ | 21765/34053 [00:04<03:26, 59.45 examples/s]
Saving the dataset (86/133 shards): 65%|██████████████████████████████████████████████████████████████████████████████▏ | 22021/34053 [00:04<03:22, 59.45 examples/s]
Saving the dataset (87/133 shards): 65%|███████████████████████████████████████████████████████████████████████████████▏ | 22277/34053 [00:04<03:18, 59.45 examples/s]
Saving the dataset (88/133 shards): 66%|████████████████████████████████████████████████████████████████████████████████ | 22533/34053 [00:04<03:13, 59.45 examples/s]
Saving the dataset (89/133 shards): 67%|████████████████████████████████████████████████████████████████████████████████▉ | 22789/34053 [00:04<03:09, 59.45 examples/s]
Saving the dataset (90/133 shards): 68%|█████████████████████████████████████████████████████████████████████████████████▉ | 23045/34053 [00:04<03:05, 59.45 examples/s]
Saving the dataset (91/133 shards): 68%|██████████████████████████████████████████████████████████████████████████████████▊ | 23301/34053 [00:04<03:00, 59.45 examples/s]
Saving the dataset (92/133 shards): 69%|███████████████████████████████████████████████████████████████████████████████████▋ | 23557/34053 [00:04<02:56, 59.45 examples/s]
Saving the dataset (93/133 shards): 70%|████████████████████████████████████████████████████████████████████████████████████▌ | 23813/34053 [00:04<02:52, 59.45 examples/s]
Saving the dataset (94/133 shards): 71%|█████████████████████████████████████████████████████████████████████████████████████▌ | 24069/34053 [00:04<02:47, 59.45 examples/s]
Saving the dataset (95/133 shards): 71%|██████████████████████████████████████████████████████████████████████████████████████▍ | 24325/34053 [00:04<02:43, 59.45 examples/s]
Saving the dataset (96/133 shards): 72%|███████████████████████████████████████████████████████████████████████████████████████▎ | 24581/34053 [00:04<02:39, 59.45 examples/s]
Saving the dataset (97/133 shards): 73%|████████████████████████████████████████████████████████████████████████████████████████▎ | 24837/34053 [00:04<02:35, 59.45 examples/s]
Saving the dataset (98/133 shards): 74%|█████████████████████████████████████████████████████████████████████████████████████████▏ | 25093/34053 [00:04<02:30, 59.45 examples/s]
Saving the dataset (99/133 shards): 74%|██████████████████████████████████████████████████████████████████████████████████████████ | 25349/34053 [00:04<02:26, 59.45 examples/s]
Saving the dataset (100/133 shards): 75%|██████████████████████████████████████████████████████████████████████████████████████████▏ | 25605/34053 [00:04<02:22, 59.45 examples/s]
Saving the dataset (101/133 shards): 76%|███████████████████████████████████████████████████████████████████████████████████████████▏ | 25861/34053 [00:04<02:17, 59.45 examples/s]
Saving the dataset (102/133 shards): 77%|████████████████████████████████████████████████████████████████████████████████████████████ | 26117/34053 [00:04<02:13, 59.45 examples/s]
Saving the dataset (103/133 shards): 77%|████████████████████████████████████████████████████████████████████████████████████████████▉ | 26373/34053 [00:04<02:09, 59.45 examples/s]
Saving the dataset (104/133 shards): 78%|█████████████████████████████████████████████████████████████████████████████████████████████▊ | 26629/34053 [00:04<02:04, 59.45 examples/s]
Saving the dataset (105/133 shards): 79%|██████████████████████████████████████████████████████████████████████████████████████████████▋ | 26885/34053 [00:04<02:00, 59.45 examples/s]
Saving the dataset (106/133 shards): 80%|███████████████████████████████████████████████████████████████████████████████████████████████▋ | 27141/34053 [00:04<01:56, 59.45 examples/s]
Saving the dataset (107/133 shards): 80%|████████████████████████████████████████████████████████████████████████████████████████████████▌ | 27397/34053 [00:04<01:51, 59.45 examples/s]
Saving the dataset (108/133 shards): 81%|█████████████████████████████████████████████████████████████████████████████████████████████████▍ | 27653/34053 [00:04<01:47, 59.45 examples/s]
Saving the dataset (109/133 shards): 82%|██████████████████████████████████████████████████████████████████████████████████████████████████▎ | 27909/34053 [00:04<01:43, 59.45 examples/s]
Saving the dataset (110/133 shards): 83%|███████████████████████████████████████████████████████████████████████████████████████████████████▎ | 28165/34053 [00:04<01:39, 59.45 examples/s]
Saving the dataset (111/133 shards): 83%|████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 28421/34053 [00:04<01:34, 59.45 examples/s]
Saving the dataset (112/133 shards): 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████ | 28677/34053 [00:04<01:30, 59.45 examples/s]
Saving the dataset (113/133 shards): 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 28933/34053 [00:04<01:26, 59.45 examples/s]
Saving the dataset (114/133 shards): 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 29189/34053 [00:04<01:21, 59.45 examples/s]
Saving the dataset (115/133 shards): 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 29445/34053 [00:04<01:17, 59.45 examples/s]
Saving the dataset (116/133 shards): 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 29701/34053 [00:04<01:13, 59.45 examples/s]
Saving the dataset (117/133 shards): 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 29957/34053 [00:04<01:08, 59.45 examples/s]
Saving the dataset (118/133 shards): 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 30213/34053 [00:04<01:04, 59.45 examples/s]
Saving the dataset (119/133 shards): 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 30469/34053 [00:04<01:00, 59.45 examples/s]
Saving the dataset (120/133 shards): 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 30725/34053 [00:04<00:55, 59.45 examples/s]
Saving the dataset (121/133 shards): 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 30981/34053 [00:04<00:51, 59.45 examples/s]
Saving the dataset (122/133 shards): 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 31237/34053 [00:04<00:47, 59.45 examples/s]
Saving the dataset (123/133 shards): 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 31493/34053 [00:04<00:43, 59.45 examples/s]
Saving the dataset (124/133 shards): 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 31749/34053 [00:04<00:38, 59.45 examples/s]
Saving the dataset (125/133 shards): 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 32005/34053 [00:04<00:34, 59.45 examples/s]
Saving the dataset (126/133 shards): 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 32261/34053 [00:04<00:30, 59.45 examples/s]
Saving the dataset (127/133 shards): 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 32517/34053 [00:04<00:25, 59.45 examples/s]
Saving the dataset (128/133 shards): 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 32773/34053 [00:04<00:21, 59.45 examples/s]
Saving the dataset (129/133 shards): 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 33029/34053 [00:04<00:17, 59.45 examples/s]
Saving the dataset (130/133 shards): 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 33285/34053 [00:04<00:12, 59.45 examples/s]
Saving the dataset (131/133 shards): 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 33541/34053 [00:04<00:08, 59.45 examples/s]
Saving the dataset (132/133 shards): 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 33797/34053 [00:04<00:04, 59.45 examples/s]
Saving the dataset (133/133 shards): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34053/34053 [00:04<00:00, 59.45 examples/s]
Saving the dataset (133/133 shards): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34053/34053 [00:04<00:00, 7657.75 examples/s]
Loading checkpoint shards: 0%| | 0/4 [00:00<?, ?it/s]
Loading checkpoint shards: 25%|████████████████████████████████████▎ | 1/4 [00:01<00:03, 1.12s/it]
Loading checkpoint shards: 50%|████████████████████████████████████████████████████████████████████████▌ | 2/4 [00:02<00:02, 1.12s/it]
Loading checkpoint shards: 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 3/4 [00:03<00:01, 1.13s/it]
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:03<00:00, 1.22it/s]
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:03<00:00, 1.07it/s]
Extracting prompt in train dataset (num_proc=208): 0%| | 0/34053 [00:00<?, ? examples/s]
Extracting prompt in train dataset (num_proc=208): 0%|▌ | 164/34053 [00:03<13:00, 43.41 examples/s]
Extracting prompt in train dataset (num_proc=208): 2%|██ | 656/34053 [00:03<02:32, 218.71 examples/s]
Extracting prompt in train dataset (num_proc=208): 3%|███▌ | 1148/34053 [00:04<01:13, 445.87 examples/s]
Extracting prompt in train dataset (num_proc=208): 5%|█████ | 1640/34053 [00:04<00:44, 733.07 examples/s]
Extracting prompt in train dataset (num_proc=208): 6%|██████▌ | 2132/34053 [00:04<00:29, 1073.54 examples/s]
Extracting prompt in train dataset (num_proc=208): 8%|████████▌ | 2788/34053 [00:04<00:19, 1608.45 examples/s]
Extracting prompt in train dataset (num_proc=208): 10%|██████████ | 3280/34053 [00:04<00:15, 1940.37 examples/s]
Extracting prompt in train dataset (num_proc=208): 12%|████████████▏ | 3936/34053 [00:04<00:11, 2544.15 examples/s]
Extracting prompt in train dataset (num_proc=208): 13%|█████████████▋ | 4428/34053 [00:04<00:10, 2931.14 examples/s]
Extracting prompt in train dataset (num_proc=208): 15%|███████████████▋ | 5084/34053 [00:04<00:08, 3443.14 examples/s]
Extracting prompt in train dataset (num_proc=208): 16%|█████████████████▏ | 5576/34053 [00:04<00:07, 3678.96 examples/s]
Extracting prompt in train dataset (num_proc=208): 18%|██████████████████▋ | 6068/34053 [00:05<00:07, 3807.10 examples/s]
Extracting prompt in train dataset (num_proc=208): 19%|████████████████████▏ | 6560/34053 [00:05<00:06, 4021.33 examples/s]
Extracting prompt in train dataset (num_proc=208): 21%|█████████████████████▋ | 7052/34053 [00:05<00:07, 3793.15 examples/s]
Extracting prompt in train dataset (num_proc=208): 36%|████████████████████████████████████▋ | 12136/34053 [00:05<00:01, 15194.73 examples/s]
Extracting prompt in train dataset (num_proc=208): 76%|█████████████████████████████████████████████████████████████████████████████▊ | 25740/34053 [00:05<00:00, 46153.13 examples/s]
Extracting prompt in train dataset (num_proc=208): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 34053/34053 [00:06<00:00, 5574.31 examples/s]
Applying chat template to train dataset (num_proc=208): 0%| | 0/34053 [00:00<?, ? examples/s]
Applying chat template to train dataset (num_proc=208): 0%|▍ | 164/34053 [00:04<15:33, 36.32 examples/s]
Applying chat template to train dataset (num_proc=208): 1%|█▍ | 492/34053 [00:04<04:12, 133.07 examples/s]
Applying chat template to train dataset (num_proc=208): 2%|██▍ | 820/34053 [00:04<02:14, 247.48 examples/s]
Applying chat template to train dataset (num_proc=208): 4%|███▉ | 1312/34053 [00:05<01:08, 476.42 examples/s]
Applying chat template to train dataset (num_proc=208): 5%|████▊ | 1640/34053 [00:05<00:50, 638.09 examples/s]
Applying chat template to train dataset (num_proc=208): 6%|█████▊ | 1968/34053 [00:05<00:39, 821.24 examples/s]
Applying chat template to train dataset (num_proc=208): 7%|██████▋ | 2296/34053 [00:05<00:31, 1007.75 examples/s]
Applying chat template to train dataset (num_proc=208): 8%|███████▋ | 2624/34053 [00:05<00:26, 1190.66 examples/s]
Applying chat template to train dataset (num_proc=208): 9%|████████▋ | 2952/34053 [00:05<00:22, 1365.62 examples/s]
Applying chat template to train dataset (num_proc=208): 10%|██████████ | 3444/34053 [00:06<00:19, 1570.30 examples/s]
Applying chat template to train dataset (num_proc=208): 13%|████████████▌ | 4264/34053 [00:06<00:13, 2133.55 examples/s]
Applying chat template to train dataset (num_proc=208): 14%|█████████████▉ | 4756/34053 [00:06<00:12, 2357.00 examples/s]
Applying chat template to train dataset (num_proc=208): 15%|██████████████▉ | 5084/34053 [00:06<00:12, 2306.11 examples/s]
Applying chat template to train dataset (num_proc=208): 16%|███████████████▉ | 5412/34053 [00:06<00:12, 2269.93 examples/s]
Applying chat template to train dataset (num_proc=208): 17%|████████████████▊ | 5740/34053 [00:07<00:12, 2219.05 examples/s]
Applying chat template to train dataset (num_proc=208): 18%|█████████████████▊ | 6068/34053 [00:07<00:12, 2189.34 examples/s]
Applying chat template to train dataset (num_proc=208): 19%|██████████████████▊ | 6396/34053 [00:07<00:12, 2168.54 examples/s]
Applying chat template to train dataset (num_proc=208): 20%|███████████████████▋ | 6724/34053 [00:07<00:12, 2139.81 examples/s]
Applying chat template to train dataset (num_proc=208): 21%|████████████████████▋ | 7052/34053 [00:07<00:12, 2133.81 examples/s]
Applying chat template to train dataset (num_proc=208): 22%|█████████████████████▋ | 7380/34053 [00:07<00:12, 2148.19 examples/s]
Applying chat template to train dataset (num_proc=208): 23%|██████████████████████▋ | 7708/34053 [00:07<00:12, 2117.30 examples/s]
Applying chat template to train dataset (num_proc=208): 24%|███████████████████████▌ | 8036/34053 [00:08<00:12, 2116.15 examples/s]
Applying chat template to train dataset (num_proc=208): 25%|████████████████████████▌ | 8364/34053 [00:08<00:12, 2124.02 examples/s]
Applying chat template to train dataset (num_proc=208): 26%|█████████████████████████▌ | 8692/34053 [00:08<00:11, 2126.45 examples/s]
Applying chat template to train dataset (num_proc=208): 26%|██████████████████████████▍ | 9020/34053 [00:08<00:11, 2136.70 examples/s]
Applying chat template to train dataset (num_proc=208): 27%|███████████████████████████▍ | 9348/34053 [00:08<00:11, 2132.57 examples/s]
Applying chat template to train dataset (num_proc=208): 28%|████████████████████████████▍ | 9676/34053 [00:08<00:11, 2112.38 examples/s]
Applying chat template to train dataset (num_proc=208): 29%|█████████████████████████████ | 10004/34053 [00:09<00:11, 2125.89 examples/s]
Applying chat template to train dataset (num_proc=208): 30%|██████████████████████████████ | 10332/34053 [00:09<00:11, 2123.30 examples/s]
Applying chat template to train dataset (num_proc=208): 31%|██████████████████████████████▉ | 10660/34053 [00:09<00:11, 2119.96 examples/s]
Applying chat template to train dataset (num_proc=208): 32%|███████████████████████████████▉ | 10988/34053 [00:09<00:10, 2120.02 examples/s]
Applying chat template to train dataset (num_proc=208): 33%|████████████████████████████████▉ | 11316/34053 [00:09<00:10, 2103.65 examples/s]
Applying chat template to train dataset (num_proc=208): 34%|█████████████████████████████████▊ | 11644/34053 [00:09<00:10, 2110.14 examples/s]
Applying chat template to train dataset (num_proc=208): 35%|██████████████████████████████████▊ | 11972/34053 [00:09<00:10, 2139.06 examples/s]
Applying chat template to train dataset (num_proc=208): 36%|███████████████████████████████████▊ | 12300/34053 [00:10<00:10, 2121.45 examples/s]
Applying chat template to train dataset (num_proc=208): 37%|████████████████████████████████████▋ | 12628/34053 [00:10<00:09, 2307.04 examples/s]
Applying chat template to train dataset (num_proc=208): 38%|█████████████████████████████████████▋ | 12956/34053 [00:10<00:11, 1893.40 examples/s]
Applying chat template to train dataset (num_proc=208): 39%|███████████████████████████████████████ | 13448/34053 [00:10<00:09, 2156.59 examples/s]
Applying chat template to train dataset (num_proc=208): 40%|████████████████████████████████████████ | 13776/34053 [00:10<00:11, 1808.00 examples/s]
Applying chat template to train dataset (num_proc=208): 41%|█████████████████████████████████████████ | 14104/34053 [00:11<00:10, 1874.16 examples/s]
Applying chat template to train dataset (num_proc=208): 42%|█████████████████████████████████████████▉ | 14432/34053 [00:11<00:11, 1696.36 examples/s]
Applying chat template to train dataset (num_proc=208): 43%|██████████████████████████████████████████▉ | 14760/34053 [00:11<00:11, 1738.77 examples/s]
Applying chat template to train dataset (num_proc=208): 45%|████████████████████████████████████████████▎ | 15252/34053 [00:11<00:09, 2035.83 examples/s]
Applying chat template to train dataset (num_proc=208): 46%|█████████████████████████████████████████████▎ | 15580/34053 [00:11<00:09, 1983.17 examples/s]
Applying chat template to train dataset (num_proc=208): 47%|██████████████████████████████████████████████▏ | 15908/34053 [00:12<00:09, 1967.33 examples/s]
Applying chat template to train dataset (num_proc=208): 48%|███████████████████████████████████████████████▏ | 16236/34053 [00:12<00:08, 2012.95 examples/s]
Applying chat template to train dataset (num_proc=208): 49%|████████████████████████████████████████████████▏ | 16564/34053 [00:12<00:09, 1806.99 examples/s]
Applying chat template to train dataset (num_proc=208): 50%|█████████████████████████████████████████████████ | 16892/34053 [00:12<00:08, 2025.29 examples/s]
Applying chat template to train dataset (num_proc=208): 51%|██████████████████████████████████████████████████ | 17220/34053 [00:12<00:09, 1805.64 examples/s]
Applying chat template to train dataset (num_proc=208): 52%|███████████████████████████████████████████████████ | 17548/34053 [00:12<00:08, 1865.23 examples/s]
Applying chat template to train dataset (num_proc=208): 52%|███████████████████████████████████████████████████▉ | 17876/34053 [00:13<00:08, 1950.59 examples/s]
Applying chat template to train dataset (num_proc=208): 53%|████████████████████████████████████████████████████▉ | 18204/34053 [00:13<00:08, 1761.43 examples/s]
Applying chat template to train dataset (num_proc=208): 54%|█████████████████████████████████████████████████████▉ | 18532/34053 [00:13<00:08, 1862.21 examples/s]
Applying chat template to train dataset (num_proc=208): 55%|██████████████████████████████████████████████████████▊ | 18860/34053 [00:13<00:07, 1916.20 examples/s]
Applying chat template to train dataset (num_proc=208): 56%|███████████████████████████████████████████████████████▊ | 19188/34053 [00:13<00:07, 1973.93 examples/s]
Applying chat template to train dataset (num_proc=208): 57%|████████████████████████████████████████████████████████▋ | 19516/34053 [00:13<00:07, 2012.31 examples/s]
Applying chat template to train dataset (num_proc=208): 58%|█████████████████████████████████████████████████████████▋ | 19844/34053 [00:14<00:06, 2051.54 examples/s]
Applying chat template to train dataset (num_proc=208): 59%|██████████████████████████████████████████████████████████▋ | 20172/34053 [00:14<00:06, 2086.31 examples/s]
Applying chat template to train dataset (num_proc=208): 60%|███████████████████████████████████████████████████████████▌ | 20500/34053 [00:14<00:06, 2084.71 examples/s]
Applying chat template to train dataset (num_proc=208): 61%|████████████████████████████████████████████████████████████▌ | 20828/34053 [00:14<00:06, 2094.56 examples/s]
Applying chat template to train dataset (num_proc=208): 62%|█████████████████████████████████████████████████████████████▌ | 21156/34053 [00:14<00:06, 2096.57 examples/s]
Applying chat template to train dataset (num_proc=208): 63%|██████████████████████████████████████████████████████████████▍ | 21484/34053 [00:14<00:06, 2093.99 examples/s]
Applying chat template to train dataset (num_proc=208): 64%|███████████████████████████████████████████████████████████████▍ | 21812/34053 [00:14<00:05, 2100.64 examples/s]
Applying chat template to train dataset (num_proc=208): 65%|████████████████████████████████████████████████████████████████▎ | 22140/34053 [00:15<00:05, 2105.16 examples/s]
Applying chat template to train dataset (num_proc=208): 66%|█████████████████████████████████████████████████████████████████▎ | 22468/34053 [00:15<00:05, 2124.33 examples/s]
Applying chat template to train dataset (num_proc=208): 67%|██████████████████████████████████████████████████████████████████▎ | 22796/34053 [00:15<00:05, 2107.44 examples/s]
Applying chat template to train dataset (num_proc=208): 68%|███████████████████████████████████████████████████████████████████▏ | 23124/34053 [00:15<00:05, 2116.35 examples/s]
Applying chat template to train dataset (num_proc=208): 69%|████████████████████████████████████████████████████████████████████▏ | 23452/34053 [00:15<00:04, 2139.43 examples/s]
Applying chat template to train dataset (num_proc=208): 70%|█████████████████████████████████████████████████████████████████████▏ | 23780/34053 [00:15<00:04, 2134.32 examples/s]
Applying chat template to train dataset (num_proc=208): 71%|██████████████████████████████████████████████████████████████████████ | 24108/34053 [00:16<00:04, 2139.50 examples/s]
Applying chat template to train dataset (num_proc=208): 72%|███████████████████████████████████████████████████████████████████████ | 24436/34053 [00:16<00:04, 2140.29 examples/s]
Applying chat template to train dataset (num_proc=208): 73%|███████████████████████████████████████████████████████████████████████▉ | 24762/34053 [00:16<00:04, 2135.53 examples/s]
Applying chat template to train dataset (num_proc=208): 74%|████████████████████████████████████████████████████████████████████████▉ | 25088/34053 [00:16<00:04, 2115.27 examples/s]
Applying chat template to train dataset (num_proc=208): 75%|█████████████████████████████████████████████████████████████████████████▉ | 25414/34053 [00:16<00:04, 2130.87 examples/s]
Applying chat template to train dataset (num_proc=208): 76%|██████████████████████████████████████████████████████████████████████████▊ | 25740/34053 [00:16<00:03, 2117.13 examples/s]
Applying chat template to train dataset (num_proc=208): 77%|███████████████████████████████████████████████████████████████████████████▊ | 26066/34053 [00:16<00:03, 2126.21 examples/s]
Applying chat template to train dataset (num_proc=208): 78%|████████████████████████████████████████████████████████████████████████████▋ | 26392/34053 [00:17<00:03, 2129.69 examples/s]
Applying chat template to train dataset (num_proc=208): 78%|█████████████████████████████████████████████████████████████████████████████▋ | 26718/34053 [00:17<00:03, 2132.53 examples/s]
Applying chat template to train dataset (num_proc=208): 79%|██████████████████████████████████████████████████████████████████████████████▌ | 27044/34053 [00:17<00:03, 2133.41 examples/s]
Applying chat template to train dataset (num_proc=208): 80%|███████████████████████████████████████████████████████████████████████████████▌ | 27370/34053 [00:17<00:03, 2121.98 examples/s]
Applying chat template to train dataset (num_proc=208): 81%|████████████████████████████████████████████████████████████████████████████████▌ | 27696/34053 [00:17<00:03, 2116.26 examples/s]
Applying chat template to train dataset (num_proc=208): 82%|█████████████████████████████████████████████████████████████████████████████████▍ | 28022/34053 [00:17<00:02, 2120.56 examples/s]
Applying chat template to train dataset (num_proc=208): 83%|██████████████████████████████████████████████████████████████████████████████████▍ | 28348/34053 [00:18<00:02, 2106.15 examples/s]
Applying chat template to train dataset (num_proc=208): 84%|███████████████████████████████████████████████████████████████████████████████████▎ | 28674/34053 [00:18<00:02, 2092.88 examples/s]
Applying chat template to train dataset (num_proc=208): 85%|████████████████████████████████████████████████████████████████████████████████████▎ | 29000/34053 [00:18<00:02, 2115.35 examples/s]
Applying chat template to train dataset (num_proc=208): 86%|█████████████████████████████████████████████████████████████████████████████████████▎ | 29326/34053 [00:18<00:02, 2115.27 examples/s]
Applying chat template to train dataset (num_proc=208): 87%|██████████████████████████████████████████████████████████████████████████████████████▏ | 29652/34053 [00:18<00:02, 2114.03 examples/s]
Applying chat template to train dataset (num_proc=208): 88%|███████████████████████████████████████████████████████████████████████████████████████▏ | 29978/34053 [00:18<00:01, 2119.16 examples/s]
Applying chat template to train dataset (num_proc=208): 89%|████████████████████████████████████████████████████████████████████████████████████████ | 30304/34053 [00:18<00:01, 2126.85 examples/s]
Applying chat template to train dataset (num_proc=208): 90%|█████████████████████████████████████████████████████████████████████████████████████████ | 30630/34053 [00:19<00:01, 2120.58 examples/s]
Applying chat template to train dataset (num_proc=208): 91%|█████████████████████████████████████████████████████████████████████████████████████████▉ | 30956/34053 [00:19<00:01, 2120.39 examples/s]
Applying chat template to train dataset (num_proc=208): 92%|██████████████████████████████████████████████████████████████████████████████████████████▉ | 31282/34053 [00:19<00:01, 2127.06 examples/s]
Applying chat template to train dataset (num_proc=208): 93%|███████████████████████████████████████████████████████████████████████████████████████████▉ | 31608/34053 [00:19<00:01, 2123.15 examples/s]
Applying chat template to train dataset (num_proc=208): 94%|████████████████████████████████████████████████████████████████████████████████████████████▊ | 31934/34053 [00:19<00:01, 2114.34 examples/s]
Applying chat template to train dataset (num_proc=208): 95%|█████████████████████████████████████████████████████████████████████████████████████████████▊ | 32260/34053 [00:19<00:00, 2125.01 examples/s]
Applying chat template to train dataset (num_proc=208): 96%|██████████████████████████████████████████████████████████████████████████████████████████████▋ | 32586/34053 [00:20<00:00, 2120.98 examples/s]
Applying chat template to train dataset (num_proc=208): 97%|███████████████████████████████████████████████████████████████████████████████████████████████▋ | 32912/34053 [00:20<00:00, 2110.50 examples/s]
Applying chat template to train dataset (num_proc=208): 98%|████████████████████████████████████████████████████████████████████████████████████████████████▋ | 33238/34053 [00:20<00:00, 2288.18 examples/s]
Applying chat template to train dataset (num_proc=208): 99%|█████████████████████████████████████████████████████████████████████████████████████████████████▌ | 33564/34053 [00:20<00:00, 2297.60 examples/s]
Applying chat template to train dataset (num_proc=208): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████▌| 33890/34053 [00:20<00:00, 2245.53 examples/s]
Applying chat template to train dataset (num_proc=208): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 34053/34053 [00:21<00:00, 1583.14 examples/s]
Tokenizing train dataset (num_proc=208): 0%| | 0/34053 [00:00<?, ? examples/s]
Tokenizing train dataset (num_proc=208): 0%| | 10/34053 [00:04<4:08:22, 2.28 examples/s]
Tokenizing train dataset (num_proc=208): 0%|▏ | 71/34053 [00:04<26:48, 21.13 examples/s]
Tokenizing train dataset (num_proc=208): 1%|▋ | 199/34053 [00:04<07:44, 72.85 examples/s]
Tokenizing train dataset (num_proc=208): 1%|█▎ | 381/34053 [00:04<03:23, 165.27 examples/s]
Tokenizing train dataset (num_proc=208): 2%|██▏ | 619/34053 [00:05<01:47, 310.94 examples/s]
Tokenizing train dataset (num_proc=208): 3%|███▏ | 936/34053 [00:05<01:01, 538.52 examples/s]
Tokenizing train dataset (num_proc=208): 4%|████▎ | 1266/34053 [00:05<00:41, 787.09 examples/s]
Tokenizing train dataset (num_proc=208): 5%|█████▍ | 1602/34053 [00:05<00:31, 1030.04 examples/s]
Tokenizing train dataset (num_proc=208): 6%|██████▋ | 1977/34053 [00:05<00:24, 1303.05 examples/s]
Tokenizing train dataset (num_proc=208): 7%|███████▋ | 2294/34053 [00:05<00:21, 1462.99 examples/s]
Tokenizing train dataset (num_proc=208): 8%|████████▊ | 2611/34053 [00:05<00:19, 1594.46 examples/s]
Tokenizing train dataset (num_proc=208): 9%|█████████▊ | 2920/34053 [00:06<00:18, 1672.03 examples/s]
Tokenizing train dataset (num_proc=208): 9%|██████████▉ | 3226/34053 [00:06<00:17, 1746.01 examples/s]
Tokenizing train dataset (num_proc=208): 10%|███████████▉ | 3540/34053 [00:06<00:17, 1794.48 examples/s]
Tokenizing train dataset (num_proc=208): 11%|█████████████ | 3878/34053 [00:06<00:16, 1877.03 examples/s]
Tokenizing train dataset (num_proc=208): 12%|██████████████▏ | 4208/34053 [00:06<00:15, 1934.53 examples/s]
Tokenizing train dataset (num_proc=208): 13%|███████████████▍ | 4562/34053 [00:06<00:14, 2008.15 examples/s]
Tokenizing train dataset (num_proc=208): 14%|████████████████▋ | 4937/34053 [00:07<00:13, 2083.96 examples/s]
Tokenizing train dataset (num_proc=208): 15%|█████████████████▋ | 5246/34053 [00:07<00:14, 2030.08 examples/s]
Tokenizing train dataset (num_proc=208): 16%|██████████████████▊ | 5570/34053 [00:07<00:14, 2031.36 examples/s]
Tokenizing train dataset (num_proc=208): 17%|███████████████████▉ | 5900/34053 [00:07<00:13, 2020.99 examples/s]
Tokenizing train dataset (num_proc=208): 18%|█████████████████████ | 6223/34053 [00:07<00:13, 2016.61 examples/s]
Tokenizing train dataset (num_proc=208): 19%|██████████████████████▏ | 6556/34053 [00:07<00:13, 2048.69 examples/s]
Tokenizing train dataset (num_proc=208): 20%|███████████████████████ | 6839/34053 [00:08<00:13, 1964.50 examples/s]
Tokenizing train dataset (num_proc=208): 21%|████████████████████████▏ | 7170/34053 [00:08<00:13, 1980.86 examples/s]
Tokenizing train dataset (num_proc=208): 22%|█████████████████████████▎ | 7501/34053 [00:08<00:13, 1990.03 examples/s]
Tokenizing train dataset (num_proc=208): 23%|██████████████████████████▎ | 7803/34053 [00:08<00:13, 1964.27 examples/s]
Tokenizing train dataset (num_proc=208): 24%|███████████████████████████▍ | 8131/34053 [00:08<00:13, 1969.07 examples/s]
Tokenizing train dataset (num_proc=208): 25%|████████████████████████████▌ | 8443/34053 [00:08<00:13, 1969.18 examples/s]
Tokenizing train dataset (num_proc=208): 26%|█████████████████████████████▌ | 8769/34053 [00:09<00:12, 1977.33 examples/s]
Tokenizing train dataset (num_proc=208): 27%|██████████████████████████████▊ | 9122/34053 [00:09<00:12, 2016.62 examples/s]
Tokenizing train dataset (num_proc=208): 28%|████████████████████████████████ | 9484/34053 [00:09<00:11, 2089.48 examples/s]
Tokenizing train dataset (num_proc=208): 29%|█████████████████████████████████▏ | 9818/34053 [00:09<00:11, 2062.64 examples/s]
Tokenizing train dataset (num_proc=208): 30%|█████████████████████████████████▉ | 10154/34053 [00:09<00:11, 2063.13 examples/s]
Tokenizing train dataset (num_proc=208): 31%|███████████████████████████████████▏ | 10503/34053 [00:09<00:11, 2089.39 examples/s]
Tokenizing train dataset (num_proc=208): 32%|████████████████████████████████████▏ | 10817/34053 [00:10<00:11, 2038.12 examples/s]
Tokenizing train dataset (num_proc=208): 33%|█████████████████████████████████████▏ | 11124/34053 [00:10<00:11, 2002.79 examples/s]
Tokenizing train dataset (num_proc=208): 34%|██████████████████████████████████████▎ | 11455/34053 [00:10<00:11, 2022.21 examples/s]
Tokenizing train dataset (num_proc=208): 35%|███████████████████████████████████████▍ | 11776/34053 [00:10<00:11, 2013.23 examples/s]
Tokenizing train dataset (num_proc=208): 36%|████████████████████████████████████████▌ | 12114/34053 [00:10<00:10, 2007.71 examples/s]
Tokenizing train dataset (num_proc=208): 37%|█████████████████████████████████████████▋ | 12441/34053 [00:10<00:11, 1947.86 examples/s]
Tokenizing train dataset (num_proc=208): 38%|██████████████████████████████████████████▉ | 12808/34053 [00:10<00:09, 2290.84 examples/s]
Tokenizing train dataset (num_proc=208): 38%|███████████████████████████████████████████▋ | 13057/34053 [00:11<00:10, 2017.01 examples/s]
Tokenizing train dataset (num_proc=208): 39%|████████████████████████████████████████████▋ | 13341/34053 [00:11<00:11, 1877.14 examples/s]
Tokenizing train dataset (num_proc=208): 40%|█████████████████████████████████████████████▉ | 13704/34053 [00:11<00:09, 2241.98 examples/s]
Tokenizing train dataset (num_proc=208): 41%|██████████████████████████████████████████████▋ | 13956/34053 [00:11<00:10, 1989.24 examples/s]
Tokenizing train dataset (num_proc=208): 42%|███████████████████████████████████████████████▋ | 14243/34053 [00:11<00:10, 1887.25 examples/s]
Tokenizing train dataset (num_proc=208): 43%|████████████████████████████████████████████████▋ | 14525/34053 [00:11<00:09, 2079.79 examples/s]
Tokenizing train dataset (num_proc=208): 43%|█████████████████████████████████████████████████▍ | 14756/34053 [00:12<00:10, 1852.25 examples/s]
Tokenizing train dataset (num_proc=208): 44%|██████████████████████████████████████████████████▎ | 15032/34053 [00:12<00:09, 2047.71 examples/s]
Tokenizing train dataset (num_proc=208): 45%|███████████████████████████████████████████████████ | 15255/34053 [00:12<00:10, 1813.61 examples/s]
Tokenizing train dataset (num_proc=208): 46%|███████████████████████████████████████████████████▉ | 15506/34053 [00:12<00:10, 1714.86 examples/s]
Tokenizing train dataset (num_proc=208): 46%|████████████████████████████████████████████████████▉ | 15821/34053 [00:12<00:10, 1752.30 examples/s]
Tokenizing train dataset (num_proc=208): 47%|██████████████████████████████████████████████████████ | 16146/34053 [00:12<00:08, 2070.09 examples/s]
Tokenizing train dataset (num_proc=208): 48%|██████████████████████████████████████████████████████▊ | 16374/34053 [00:12<00:09, 1840.85 examples/s]
Tokenizing train dataset (num_proc=208): 49%|███████████████████████████████████████████████████████▊ | 16657/34053 [00:13<00:09, 1788.07 examples/s]
Tokenizing train dataset (num_proc=208): 50%|████████████████████████████████████████████████████████▊ | 16986/34053 [00:13<00:09, 1801.53 examples/s]
Tokenizing train dataset (num_proc=208): 51%|█████████████████████████████████████████████████████████▉ | 17307/34053 [00:13<00:09, 1805.61 examples/s]
Tokenizing train dataset (num_proc=208): 52%|███████████████████████████████████████████████████████████ | 17644/34053 [00:13<00:07, 2118.95 examples/s]
Tokenizing train dataset (num_proc=208): 52%|███████████████████████████████████████████████████████████▊ | 17874/34053 [00:13<00:08, 1875.67 examples/s]
Tokenizing train dataset (num_proc=208): 53%|████████████████████████████████████████████████████████████▊ | 18156/34053 [00:13<00:08, 1794.55 examples/s]
Tokenizing train dataset (num_proc=208): 54%|█████████████████████████████████████████████████████████████▊ | 18460/34053 [00:13<00:07, 2058.13 examples/s]
Tokenizing train dataset (num_proc=208): 55%|██████████████████████████████████████████████████████████████▌ | 18689/34053 [00:14<00:08, 1838.52 examples/s]
Tokenizing train dataset (num_proc=208): 56%|███████████████████████████████████████████████████████████████▍ | 18956/34053 [00:14<00:08, 1725.29 examples/s]
Tokenizing train dataset (num_proc=208): 57%|████████████████████████████████████████████████████████████████▍ | 19262/34053 [00:14<00:08, 1750.66 examples/s]
Tokenizing train dataset (num_proc=208): 57%|█████████████████████████████████████████████████████████████████▌ | 19567/34053 [00:14<00:07, 2015.76 examples/s]
Tokenizing train dataset (num_proc=208): 58%|██████████████████████████████████████████████████████████████████▎ | 19791/34053 [00:14<00:07, 1798.25 examples/s]
Tokenizing train dataset (num_proc=208): 59%|███████████████████████████████████████████████████████████████████ | 20039/34053 [00:14<00:08, 1675.94 examples/s]
Tokenizing train dataset (num_proc=208): 60%|████████████████████████████████████████████████████████████████████▎ | 20410/34053 [00:15<00:07, 1811.12 examples/s]
Tokenizing train dataset (num_proc=208): 61%|█████████████████████████████████████████████████████████████████████▌ | 20779/34053 [00:15<00:06, 2190.39 examples/s]
Tokenizing train dataset (num_proc=208): 62%|██████████████████████████████████████████████████████████████████████▍ | 21024/34053 [00:15<00:06, 1963.14 examples/s]
Tokenizing train dataset (num_proc=208): 62%|███████████████████████████████████████████████████████████████████████▏ | 21260/34053 [00:15<00:07, 1797.69 examples/s]
Tokenizing train dataset (num_proc=208): 63%|████████████████████████████████████████████████████████████████████████▏ | 21578/34053 [00:15<00:06, 1839.51 examples/s]
Tokenizing train dataset (num_proc=208): 64%|█████████████████████████████████████████████████████████████████████████▎ | 21892/34053 [00:15<00:06, 1862.77 examples/s]
Tokenizing train dataset (num_proc=208): 65%|██████████████████████████████████████████████████████████████████████████▏ | 22169/34053 [00:15<00:06, 1882.69 examples/s]
Tokenizing train dataset (num_proc=208): 66%|███████████████████████████████████████████████████████████████████████████▏ | 22443/34053 [00:16<00:06, 1867.71 examples/s]
Tokenizing train dataset (num_proc=208): 67%|████████████████████████████████████████████████████████████████████████████ | 22720/34053 [00:16<00:06, 1888.10 examples/s]
Tokenizing train dataset (num_proc=208): 68%|████████████████████████████████████████████████████████████████████████████▉ | 22991/34053 [00:16<00:06, 1826.80 examples/s]
Tokenizing train dataset (num_proc=208): 69%|██████████████████████████████████████████████████████████████████████████████ | 23330/34053 [00:16<00:05, 1873.26 examples/s]
Tokenizing train dataset (num_proc=208): 70%|███████████████████████████████████████████████████████████████████████████████▎ | 23691/34053 [00:16<00:05, 1978.60 examples/s]
Tokenizing train dataset (num_proc=208): 71%|████████████████████████████████████████████████████████████████████████████████▍ | 24035/34053 [00:16<00:04, 2084.16 examples/s]
Tokenizing train dataset (num_proc=208): 71%|█████████████████████████████████████████████████████████████████████████████████▍ | 24335/34053 [00:17<00:04, 2044.56 examples/s]
Tokenizing train dataset (num_proc=208): 72%|██████████████████████████████████████████████████████████████████████████████████▌ | 24673/34053 [00:17<00:04, 2056.20 examples/s]
Tokenizing train dataset (num_proc=208): 73%|███████████████████████████████████████████████████████████████████████████████████▊ | 25025/34053 [00:17<00:04, 2097.36 examples/s]
Tokenizing train dataset (num_proc=208): 74%|████████████████████████████████████████████████████████████████████████████████████▉ | 25355/34053 [00:17<00:04, 2112.46 examples/s]
Tokenizing train dataset (num_proc=208): 75%|█████████████████████████████████████████████████████████████████████████████████████▉ | 25662/34053 [00:17<00:04, 2060.24 examples/s]
Tokenizing train dataset (num_proc=208): 76%|██████████████████████████████████████████████████████████████████████████████████████▌ | 25869/34053 [00:17<00:04, 1926.44 examples/s]
Tokenizing train dataset (num_proc=208): 77%|███████████████████████████████████████████████████████████████████████████████████████▋ | 26185/34053 [00:17<00:03, 1999.41 examples/s]
Tokenizing train dataset (num_proc=208): 78%|████████████████████████████████████████████████████████████████████████████████████████▋ | 26483/34053 [00:18<00:03, 2027.94 examples/s]
Tokenizing train dataset (num_proc=208): 79%|█████████████████████████████████████████████████████████████████████████████████████████▋ | 26800/34053 [00:18<00:03, 2003.03 examples/s]
Tokenizing train dataset (num_proc=208): 80%|██████████████████████████████████████████████████████████████████████████████████████████▊ | 27126/34053 [00:18<00:03, 2273.97 examples/s]
Tokenizing train dataset (num_proc=208): 80%|███████████████████████████████████████████████████████████████████████████████████████████▌ | 27367/34053 [00:18<00:03, 2015.41 examples/s]
Tokenizing train dataset (num_proc=208): 81%|████████████████████████████████████████████████████████████████████████████████████████████▌ | 27662/34053 [00:18<00:03, 1973.82 examples/s]
Tokenizing train dataset (num_proc=208): 82%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 27992/34053 [00:18<00:02, 2037.47 examples/s]
Tokenizing train dataset (num_proc=208): 83%|██████████████████████████████████████████████████████████████████████████████████████████████▋ | 28292/34053 [00:18<00:02, 2052.94 examples/s]
Tokenizing train dataset (num_proc=208): 84%|███████████████████████████████████████████████████████████████████████████████████████████████▌ | 28564/34053 [00:19<00:02, 2004.19 examples/s]
Tokenizing train dataset (num_proc=208): 85%|████████████████████████████████████████████████████████████████████████████████████████████████▌ | 28856/34053 [00:19<00:02, 1997.26 examples/s]
Tokenizing train dataset (num_proc=208): 86%|█████████████████████████████████████████████████████████████████████████████████████████████████▌ | 29155/34053 [00:19<00:02, 1979.61 examples/s]
Tokenizing train dataset (num_proc=208): 87%|██████████████████████████████████████████████████████████████████████████████████████████████████▋ | 29496/34053 [00:19<00:02, 1991.80 examples/s]
Tokenizing train dataset (num_proc=208): 88%|████████████████████████████████████████████████████████████████████████████████████████████████████ | 29885/34053 [00:19<00:01, 2386.29 examples/s]
Tokenizing train dataset (num_proc=208): 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 30138/34053 [00:19<00:01, 2202.80 examples/s]
Tokenizing train dataset (num_proc=208): 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 30370/34053 [00:20<00:01, 2021.81 examples/s]
Tokenizing train dataset (num_proc=208): 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 30672/34053 [00:20<00:01, 2028.25 examples/s]
Tokenizing train dataset (num_proc=208): 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 30981/34053 [00:20<00:01, 2005.56 examples/s]
Tokenizing train dataset (num_proc=208): 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 31331/34053 [00:20<00:01, 2053.73 examples/s]
Tokenizing train dataset (num_proc=208): 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 31654/34053 [00:20<00:01, 2083.21 examples/s]
Tokenizing train dataset (num_proc=208): 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████ | 31966/34053 [00:20<00:01, 2046.03 examples/s]
Tokenizing train dataset (num_proc=208): 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 32303/34053 [00:20<00:00, 2315.04 examples/s]
Tokenizing train dataset (num_proc=208): 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 32551/34053 [00:20<00:00, 2303.70 examples/s]
Tokenizing train dataset (num_proc=208): 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 32795/34053 [00:21<00:00, 2301.64 examples/s]
Tokenizing train dataset (num_proc=208): 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 33030/34053 [00:21<00:00, 2230.17 examples/s]
Tokenizing train dataset (num_proc=208): 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 33272/34053 [00:21<00:00, 2248.18 examples/s]
Tokenizing train dataset (num_proc=208): 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 33500/34053 [00:21<00:00, 2177.95 examples/s]
Tokenizing train dataset (num_proc=208): 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 33726/34053 [00:21<00:00, 1934.24 examples/s]
Tokenizing train dataset (num_proc=208): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 33930/34053 [00:21<00:00, 1565.14 examples/s]
Tokenizing train dataset (num_proc=208): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34053/34053 [00:23<00:00, 1471.63 examples/s]
Time to load cpu_adam op: 2.2873032093048096 seconds
|