File size: 187,483 Bytes
fcb293e
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11

chat_template.jinja:   0%|                                                                                                                                                           | 0.00/610 [00:00<?, ?B/s]
chat_template.jinja: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 610/610 [00:00<00:00, 5.87MB/s]

Generating train split: 0 examples [00:00, ? examples/s]
Generating train split: 3750 examples [00:00, 22963.93 examples/s]
Generating train split: 7559 examples [00:00, 26942.73 examples/s]
Generating train split: 11364 examples [00:00, 28691.58 examples/s]
Generating train split: 15116 examples [00:00, 29522.06 examples/s]
Generating train split: 18888 examples [00:00, 30132.51 examples/s]
Generating train split: 22552 examples [00:00, 30267.93 examples/s]
Generating train split: 26332 examples [00:00, 30596.15 examples/s]
Generating train split: 30050 examples [00:01, 30678.36 examples/s]
Generating train split: 33871 examples [00:01, 29698.75 examples/s]
Generating train split: 37565 examples [00:01, 29924.17 examples/s]
Generating train split: 38770 examples [00:01, 29592.22 examples/s]

Mapping RL Dataset (num_proc=208):   0%|                                                                                                                                      | 0/38770 [00:00<?, ? examples/s]
Mapping RL Dataset (num_proc=208):   0%|▌                                                                                                                           | 187/38770 [00:03<11:34, 55.53 examples/s]
Mapping RL Dataset (num_proc=208):   1%|█▏                                                                                                                         | 374/38770 [00:03<05:07, 124.98 examples/s]
Mapping RL Dataset (num_proc=208):   2%|██▎                                                                                                                        | 748/38770 [00:03<02:17, 277.21 examples/s]
Mapping RL Dataset (num_proc=208):   3%|███▌                                                                                                                      | 1122/38770 [00:04<01:20, 468.07 examples/s]
Mapping RL Dataset (num_proc=208):   4%|████▋                                                                                                                     | 1496/38770 [00:04<00:56, 664.37 examples/s]
Mapping RL Dataset (num_proc=208):   5%|█████▉                                                                                                                    | 1870/38770 [00:04<00:41, 899.24 examples/s]
Mapping RL Dataset (num_proc=208):   6%|███████                                                                                                                  | 2244/38770 [00:04<00:35, 1017.45 examples/s]
Mapping RL Dataset (num_proc=208):   8%|█████████▎                                                                                                               | 3002/38770 [00:04<00:21, 1632.90 examples/s]
Mapping RL Dataset (num_proc=208):  10%|███████████▋                                                                                                             | 3740/38770 [00:05<00:16, 2163.81 examples/s]
Mapping RL Dataset (num_proc=208):  11%|████████████▊                                                                                                            | 4114/38770 [00:05<00:16, 2147.38 examples/s]
Mapping RL Dataset (num_proc=208):  12%|██████████████                                                                                                           | 4488/38770 [00:05<00:16, 2135.70 examples/s]
Mapping RL Dataset (num_proc=208):  13%|███████████████▏                                                                                                         | 4862/38770 [00:05<00:15, 2124.77 examples/s]
Mapping RL Dataset (num_proc=208):  14%|████████████████▎                                                                                                        | 5236/38770 [00:05<00:15, 2122.27 examples/s]
Mapping RL Dataset (num_proc=208):  14%|█████████████████▌                                                                                                       | 5610/38770 [00:06<00:15, 2113.90 examples/s]
Mapping RL Dataset (num_proc=208):  15%|██████████████████▋                                                                                                      | 5984/38770 [00:06<00:15, 2105.07 examples/s]
Mapping RL Dataset (num_proc=208):  16%|███████████████████▊                                                                                                     | 6358/38770 [00:06<00:15, 2118.10 examples/s]
Mapping RL Dataset (num_proc=208):  17%|█████████████████████                                                                                                    | 6732/38770 [00:06<00:15, 2119.72 examples/s]
Mapping RL Dataset (num_proc=208):  18%|██████████████████████▏                                                                                                  | 7106/38770 [00:06<00:15, 2108.19 examples/s]
Mapping RL Dataset (num_proc=208):  19%|███████████████████████▎                                                                                                 | 7480/38770 [00:06<00:14, 2124.60 examples/s]
Mapping RL Dataset (num_proc=208):  20%|████████████████████████▌                                                                                                | 7854/38770 [00:07<00:14, 2118.13 examples/s]
Mapping RL Dataset (num_proc=208):  21%|█████████████████████████▋                                                                                               | 8228/38770 [00:07<00:14, 2112.65 examples/s]
Mapping RL Dataset (num_proc=208):  22%|██████████████████████████▊                                                                                              | 8602/38770 [00:07<00:14, 2105.46 examples/s]
Mapping RL Dataset (num_proc=208):  23%|████████████████████████████                                                                                             | 8976/38770 [00:07<00:14, 2113.61 examples/s]
Mapping RL Dataset (num_proc=208):  24%|█████████████████████████████▏                                                                                           | 9350/38770 [00:07<00:13, 2106.87 examples/s]
Mapping RL Dataset (num_proc=208):  25%|██████████████████████████████▎                                                                                          | 9724/38770 [00:07<00:13, 2103.51 examples/s]
Mapping RL Dataset (num_proc=208):  26%|███████████████████████████████▎                                                                                        | 10098/38770 [00:08<00:13, 2124.20 examples/s]
Mapping RL Dataset (num_proc=208):  27%|████████████████████████████████▍                                                                                       | 10472/38770 [00:08<00:13, 2107.93 examples/s]
Mapping RL Dataset (num_proc=208):  28%|█████████████████████████████████▌                                                                                      | 10846/38770 [00:08<00:14, 1955.27 examples/s]
Mapping RL Dataset (num_proc=208):  29%|██████████████████████████████████▋                                                                                     | 11220/38770 [00:08<00:12, 2185.03 examples/s]
Mapping RL Dataset (num_proc=208):  30%|███████████████████████████████████▉                                                                                    | 11594/38770 [00:08<00:13, 2054.25 examples/s]
Mapping RL Dataset (num_proc=208):  31%|█████████████████████████████████████                                                                                   | 11968/38770 [00:09<00:13, 2052.42 examples/s]
Mapping RL Dataset (num_proc=208):  32%|██████████████████████████████████████▏                                                                                 | 12342/38770 [00:09<00:14, 1816.54 examples/s]
Mapping RL Dataset (num_proc=208):  33%|███████████████████████████████████████▎                                                                                | 12716/38770 [00:09<00:13, 1892.83 examples/s]
Mapping RL Dataset (num_proc=208):  34%|████████████████████████████████████████▌                                                                               | 13090/38770 [00:09<00:13, 1949.26 examples/s]
Mapping RL Dataset (num_proc=208):  35%|█████████████████████████████████████████▋                                                                              | 13464/38770 [00:09<00:12, 1999.20 examples/s]
Mapping RL Dataset (num_proc=208):  36%|██████████████████████████████████████████▊                                                                             | 13838/38770 [00:10<00:12, 1989.05 examples/s]
Mapping RL Dataset (num_proc=208):  37%|███████████████████████████████████████████▉                                                                            | 14212/38770 [00:10<00:12, 2023.99 examples/s]
Mapping RL Dataset (num_proc=208):  38%|█████████████████████████████████████████████▏                                                                          | 14586/38770 [00:10<00:11, 2038.68 examples/s]
Mapping RL Dataset (num_proc=208):  39%|██████████████████████████████████████████████▎                                                                         | 14960/38770 [00:10<00:11, 2061.95 examples/s]
Mapping RL Dataset (num_proc=208):  40%|███████████████████████████████████████████████▍                                                                        | 15334/38770 [00:10<00:11, 2074.61 examples/s]
Mapping RL Dataset (num_proc=208):  41%|████████████████████████████████████████████████▌                                                                       | 15706/38770 [00:10<00:11, 2074.42 examples/s]
Mapping RL Dataset (num_proc=208):  41%|█████████████████████████████████████████████████▊                                                                      | 16078/38770 [00:11<00:10, 2083.05 examples/s]
Mapping RL Dataset (num_proc=208):  42%|██████████████████████████████████████████████████▉                                                                     | 16450/38770 [00:11<00:10, 2083.67 examples/s]
Mapping RL Dataset (num_proc=208):  43%|████████████████████████████████████████████████████                                                                    | 16822/38770 [00:11<00:10, 2066.37 examples/s]
Mapping RL Dataset (num_proc=208):  44%|█████████████████████████████████████████████████████▏                                                                  | 17194/38770 [00:11<00:10, 2082.44 examples/s]
Mapping RL Dataset (num_proc=208):  45%|██████████████████████████████████████████████████████▎                                                                 | 17566/38770 [00:11<00:10, 2087.42 examples/s]
Mapping RL Dataset (num_proc=208):  46%|███████████████████████████████████████████████████████▌                                                                | 17938/38770 [00:11<00:10, 2080.22 examples/s]
Mapping RL Dataset (num_proc=208):  47%|████████████████████████████████████████████████████████▋                                                               | 18310/38770 [00:12<00:09, 2097.15 examples/s]
Mapping RL Dataset (num_proc=208):  48%|█████████████████████████████████████████████████████████▊                                                              | 18682/38770 [00:12<00:09, 2094.41 examples/s]
Mapping RL Dataset (num_proc=208):  49%|██████████████████████████████████████████████████████████▉                                                             | 19054/38770 [00:12<00:09, 2087.86 examples/s]
Mapping RL Dataset (num_proc=208):  50%|████████████████████████████████████████████████████████████▏                                                           | 19426/38770 [00:12<00:09, 2101.71 examples/s]
Mapping RL Dataset (num_proc=208):  51%|█████████████████████████████████████████████████████████████▎                                                          | 19798/38770 [00:12<00:09, 2099.25 examples/s]
Mapping RL Dataset (num_proc=208):  52%|██████████████████████████████████████████████████████████████▍                                                         | 20170/38770 [00:13<00:08, 2086.30 examples/s]
Mapping RL Dataset (num_proc=208):  53%|███████████████████████████████████████████████████████████████▌                                                        | 20542/38770 [00:13<00:08, 2097.06 examples/s]
Mapping RL Dataset (num_proc=208):  54%|████████████████████████████████████████████████████████████████▋                                                       | 20914/38770 [00:13<00:08, 2094.35 examples/s]
Mapping RL Dataset (num_proc=208):  55%|█████████████████████████████████████████████████████████████████▉                                                      | 21286/38770 [00:13<00:08, 2080.43 examples/s]
Mapping RL Dataset (num_proc=208):  56%|███████████████████████████████████████████████████████████████████                                                     | 21658/38770 [00:13<00:08, 2094.68 examples/s]
Mapping RL Dataset (num_proc=208):  57%|████████████████████████████████████████████████████████████████████▏                                                   | 22030/38770 [00:13<00:08, 2087.74 examples/s]
Mapping RL Dataset (num_proc=208):  58%|█████████████████████████████████████████████████████████████████████▎                                                  | 22402/38770 [00:14<00:07, 2086.43 examples/s]
Mapping RL Dataset (num_proc=208):  59%|██████████████████████████████████████████████████████████████████████▍                                                 | 22774/38770 [00:14<00:06, 2285.94 examples/s]
Mapping RL Dataset (num_proc=208):  60%|███████████████████████████████████████████████████████████████████████▋                                                | 23146/38770 [00:14<00:07, 2202.69 examples/s]
Mapping RL Dataset (num_proc=208):  61%|████████████████████████████████████████████████████████████████████████▊                                               | 23518/38770 [00:15<00:12, 1231.67 examples/s]
Mapping RL Dataset (num_proc=208):  62%|█████████████████████████████████████████████████████████████████████████▉                                              | 23890/38770 [00:15<00:10, 1414.65 examples/s]
Mapping RL Dataset (num_proc=208):  63%|███████████████████████████████████████████████████████████████████████████                                             | 24262/38770 [00:15<00:09, 1578.56 examples/s]
Mapping RL Dataset (num_proc=208):  64%|████████████████████████████████████████████████████████████████████████████▏                                           | 24634/38770 [00:15<00:08, 1712.12 examples/s]
Mapping RL Dataset (num_proc=208):  64%|█████████████████████████████████████████████████████████████████████████████▍                                          | 25006/38770 [00:15<00:07, 1824.62 examples/s]
Mapping RL Dataset (num_proc=208):  65%|██████████████████████████████████████████████████████████████████████████████▌                                         | 25378/38770 [00:15<00:06, 1915.43 examples/s]
Mapping RL Dataset (num_proc=208):  66%|███████████████████████████████████████████████████████████████████████████████▋                                        | 25750/38770 [00:16<00:06, 1984.02 examples/s]
Mapping RL Dataset (num_proc=208):  67%|████████████████████████████████████████████████████████████████████████████████▊                                       | 26122/38770 [00:16<00:06, 2029.23 examples/s]
Mapping RL Dataset (num_proc=208):  68%|██████████████████████████████████████████████████████████████████████████████████                                      | 26494/38770 [00:16<00:05, 2067.79 examples/s]
Mapping RL Dataset (num_proc=208):  69%|███████████████████████████████████████████████████████████████████████████████████▏                                    | 26866/38770 [00:16<00:05, 2091.36 examples/s]
Mapping RL Dataset (num_proc=208):  70%|████████████████████████████████████████████████████████████████████████████████████▎                                   | 27238/38770 [00:16<00:05, 2113.83 examples/s]
Mapping RL Dataset (num_proc=208):  71%|█████████████████████████████████████████████████████████████████████████████████████▍                                  | 27610/38770 [00:16<00:05, 2131.26 examples/s]
Mapping RL Dataset (num_proc=208):  72%|██████████████████████████████████████████████████████████████████████████████████████▌                                 | 27982/38770 [00:17<00:05, 2138.95 examples/s]
Mapping RL Dataset (num_proc=208):  73%|███████████████████████████████████████████████████████████████████████████████████████▊                                | 28354/38770 [00:17<00:04, 2147.43 examples/s]
Mapping RL Dataset (num_proc=208):  74%|████████████████████████████████████████████████████████████████████████████████████████▉                               | 28726/38770 [00:17<00:04, 2147.42 examples/s]
Mapping RL Dataset (num_proc=208):  75%|██████████████████████████████████████████████████████████████████████████████████████████                              | 29098/38770 [00:17<00:04, 2140.94 examples/s]
Mapping RL Dataset (num_proc=208):  76%|███████████████████████████████████████████████████████████████████████████████████████████▏                            | 29470/38770 [00:17<00:04, 2139.64 examples/s]
Mapping RL Dataset (num_proc=208):  77%|████████████████████████████████████████████████████████████████████████████████████████████▎                           | 29842/38770 [00:17<00:04, 2143.16 examples/s]
Mapping RL Dataset (num_proc=208):  78%|█████████████████████████████████████████████████████████████████████████████████████████████▌                          | 30214/38770 [00:18<00:03, 2152.26 examples/s]
Mapping RL Dataset (num_proc=208):  79%|██████████████████████████████████████████████████████████████████████████████████████████████▋                         | 30586/38770 [00:18<00:03, 2150.88 examples/s]
Mapping RL Dataset (num_proc=208):  80%|███████████████████████████████████████████████████████████████████████████████████████████████▊                        | 30958/38770 [00:18<00:03, 2152.37 examples/s]
Mapping RL Dataset (num_proc=208):  81%|████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 31330/38770 [00:18<00:03, 2051.46 examples/s]
Mapping RL Dataset (num_proc=208):  82%|██████████████████████████████████████████████████████████████████████████████████████████████████                      | 31702/38770 [00:18<00:03, 2182.92 examples/s]
Mapping RL Dataset (num_proc=208):  83%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 32074/38770 [00:19<00:03, 2172.42 examples/s]
Mapping RL Dataset (num_proc=208):  84%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 32446/38770 [00:19<00:03, 1865.97 examples/s]
Mapping RL Dataset (num_proc=208):  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 32818/38770 [00:19<00:03, 1914.76 examples/s]
Mapping RL Dataset (num_proc=208):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 33190/38770 [00:19<00:02, 1975.08 examples/s]
Mapping RL Dataset (num_proc=208):  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 33562/38770 [00:19<00:02, 2009.16 examples/s]
Mapping RL Dataset (num_proc=208):  88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████               | 33934/38770 [00:20<00:02, 2015.93 examples/s]
Mapping RL Dataset (num_proc=208):  88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 34306/38770 [00:20<00:02, 2047.26 examples/s]
Mapping RL Dataset (num_proc=208):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 34678/38770 [00:20<00:01, 2047.01 examples/s]
Mapping RL Dataset (num_proc=208):  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 35050/38770 [00:20<00:01, 2056.36 examples/s]
Mapping RL Dataset (num_proc=208):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 35422/38770 [00:20<00:01, 2058.63 examples/s]
Mapping RL Dataset (num_proc=208):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 35794/38770 [00:20<00:01, 2057.86 examples/s]
Mapping RL Dataset (num_proc=208):  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 36166/38770 [00:21<00:01, 2047.58 examples/s]
Mapping RL Dataset (num_proc=208):  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 36538/38770 [00:21<00:01, 2073.82 examples/s]
Mapping RL Dataset (num_proc=208):  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 36910/38770 [00:21<00:00, 2073.66 examples/s]
Mapping RL Dataset (num_proc=208):  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 37282/38770 [00:21<00:00, 2068.80 examples/s]
Mapping RL Dataset (num_proc=208):  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 37654/38770 [00:21<00:00, 2081.79 examples/s]
Mapping RL Dataset (num_proc=208):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 38026/38770 [00:21<00:00, 2257.97 examples/s]
Mapping RL Dataset (num_proc=208):  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 38398/38770 [00:22<00:00, 2222.49 examples/s]
Mapping RL Dataset (num_proc=208): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38770/38770 [00:22<00:00, 2240.52 examples/s]
Mapping RL Dataset (num_proc=208): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38770/38770 [00:23<00:00, 1676.14 examples/s]

Dropping Long Sequences (num_proc=208):   0%|                                                                                                                                 | 0/38770 [00:00<?, ? examples/s]
Dropping Long Sequences (num_proc=208):   0%|▌                                                                                                                      | 187/38770 [00:04<15:15, 42.16 examples/s]
Dropping Long Sequences (num_proc=208):   2%|██▎                                                                                                                   | 748/38770 [00:04<03:00, 210.91 examples/s]
Dropping Long Sequences (num_proc=208):   3%|███▍                                                                                                                 | 1122/38770 [00:04<01:52, 335.69 examples/s]
Dropping Long Sequences (num_proc=208):   4%|████▌                                                                                                                | 1496/38770 [00:04<01:12, 515.81 examples/s]
Dropping Long Sequences (num_proc=208):   5%|█████▋                                                                                                               | 1870/38770 [00:05<00:52, 703.83 examples/s]
Dropping Long Sequences (num_proc=208):   6%|██████▊                                                                                                              | 2244/38770 [00:05<00:39, 921.58 examples/s]
Dropping Long Sequences (num_proc=208):   7%|███████▊                                                                                                            | 2618/38770 [00:05<00:32, 1128.15 examples/s]
Dropping Long Sequences (num_proc=208):   8%|█████████▌                                                                                                          | 3179/38770 [00:05<00:25, 1398.78 examples/s]
Dropping Long Sequences (num_proc=208):   9%|██████████▋                                                                                                         | 3553/38770 [00:05<00:23, 1524.44 examples/s]
Dropping Long Sequences (num_proc=208):  10%|███████████▋                                                                                                        | 3927/38770 [00:06<00:20, 1697.47 examples/s]
Dropping Long Sequences (num_proc=208):  11%|████████████▊                                                                                                       | 4301/38770 [00:06<00:19, 1805.03 examples/s]
Dropping Long Sequences (num_proc=208):  12%|█████████████▉                                                                                                      | 4675/38770 [00:06<00:20, 1668.66 examples/s]
Dropping Long Sequences (num_proc=208):  14%|███████████████▋                                                                                                    | 5236/38770 [00:06<00:16, 2017.10 examples/s]
Dropping Long Sequences (num_proc=208):  14%|████████████████▊                                                                                                   | 5610/38770 [00:06<00:15, 2085.06 examples/s]
Dropping Long Sequences (num_proc=208):  15%|█████████████████▉                                                                                                  | 5984/38770 [00:07<00:15, 2098.87 examples/s]
Dropping Long Sequences (num_proc=208):  16%|███████████████████                                                                                                 | 6358/38770 [00:07<00:15, 2102.57 examples/s]
Dropping Long Sequences (num_proc=208):  17%|████████████████████▏                                                                                               | 6732/38770 [00:07<00:15, 2117.17 examples/s]
Dropping Long Sequences (num_proc=208):  18%|█████████████████████▎                                                                                              | 7106/38770 [00:07<00:14, 2124.56 examples/s]
Dropping Long Sequences (num_proc=208):  19%|██████████████████████▍                                                                                             | 7480/38770 [00:07<00:14, 2146.65 examples/s]
Dropping Long Sequences (num_proc=208):  20%|███████████████████████▍                                                                                            | 7854/38770 [00:08<00:16, 1829.60 examples/s]
Dropping Long Sequences (num_proc=208):  22%|█████████████████████████▏                                                                                          | 8415/38770 [00:08<00:13, 2238.73 examples/s]
Dropping Long Sequences (num_proc=208):  23%|██████████████████████████▊                                                                                         | 8976/38770 [00:08<00:15, 1947.56 examples/s]
Dropping Long Sequences (num_proc=208):  24%|███████████████████████████▉                                                                                        | 9350/38770 [00:08<00:14, 2014.08 examples/s]
Dropping Long Sequences (num_proc=208):  26%|█████████████████████████████▋                                                                                      | 9911/38770 [00:08<00:12, 2331.00 examples/s]
Dropping Long Sequences (num_proc=208):  27%|██████████████████████████████▌                                                                                    | 10285/38770 [00:09<00:12, 2268.87 examples/s]
Dropping Long Sequences (num_proc=208):  27%|███████████████████████████████▌                                                                                   | 10659/38770 [00:09<00:12, 2235.62 examples/s]
Dropping Long Sequences (num_proc=208):  28%|████████████████████████████████▋                                                                                  | 11033/38770 [00:09<00:11, 2512.14 examples/s]
Dropping Long Sequences (num_proc=208):  29%|█████████████████████████████████▊                                                                                 | 11407/38770 [00:09<00:13, 2103.09 examples/s]
Dropping Long Sequences (num_proc=208):  30%|██████████████████████████████████▉                                                                                | 11781/38770 [00:09<00:14, 1863.35 examples/s]
Dropping Long Sequences (num_proc=208):  32%|████████████████████████████████████▌                                                                              | 12342/38770 [00:10<00:12, 2185.19 examples/s]
Dropping Long Sequences (num_proc=208):  33%|█████████████████████████████████████▋                                                                             | 12716/38770 [00:10<00:12, 2137.80 examples/s]
Dropping Long Sequences (num_proc=208):  34%|██████████████████████████████████████▊                                                                            | 13090/38770 [00:10<00:12, 2075.51 examples/s]
Dropping Long Sequences (num_proc=208):  35%|███████████████████████████████████████▉                                                                           | 13464/38770 [00:10<00:11, 2254.71 examples/s]
Dropping Long Sequences (num_proc=208):  36%|█████████████████████████████████████████                                                                          | 13838/38770 [00:10<00:11, 2095.98 examples/s]
Dropping Long Sequences (num_proc=208):  37%|██████████████████████████████████████████▋                                                                        | 14399/38770 [00:10<00:10, 2416.40 examples/s]
Dropping Long Sequences (num_proc=208):  38%|███████████████████████████████████████████▊                                                                       | 14773/38770 [00:11<00:10, 2309.73 examples/s]
Dropping Long Sequences (num_proc=208):  39%|████████████████████████████████████████████▉                                                                      | 15147/38770 [00:11<00:12, 1936.41 examples/s]
Dropping Long Sequences (num_proc=208):  40%|██████████████████████████████████████████████                                                                     | 15520/38770 [00:11<00:11, 2045.93 examples/s]
Dropping Long Sequences (num_proc=208):  41%|███████████████████████████████████████████████▋                                                                   | 16078/38770 [00:11<00:12, 1852.99 examples/s]
Dropping Long Sequences (num_proc=208):  42%|████████████████████████████████████████████████▊                                                                  | 16450/38770 [00:12<00:11, 1920.41 examples/s]
Dropping Long Sequences (num_proc=208):  44%|██████████████████████████████████████████████████▍                                                                | 17008/38770 [00:12<00:11, 1971.78 examples/s]
Dropping Long Sequences (num_proc=208):  45%|███████████████████████████████████████████████████▌                                                               | 17380/38770 [00:12<00:10, 2002.16 examples/s]
Dropping Long Sequences (num_proc=208):  46%|█████████████████████████████████████████████████████▏                                                             | 17938/38770 [00:12<00:09, 2298.85 examples/s]
Dropping Long Sequences (num_proc=208):  47%|██████████████████████████████████████████████████████▎                                                            | 18310/38770 [00:12<00:09, 2215.59 examples/s]
Dropping Long Sequences (num_proc=208):  48%|███████████████████████████████████████████████████████▍                                                           | 18682/38770 [00:13<00:09, 2188.20 examples/s]
Dropping Long Sequences (num_proc=208):  49%|████████████████████████████████████████████████████████▌                                                          | 19054/38770 [00:13<00:10, 1918.69 examples/s]
Dropping Long Sequences (num_proc=208):  50%|█████████████████████████████████████████████████████████▌                                                         | 19426/38770 [00:13<00:09, 1981.25 examples/s]
Dropping Long Sequences (num_proc=208):  51%|██████████████████████████████████████████████████████████▋                                                        | 19798/38770 [00:13<00:09, 2016.87 examples/s]
Dropping Long Sequences (num_proc=208):  53%|████████████████████████████████████████████████████████████▍                                                      | 20356/38770 [00:13<00:08, 2050.73 examples/s]
Dropping Long Sequences (num_proc=208):  53%|█████████████████████████████████████████████████████████████▍                                                     | 20728/38770 [00:14<00:08, 2068.31 examples/s]
Dropping Long Sequences (num_proc=208):  54%|██████████████████████████████████████████████████████████████▌                                                    | 21100/38770 [00:14<00:09, 1837.96 examples/s]
Dropping Long Sequences (num_proc=208):  56%|████████████████████████████████████████████████████████████████▏                                                  | 21658/38770 [00:14<00:07, 2200.48 examples/s]
Dropping Long Sequences (num_proc=208):  57%|█████████████████████████████████████████████████████████████████▎                                                 | 22030/38770 [00:14<00:08, 1916.78 examples/s]
Dropping Long Sequences (num_proc=208):  58%|███████████████████████████████████████████████████████████████████                                                | 22588/38770 [00:14<00:07, 2242.36 examples/s]
Dropping Long Sequences (num_proc=208):  59%|████████████████████████████████████████████████████████████████████                                               | 22960/38770 [00:15<00:08, 1936.92 examples/s]
Dropping Long Sequences (num_proc=208):  61%|█████████████████████████████████████████████████████████████████████▊                                             | 23518/38770 [00:15<00:06, 2242.65 examples/s]
Dropping Long Sequences (num_proc=208):  62%|██████████████████████████████████████████████████████████████████████▊                                            | 23890/38770 [00:15<00:06, 2200.93 examples/s]
Dropping Long Sequences (num_proc=208):  63%|███████████████████████████████████████████████████████████████████████▉                                           | 24262/38770 [00:15<00:06, 2182.75 examples/s]
Dropping Long Sequences (num_proc=208):  64%|█████████████████████████████████████████████████████████████████████████                                          | 24634/38770 [00:16<00:07, 1903.82 examples/s]
Dropping Long Sequences (num_proc=208):  65%|███████████████████████████████████████████████████████████████████████████▎                                       | 25378/38770 [00:16<00:05, 2248.66 examples/s]
Dropping Long Sequences (num_proc=208):  67%|████████████████████████████████████████████████████████████████████████████▉                                      | 25936/38770 [00:16<00:06, 1991.53 examples/s]
Dropping Long Sequences (num_proc=208):  69%|███████████████████████████████████████████████████████████████████████████████▏                                   | 26680/38770 [00:16<00:05, 2246.56 examples/s]
Dropping Long Sequences (num_proc=208):  70%|████████████████████████████████████████████████████████████████████████████████▏                                  | 27052/38770 [00:17<00:05, 2223.45 examples/s]
Dropping Long Sequences (num_proc=208):  71%|█████████████████████████████████████████████████████████████████████████████████▎                                 | 27424/38770 [00:17<00:05, 1917.41 examples/s]
Dropping Long Sequences (num_proc=208):  72%|██████████████████████████████████████████████████████████████████████████████████▍                                | 27796/38770 [00:17<00:05, 2028.01 examples/s]
Dropping Long Sequences (num_proc=208):  73%|███████████████████████████████████████████████████████████████████████████████████▌                               | 28168/38770 [00:17<00:05, 2054.93 examples/s]
Dropping Long Sequences (num_proc=208):  74%|█████████████████████████████████████████████████████████████████████████████████████▏                             | 28726/38770 [00:17<00:04, 2363.30 examples/s]
Dropping Long Sequences (num_proc=208):  75%|██████████████████████████████████████████████████████████████████████████████████████▎                            | 29098/38770 [00:18<00:04, 2256.55 examples/s]
Dropping Long Sequences (num_proc=208):  76%|███████████████████████████████████████████████████████████████████████████████████████▍                           | 29470/38770 [00:18<00:04, 2281.06 examples/s]
Dropping Long Sequences (num_proc=208):  77%|████████████████████████████████████████████████████████████████████████████████████████▌                          | 29842/38770 [00:18<00:04, 1957.56 examples/s]
Dropping Long Sequences (num_proc=208):  78%|█████████████████████████████████████████████████████████████████████████████████████████▌                         | 30214/38770 [00:18<00:04, 2015.13 examples/s]
Dropping Long Sequences (num_proc=208):  79%|███████████████████████████████████████████████████████████████████████████████████████████▎                       | 30772/38770 [00:18<00:03, 2343.72 examples/s]
Dropping Long Sequences (num_proc=208):  81%|████████████████████████████████████████████████████████████████████████████████████████████▉                      | 31330/38770 [00:19<00:03, 2017.13 examples/s]
Dropping Long Sequences (num_proc=208):  82%|██████████████████████████████████████████████████████████████████████████████████████████████▌                    | 31888/38770 [00:19<00:03, 2282.39 examples/s]
Dropping Long Sequences (num_proc=208):  83%|███████████████████████████████████████████████████████████████████████████████████████████████▋                   | 32260/38770 [00:19<00:02, 2259.54 examples/s]
Dropping Long Sequences (num_proc=208):  84%|████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 32632/38770 [00:19<00:02, 2220.17 examples/s]
Dropping Long Sequences (num_proc=208):  85%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 33004/38770 [00:19<00:02, 2184.86 examples/s]
Dropping Long Sequences (num_proc=208):  87%|███████████████████████████████████████████████████████████████████████████████████████████████████▌               | 33562/38770 [00:20<00:02, 2172.07 examples/s]
Dropping Long Sequences (num_proc=208):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 33934/38770 [00:20<00:02, 2110.06 examples/s]
Dropping Long Sequences (num_proc=208):  88%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 34306/38770 [00:20<00:02, 2188.31 examples/s]
Dropping Long Sequences (num_proc=208):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 34678/38770 [00:20<00:02, 1899.20 examples/s]
Dropping Long Sequences (num_proc=208):  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 35050/38770 [00:20<00:01, 2187.66 examples/s]
Dropping Long Sequences (num_proc=208):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████          | 35422/38770 [00:20<00:01, 2237.90 examples/s]
Dropping Long Sequences (num_proc=208):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 35794/38770 [00:21<00:01, 2220.34 examples/s]
Dropping Long Sequences (num_proc=208):  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 36166/38770 [00:21<00:01, 2300.79 examples/s]
Dropping Long Sequences (num_proc=208):  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 36538/38770 [00:21<00:00, 2292.04 examples/s]
Dropping Long Sequences (num_proc=208):  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 36910/38770 [00:21<00:00, 2276.31 examples/s]
Dropping Long Sequences (num_proc=208):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 37282/38770 [00:21<00:00, 2146.86 examples/s]
Dropping Long Sequences (num_proc=208):  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 37840/38770 [00:21<00:00, 2419.98 examples/s]
Dropping Long Sequences (num_proc=208):  99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 38212/38770 [00:22<00:00, 2121.23 examples/s]
Dropping Long Sequences (num_proc=208): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38770/38770 [00:22<00:00, 2313.82 examples/s]
Dropping Long Sequences (num_proc=208): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 38770/38770 [00:23<00:00, 1667.81 examples/s]

Saving the dataset (0/133 shards):   0%|                                                                                                                                      | 0/34053 [00:00<?, ? examples/s]
Saving the dataset (0/133 shards):   1%|▉                                                                                                                           | 257/34053 [00:04<09:28, 59.45 examples/s]
Saving the dataset (1/133 shards):   1%|▉                                                                                                                           | 257/34053 [00:04<09:28, 59.45 examples/s]
Saving the dataset (2/133 shards):   2%|█▊                                                                                                                          | 514/34053 [00:04<09:24, 59.45 examples/s]
Saving the dataset (3/133 shards):   2%|██▊                                                                                                                         | 771/34053 [00:04<09:19, 59.45 examples/s]
Saving the dataset (4/133 shards):   3%|███▋                                                                                                                       | 1028/34053 [00:04<09:15, 59.45 examples/s]
Saving the dataset (5/133 shards):   4%|████▋                                                                                                                      | 1285/34053 [00:04<09:11, 59.45 examples/s]
Saving the dataset (6/133 shards):   5%|█████▌                                                                                                                     | 1541/34053 [00:04<09:06, 59.45 examples/s]
Saving the dataset (7/133 shards):   5%|██████▍                                                                                                                    | 1797/34053 [00:04<09:02, 59.45 examples/s]
Saving the dataset (8/133 shards):   6%|███████▍                                                                                                                   | 2053/34053 [00:04<08:58, 59.45 examples/s]
Saving the dataset (9/133 shards):   7%|████████▎                                                                                                                  | 2309/34053 [00:04<08:53, 59.45 examples/s]
Saving the dataset (10/133 shards):   8%|█████████▏                                                                                                                | 2565/34053 [00:04<08:49, 59.45 examples/s]
Saving the dataset (11/133 shards):   8%|██████████                                                                                                                | 2821/34053 [00:04<08:45, 59.45 examples/s]
Saving the dataset (12/133 shards):   9%|███████████                                                                                                               | 3077/34053 [00:04<08:41, 59.45 examples/s]
Saving the dataset (13/133 shards):  10%|███████████▉                                                                                                              | 3333/34053 [00:04<08:36, 59.45 examples/s]
Saving the dataset (14/133 shards):  11%|████████████▊                                                                                                             | 3589/34053 [00:04<08:32, 59.45 examples/s]
Saving the dataset (15/133 shards):  11%|█████████████▊                                                                                                            | 3845/34053 [00:04<08:28, 59.45 examples/s]
Saving the dataset (16/133 shards):  12%|██████████████▋                                                                                                           | 4101/34053 [00:04<08:23, 59.45 examples/s]
Saving the dataset (17/133 shards):  13%|███████████████▌                                                                                                          | 4357/34053 [00:04<08:19, 59.45 examples/s]
Saving the dataset (18/133 shards):  14%|████████████████▌                                                                                                         | 4613/34053 [00:04<08:15, 59.45 examples/s]
Saving the dataset (19/133 shards):  14%|█████████████████▍                                                                                                        | 4869/34053 [00:04<08:10, 59.45 examples/s]
Saving the dataset (20/133 shards):  15%|██████████████████▎                                                                                                       | 5125/34053 [00:04<08:06, 59.45 examples/s]
Saving the dataset (21/133 shards):  16%|███████████████████▎                                                                                                      | 5381/34053 [00:04<08:02, 59.45 examples/s]
Saving the dataset (22/133 shards):  17%|████████████████████▏                                                                                                     | 5637/34053 [00:04<07:57, 59.45 examples/s]
Saving the dataset (23/133 shards):  17%|█████████████████████                                                                                                     | 5893/34053 [00:04<07:53, 59.45 examples/s]
Saving the dataset (24/133 shards):  18%|██████████████████████                                                                                                    | 6149/34053 [00:04<07:49, 59.45 examples/s]
Saving the dataset (25/133 shards):  19%|██████████████████████▉                                                                                                   | 6405/34053 [00:04<07:45, 59.45 examples/s]
Saving the dataset (26/133 shards):  20%|███████████████████████▊                                                                                                  | 6661/34053 [00:04<07:40, 59.45 examples/s]
Saving the dataset (27/133 shards):  20%|████████████████████████▊                                                                                                 | 6917/34053 [00:04<07:36, 59.45 examples/s]
Saving the dataset (28/133 shards):  21%|█████████████████████████▋                                                                                                | 7173/34053 [00:04<07:32, 59.45 examples/s]
Saving the dataset (29/133 shards):  22%|██████████████████████████▌                                                                                               | 7429/34053 [00:04<07:27, 59.45 examples/s]
Saving the dataset (30/133 shards):  23%|███████████████████████████▌                                                                                              | 7685/34053 [00:04<07:23, 59.45 examples/s]
Saving the dataset (31/133 shards):  23%|████████████████████████████▍                                                                                             | 7941/34053 [00:04<07:19, 59.45 examples/s]
Saving the dataset (32/133 shards):  24%|█████████████████████████████▎                                                                                            | 8197/34053 [00:04<07:14, 59.45 examples/s]
Saving the dataset (33/133 shards):  25%|██████████████████████████████▎                                                                                           | 8453/34053 [00:04<07:10, 59.45 examples/s]
Saving the dataset (34/133 shards):  26%|███████████████████████████████▏                                                                                          | 8709/34053 [00:04<07:06, 59.45 examples/s]
Saving the dataset (35/133 shards):  26%|████████████████████████████████                                                                                          | 8965/34053 [00:04<07:01, 59.45 examples/s]
Saving the dataset (36/133 shards):  27%|█████████████████████████████████                                                                                         | 9221/34053 [00:04<06:57, 59.45 examples/s]
Saving the dataset (37/133 shards):  28%|█████████████████████████████████▉                                                                                        | 9477/34053 [00:04<06:53, 59.45 examples/s]
Saving the dataset (38/133 shards):  29%|██████████████████████████████████▊                                                                                       | 9733/34053 [00:04<06:49, 59.45 examples/s]
Saving the dataset (39/133 shards):  29%|███████████████████████████████████▊                                                                                      | 9989/34053 [00:04<06:44, 59.45 examples/s]
Saving the dataset (40/133 shards):  30%|████████████████████████████████████▍                                                                                    | 10245/34053 [00:04<06:40, 59.45 examples/s]
Saving the dataset (41/133 shards):  31%|█████████████████████████████████████▎                                                                                   | 10501/34053 [00:04<06:36, 59.45 examples/s]
Saving the dataset (42/133 shards):  32%|██████████████████████████████████████▏                                                                                  | 10757/34053 [00:04<06:31, 59.45 examples/s]
Saving the dataset (43/133 shards):  32%|███████████████████████████████████████▏                                                                                 | 11013/34053 [00:04<06:27, 59.45 examples/s]
Saving the dataset (44/133 shards):  33%|████████████████████████████████████████                                                                                 | 11269/34053 [00:04<06:23, 59.45 examples/s]
Saving the dataset (45/133 shards):  34%|████████████████████████████████████████▉                                                                                | 11525/34053 [00:04<06:18, 59.45 examples/s]
Saving the dataset (46/133 shards):  35%|█████████████████████████████████████████▊                                                                               | 11781/34053 [00:04<06:14, 59.45 examples/s]
Saving the dataset (47/133 shards):  35%|██████████████████████████████████████████▊                                                                              | 12037/34053 [00:04<06:10, 59.45 examples/s]
Saving the dataset (48/133 shards):  36%|███████████████████████████████████████████▋                                                                             | 12293/34053 [00:04<06:05, 59.45 examples/s]
Saving the dataset (49/133 shards):  37%|████████████████████████████████████████████▌                                                                            | 12549/34053 [00:04<06:01, 59.45 examples/s]
Saving the dataset (50/133 shards):  38%|█████████████████████████████████████████████▍                                                                           | 12805/34053 [00:04<05:57, 59.45 examples/s]
Saving the dataset (51/133 shards):  38%|██████████████████████████████████████████████▍                                                                          | 13061/34053 [00:04<05:53, 59.45 examples/s]
Saving the dataset (52/133 shards):  39%|███████████████████████████████████████████████▎                                                                         | 13317/34053 [00:04<05:48, 59.45 examples/s]
Saving the dataset (53/133 shards):  40%|████████████████████████████████████████████████▏                                                                        | 13573/34053 [00:04<05:44, 59.45 examples/s]
Saving the dataset (54/133 shards):  41%|█████████████████████████████████████████████████▏                                                                       | 13829/34053 [00:04<05:40, 59.45 examples/s]
Saving the dataset (55/133 shards):  41%|██████████████████████████████████████████████████                                                                       | 14085/34053 [00:04<05:35, 59.45 examples/s]
Saving the dataset (56/133 shards):  42%|██████████████████████████████████████████████████▉                                                                      | 14341/34053 [00:04<05:31, 59.45 examples/s]
Saving the dataset (57/133 shards):  43%|███████████████████████████████████████████████████▊                                                                     | 14597/34053 [00:04<05:27, 59.45 examples/s]
Saving the dataset (58/133 shards):  44%|████████████████████████████████████████████████████▊                                                                    | 14853/34053 [00:04<05:22, 59.45 examples/s]
Saving the dataset (59/133 shards):  44%|█████████████████████████████████████████████████████▋                                                                   | 15109/34053 [00:04<05:18, 59.45 examples/s]
Saving the dataset (60/133 shards):  45%|██████████████████████████████████████████████████████▌                                                                  | 15365/34053 [00:04<05:14, 59.45 examples/s]
Saving the dataset (61/133 shards):  46%|███████████████████████████████████████████████████████▌                                                                 | 15621/34053 [00:04<05:10, 59.45 examples/s]
Saving the dataset (62/133 shards):  47%|████████████████████████████████████████████████████████▍                                                                | 15877/34053 [00:04<05:05, 59.45 examples/s]
Saving the dataset (63/133 shards):  47%|█████████████████████████████████████████████████████████▎                                                               | 16133/34053 [00:04<05:01, 59.45 examples/s]
Saving the dataset (64/133 shards):  48%|██████████████████████████████████████████████████████████▏                                                              | 16389/34053 [00:04<04:57, 59.45 examples/s]
Saving the dataset (65/133 shards):  49%|███████████████████████████████████████████████████████████▏                                                             | 16645/34053 [00:04<04:52, 59.45 examples/s]
Saving the dataset (66/133 shards):  50%|████████████████████████████████████████████████████████████                                                             | 16901/34053 [00:04<04:48, 59.45 examples/s]
Saving the dataset (67/133 shards):  50%|████████████████████████████████████████████████████████████▉                                                            | 17157/34053 [00:04<04:44, 59.45 examples/s]
Saving the dataset (68/133 shards):  51%|█████████████████████████████████████████████████████████████▊                                                           | 17413/34053 [00:04<04:39, 59.45 examples/s]
Saving the dataset (69/133 shards):  52%|██████████████████████████████████████████████████████████████▊                                                          | 17669/34053 [00:04<04:35, 59.45 examples/s]
Saving the dataset (70/133 shards):  53%|███████████████████████████████████████████████████████████████▋                                                         | 17925/34053 [00:04<04:31, 59.45 examples/s]
Saving the dataset (71/133 shards):  53%|████████████████████████████████████████████████████████████████▌                                                        | 18181/34053 [00:04<04:26, 59.45 examples/s]
Saving the dataset (72/133 shards):  54%|█████████████████████████████████████████████████████████████████▌                                                       | 18437/34053 [00:04<04:22, 59.45 examples/s]
Saving the dataset (73/133 shards):  55%|██████████████████████████████████████████████████████████████████▍                                                      | 18693/34053 [00:04<04:18, 59.45 examples/s]
Saving the dataset (74/133 shards):  56%|███████████████████████████████████████████████████████████████████▎                                                     | 18949/34053 [00:04<04:14, 59.45 examples/s]
Saving the dataset (75/133 shards):  56%|████████████████████████████████████████████████████████████████████▏                                                    | 19205/34053 [00:04<04:09, 59.45 examples/s]
Saving the dataset (76/133 shards):  57%|█████████████████████████████████████████████████████████████████████▏                                                   | 19461/34053 [00:04<04:05, 59.45 examples/s]
Saving the dataset (77/133 shards):  58%|██████████████████████████████████████████████████████████████████████                                                   | 19717/34053 [00:04<04:01, 59.45 examples/s]
Saving the dataset (78/133 shards):  59%|██████████████████████████████████████████████████████████████████████▉                                                  | 19973/34053 [00:04<03:56, 59.45 examples/s]
Saving the dataset (79/133 shards):  59%|███████████████████████████████████████████████████████████████████████▉                                                 | 20229/34053 [00:04<03:52, 59.45 examples/s]
Saving the dataset (80/133 shards):  60%|████████████████████████████████████████████████████████████████████████▊                                                | 20485/34053 [00:04<03:48, 59.45 examples/s]
Saving the dataset (81/133 shards):  61%|█████████████████████████████████████████████████████████████████████████▋                                               | 20741/34053 [00:04<03:43, 59.45 examples/s]
Saving the dataset (82/133 shards):  62%|██████████████████████████████████████████████████████████████████████████▌                                              | 20997/34053 [00:04<03:39, 59.45 examples/s]
Saving the dataset (83/133 shards):  62%|███████████████████████████████████████████████████████████████████████████▌                                             | 21253/34053 [00:04<03:35, 59.45 examples/s]
Saving the dataset (84/133 shards):  63%|████████████████████████████████████████████████████████████████████████████▍                                            | 21509/34053 [00:04<03:30, 59.45 examples/s]
Saving the dataset (85/133 shards):  64%|█████████████████████████████████████████████████████████████████████████████▎                                           | 21765/34053 [00:04<03:26, 59.45 examples/s]
Saving the dataset (86/133 shards):  65%|██████████████████████████████████████████████████████████████████████████████▏                                          | 22021/34053 [00:04<03:22, 59.45 examples/s]
Saving the dataset (87/133 shards):  65%|███████████████████████████████████████████████████████████████████████████████▏                                         | 22277/34053 [00:04<03:18, 59.45 examples/s]
Saving the dataset (88/133 shards):  66%|████████████████████████████████████████████████████████████████████████████████                                         | 22533/34053 [00:04<03:13, 59.45 examples/s]
Saving the dataset (89/133 shards):  67%|████████████████████████████████████████████████████████████████████████████████▉                                        | 22789/34053 [00:04<03:09, 59.45 examples/s]
Saving the dataset (90/133 shards):  68%|█████████████████████████████████████████████████████████████████████████████████▉                                       | 23045/34053 [00:04<03:05, 59.45 examples/s]
Saving the dataset (91/133 shards):  68%|██████████████████████████████████████████████████████████████████████████████████▊                                      | 23301/34053 [00:04<03:00, 59.45 examples/s]
Saving the dataset (92/133 shards):  69%|███████████████████████████████████████████████████████████████████████████████████▋                                     | 23557/34053 [00:04<02:56, 59.45 examples/s]
Saving the dataset (93/133 shards):  70%|████████████████████████████████████████████████████████████████████████████████████▌                                    | 23813/34053 [00:04<02:52, 59.45 examples/s]
Saving the dataset (94/133 shards):  71%|█████████████████████████████████████████████████████████████████████████████████████▌                                   | 24069/34053 [00:04<02:47, 59.45 examples/s]
Saving the dataset (95/133 shards):  71%|██████████████████████████████████████████████████████████████████████████████████████▍                                  | 24325/34053 [00:04<02:43, 59.45 examples/s]
Saving the dataset (96/133 shards):  72%|███████████████████████████████████████████████████████████████████████████████████████▎                                 | 24581/34053 [00:04<02:39, 59.45 examples/s]
Saving the dataset (97/133 shards):  73%|████████████████████████████████████████████████████████████████████████████████████████▎                                | 24837/34053 [00:04<02:35, 59.45 examples/s]
Saving the dataset (98/133 shards):  74%|█████████████████████████████████████████████████████████████████████████████████████████▏                               | 25093/34053 [00:04<02:30, 59.45 examples/s]
Saving the dataset (99/133 shards):  74%|██████████████████████████████████████████████████████████████████████████████████████████                               | 25349/34053 [00:04<02:26, 59.45 examples/s]
Saving the dataset (100/133 shards):  75%|██████████████████████████████████████████████████████████████████████████████████████████▏                             | 25605/34053 [00:04<02:22, 59.45 examples/s]
Saving the dataset (101/133 shards):  76%|███████████████████████████████████████████████████████████████████████████████████████████▏                            | 25861/34053 [00:04<02:17, 59.45 examples/s]
Saving the dataset (102/133 shards):  77%|████████████████████████████████████████████████████████████████████████████████████████████                            | 26117/34053 [00:04<02:13, 59.45 examples/s]
Saving the dataset (103/133 shards):  77%|████████████████████████████████████████████████████████████████████████████████████████████▉                           | 26373/34053 [00:04<02:09, 59.45 examples/s]
Saving the dataset (104/133 shards):  78%|█████████████████████████████████████████████████████████████████████████████████████████████▊                          | 26629/34053 [00:04<02:04, 59.45 examples/s]
Saving the dataset (105/133 shards):  79%|██████████████████████████████████████████████████████████████████████████████████████████████▋                         | 26885/34053 [00:04<02:00, 59.45 examples/s]
Saving the dataset (106/133 shards):  80%|███████████████████████████████████████████████████████████████████████████████████████████████▋                        | 27141/34053 [00:04<01:56, 59.45 examples/s]
Saving the dataset (107/133 shards):  80%|████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 27397/34053 [00:04<01:51, 59.45 examples/s]
Saving the dataset (108/133 shards):  81%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 27653/34053 [00:04<01:47, 59.45 examples/s]
Saving the dataset (109/133 shards):  82%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 27909/34053 [00:04<01:43, 59.45 examples/s]
Saving the dataset (110/133 shards):  83%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 28165/34053 [00:04<01:39, 59.45 examples/s]
Saving the dataset (111/133 shards):  83%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 28421/34053 [00:04<01:34, 59.45 examples/s]
Saving the dataset (112/133 shards):  84%|█████████████████████████████████████████████████████████████████████████████████████████████████████                   | 28677/34053 [00:04<01:30, 59.45 examples/s]
Saving the dataset (113/133 shards):  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 28933/34053 [00:04<01:26, 59.45 examples/s]
Saving the dataset (114/133 shards):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 29189/34053 [00:04<01:21, 59.45 examples/s]
Saving the dataset (115/133 shards):  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 29445/34053 [00:04<01:17, 59.45 examples/s]
Saving the dataset (116/133 shards):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 29701/34053 [00:04<01:13, 59.45 examples/s]
Saving the dataset (117/133 shards):  88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 29957/34053 [00:04<01:08, 59.45 examples/s]
Saving the dataset (118/133 shards):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 30213/34053 [00:04<01:04, 59.45 examples/s]
Saving the dataset (119/133 shards):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 30469/34053 [00:04<01:00, 59.45 examples/s]
Saving the dataset (120/133 shards):  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 30725/34053 [00:04<00:55, 59.45 examples/s]
Saving the dataset (121/133 shards):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 30981/34053 [00:04<00:51, 59.45 examples/s]
Saving the dataset (122/133 shards):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 31237/34053 [00:04<00:47, 59.45 examples/s]
Saving the dataset (123/133 shards):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 31493/34053 [00:04<00:43, 59.45 examples/s]
Saving the dataset (124/133 shards):  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 31749/34053 [00:04<00:38, 59.45 examples/s]
Saving the dataset (125/133 shards):  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 32005/34053 [00:04<00:34, 59.45 examples/s]
Saving the dataset (126/133 shards):  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 32261/34053 [00:04<00:30, 59.45 examples/s]
Saving the dataset (127/133 shards):  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 32517/34053 [00:04<00:25, 59.45 examples/s]
Saving the dataset (128/133 shards):  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 32773/34053 [00:04<00:21, 59.45 examples/s]
Saving the dataset (129/133 shards):  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 33029/34053 [00:04<00:17, 59.45 examples/s]
Saving the dataset (130/133 shards):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 33285/34053 [00:04<00:12, 59.45 examples/s]
Saving the dataset (131/133 shards):  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 33541/34053 [00:04<00:08, 59.45 examples/s]
Saving the dataset (132/133 shards):  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 33797/34053 [00:04<00:04, 59.45 examples/s]
Saving the dataset (133/133 shards): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34053/34053 [00:04<00:00, 59.45 examples/s]
Saving the dataset (133/133 shards): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34053/34053 [00:04<00:00, 7657.75 examples/s]

Loading checkpoint shards:   0%|                                                                                                                                                         | 0/4 [00:00<?, ?it/s]
Loading checkpoint shards:  25%|████████████████████████████████████▎                                                                                                            | 1/4 [00:01<00:03,  1.12s/it]
Loading checkpoint shards:  50%|████████████████████████████████████████████████████████████████████████▌                                                                        | 2/4 [00:02<00:02,  1.12s/it]
Loading checkpoint shards:  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 3/4 [00:03<00:01,  1.13s/it]
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:03<00:00,  1.22it/s]
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:03<00:00,  1.07it/s]

Extracting prompt in train dataset (num_proc=208):   0%|                                                                                                                      | 0/34053 [00:00<?, ? examples/s]
Extracting prompt in train dataset (num_proc=208):   0%|▌                                                                                                           | 164/34053 [00:03<13:00, 43.41 examples/s]
Extracting prompt in train dataset (num_proc=208):   2%|██                                                                                                         | 656/34053 [00:03<02:32, 218.71 examples/s]
Extracting prompt in train dataset (num_proc=208):   3%|███▌                                                                                                      | 1148/34053 [00:04<01:13, 445.87 examples/s]
Extracting prompt in train dataset (num_proc=208):   5%|█████                                                                                                     | 1640/34053 [00:04<00:44, 733.07 examples/s]
Extracting prompt in train dataset (num_proc=208):   6%|██████▌                                                                                                  | 2132/34053 [00:04<00:29, 1073.54 examples/s]
Extracting prompt in train dataset (num_proc=208):   8%|████████▌                                                                                                | 2788/34053 [00:04<00:19, 1608.45 examples/s]
Extracting prompt in train dataset (num_proc=208):  10%|██████████                                                                                               | 3280/34053 [00:04<00:15, 1940.37 examples/s]
Extracting prompt in train dataset (num_proc=208):  12%|████████████▏                                                                                            | 3936/34053 [00:04<00:11, 2544.15 examples/s]
Extracting prompt in train dataset (num_proc=208):  13%|█████████████▋                                                                                           | 4428/34053 [00:04<00:10, 2931.14 examples/s]
Extracting prompt in train dataset (num_proc=208):  15%|███████████████▋                                                                                         | 5084/34053 [00:04<00:08, 3443.14 examples/s]
Extracting prompt in train dataset (num_proc=208):  16%|█████████████████▏                                                                                       | 5576/34053 [00:04<00:07, 3678.96 examples/s]
Extracting prompt in train dataset (num_proc=208):  18%|██████████████████▋                                                                                      | 6068/34053 [00:05<00:07, 3807.10 examples/s]
Extracting prompt in train dataset (num_proc=208):  19%|████████████████████▏                                                                                    | 6560/34053 [00:05<00:06, 4021.33 examples/s]
Extracting prompt in train dataset (num_proc=208):  21%|█████████████████████▋                                                                                   | 7052/34053 [00:05<00:07, 3793.15 examples/s]
Extracting prompt in train dataset (num_proc=208):  36%|████████████████████████████████████▋                                                                  | 12136/34053 [00:05<00:01, 15194.73 examples/s]
Extracting prompt in train dataset (num_proc=208):  76%|█████████████████████████████████████████████████████████████████████████████▊                         | 25740/34053 [00:05<00:00, 46153.13 examples/s]
Extracting prompt in train dataset (num_proc=208): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 34053/34053 [00:06<00:00, 5574.31 examples/s]

Applying chat template to train dataset (num_proc=208):   0%|                                                                                                                 | 0/34053 [00:00<?, ? examples/s]
Applying chat template to train dataset (num_proc=208):   0%|▍                                                                                                      | 164/34053 [00:04<15:33, 36.32 examples/s]
Applying chat template to train dataset (num_proc=208):   1%|█▍                                                                                                    | 492/34053 [00:04<04:12, 133.07 examples/s]
Applying chat template to train dataset (num_proc=208):   2%|██▍                                                                                                   | 820/34053 [00:04<02:14, 247.48 examples/s]
Applying chat template to train dataset (num_proc=208):   4%|███▉                                                                                                 | 1312/34053 [00:05<01:08, 476.42 examples/s]
Applying chat template to train dataset (num_proc=208):   5%|████▊                                                                                                | 1640/34053 [00:05<00:50, 638.09 examples/s]
Applying chat template to train dataset (num_proc=208):   6%|█████▊                                                                                               | 1968/34053 [00:05<00:39, 821.24 examples/s]
Applying chat template to train dataset (num_proc=208):   7%|██████▋                                                                                             | 2296/34053 [00:05<00:31, 1007.75 examples/s]
Applying chat template to train dataset (num_proc=208):   8%|███████▋                                                                                            | 2624/34053 [00:05<00:26, 1190.66 examples/s]
Applying chat template to train dataset (num_proc=208):   9%|████████▋                                                                                           | 2952/34053 [00:05<00:22, 1365.62 examples/s]
Applying chat template to train dataset (num_proc=208):  10%|██████████                                                                                          | 3444/34053 [00:06<00:19, 1570.30 examples/s]
Applying chat template to train dataset (num_proc=208):  13%|████████████▌                                                                                       | 4264/34053 [00:06<00:13, 2133.55 examples/s]
Applying chat template to train dataset (num_proc=208):  14%|█████████████▉                                                                                      | 4756/34053 [00:06<00:12, 2357.00 examples/s]
Applying chat template to train dataset (num_proc=208):  15%|██████████████▉                                                                                     | 5084/34053 [00:06<00:12, 2306.11 examples/s]
Applying chat template to train dataset (num_proc=208):  16%|███████████████▉                                                                                    | 5412/34053 [00:06<00:12, 2269.93 examples/s]
Applying chat template to train dataset (num_proc=208):  17%|████████████████▊                                                                                   | 5740/34053 [00:07<00:12, 2219.05 examples/s]
Applying chat template to train dataset (num_proc=208):  18%|█████████████████▊                                                                                  | 6068/34053 [00:07<00:12, 2189.34 examples/s]
Applying chat template to train dataset (num_proc=208):  19%|██████████████████▊                                                                                 | 6396/34053 [00:07<00:12, 2168.54 examples/s]
Applying chat template to train dataset (num_proc=208):  20%|███████████████████▋                                                                                | 6724/34053 [00:07<00:12, 2139.81 examples/s]
Applying chat template to train dataset (num_proc=208):  21%|████████████████████▋                                                                               | 7052/34053 [00:07<00:12, 2133.81 examples/s]
Applying chat template to train dataset (num_proc=208):  22%|█████████████████████▋                                                                              | 7380/34053 [00:07<00:12, 2148.19 examples/s]
Applying chat template to train dataset (num_proc=208):  23%|██████████████████████▋                                                                             | 7708/34053 [00:07<00:12, 2117.30 examples/s]
Applying chat template to train dataset (num_proc=208):  24%|███████████████████████▌                                                                            | 8036/34053 [00:08<00:12, 2116.15 examples/s]
Applying chat template to train dataset (num_proc=208):  25%|████████████████████████▌                                                                           | 8364/34053 [00:08<00:12, 2124.02 examples/s]
Applying chat template to train dataset (num_proc=208):  26%|█████████████████████████▌                                                                          | 8692/34053 [00:08<00:11, 2126.45 examples/s]
Applying chat template to train dataset (num_proc=208):  26%|██████████████████████████▍                                                                         | 9020/34053 [00:08<00:11, 2136.70 examples/s]
Applying chat template to train dataset (num_proc=208):  27%|███████████████████████████▍                                                                        | 9348/34053 [00:08<00:11, 2132.57 examples/s]
Applying chat template to train dataset (num_proc=208):  28%|████████████████████████████▍                                                                       | 9676/34053 [00:08<00:11, 2112.38 examples/s]
Applying chat template to train dataset (num_proc=208):  29%|█████████████████████████████                                                                      | 10004/34053 [00:09<00:11, 2125.89 examples/s]
Applying chat template to train dataset (num_proc=208):  30%|██████████████████████████████                                                                     | 10332/34053 [00:09<00:11, 2123.30 examples/s]
Applying chat template to train dataset (num_proc=208):  31%|██████████████████████████████▉                                                                    | 10660/34053 [00:09<00:11, 2119.96 examples/s]
Applying chat template to train dataset (num_proc=208):  32%|███████████████████████████████▉                                                                   | 10988/34053 [00:09<00:10, 2120.02 examples/s]
Applying chat template to train dataset (num_proc=208):  33%|████████████████████████████████▉                                                                  | 11316/34053 [00:09<00:10, 2103.65 examples/s]
Applying chat template to train dataset (num_proc=208):  34%|█████████████████████████████████▊                                                                 | 11644/34053 [00:09<00:10, 2110.14 examples/s]
Applying chat template to train dataset (num_proc=208):  35%|██████████████████████████████████▊                                                                | 11972/34053 [00:09<00:10, 2139.06 examples/s]
Applying chat template to train dataset (num_proc=208):  36%|███████████████████████████████████▊                                                               | 12300/34053 [00:10<00:10, 2121.45 examples/s]
Applying chat template to train dataset (num_proc=208):  37%|████████████████████████████████████▋                                                              | 12628/34053 [00:10<00:09, 2307.04 examples/s]
Applying chat template to train dataset (num_proc=208):  38%|█████████████████████████████████████▋                                                             | 12956/34053 [00:10<00:11, 1893.40 examples/s]
Applying chat template to train dataset (num_proc=208):  39%|███████████████████████████████████████                                                            | 13448/34053 [00:10<00:09, 2156.59 examples/s]
Applying chat template to train dataset (num_proc=208):  40%|████████████████████████████████████████                                                           | 13776/34053 [00:10<00:11, 1808.00 examples/s]
Applying chat template to train dataset (num_proc=208):  41%|█████████████████████████████████████████                                                          | 14104/34053 [00:11<00:10, 1874.16 examples/s]
Applying chat template to train dataset (num_proc=208):  42%|█████████████████████████████████████████▉                                                         | 14432/34053 [00:11<00:11, 1696.36 examples/s]
Applying chat template to train dataset (num_proc=208):  43%|██████████████████████████████████████████▉                                                        | 14760/34053 [00:11<00:11, 1738.77 examples/s]
Applying chat template to train dataset (num_proc=208):  45%|████████████████████████████████████████████▎                                                      | 15252/34053 [00:11<00:09, 2035.83 examples/s]
Applying chat template to train dataset (num_proc=208):  46%|█████████████████████████████████████████████▎                                                     | 15580/34053 [00:11<00:09, 1983.17 examples/s]
Applying chat template to train dataset (num_proc=208):  47%|██████████████████████████████████████████████▏                                                    | 15908/34053 [00:12<00:09, 1967.33 examples/s]
Applying chat template to train dataset (num_proc=208):  48%|███████████████████████████████████████████████▏                                                   | 16236/34053 [00:12<00:08, 2012.95 examples/s]
Applying chat template to train dataset (num_proc=208):  49%|████████████████████████████████████████████████▏                                                  | 16564/34053 [00:12<00:09, 1806.99 examples/s]
Applying chat template to train dataset (num_proc=208):  50%|█████████████████████████████████████████████████                                                  | 16892/34053 [00:12<00:08, 2025.29 examples/s]
Applying chat template to train dataset (num_proc=208):  51%|██████████████████████████████████████████████████                                                 | 17220/34053 [00:12<00:09, 1805.64 examples/s]
Applying chat template to train dataset (num_proc=208):  52%|███████████████████████████████████████████████████                                                | 17548/34053 [00:12<00:08, 1865.23 examples/s]
Applying chat template to train dataset (num_proc=208):  52%|███████████████████████████████████████████████████▉                                               | 17876/34053 [00:13<00:08, 1950.59 examples/s]
Applying chat template to train dataset (num_proc=208):  53%|████████████████████████████████████████████████████▉                                              | 18204/34053 [00:13<00:08, 1761.43 examples/s]
Applying chat template to train dataset (num_proc=208):  54%|█████████████████████████████████████████████████████▉                                             | 18532/34053 [00:13<00:08, 1862.21 examples/s]
Applying chat template to train dataset (num_proc=208):  55%|██████████████████████████████████████████████████████▊                                            | 18860/34053 [00:13<00:07, 1916.20 examples/s]
Applying chat template to train dataset (num_proc=208):  56%|███████████████████████████████████████████████████████▊                                           | 19188/34053 [00:13<00:07, 1973.93 examples/s]
Applying chat template to train dataset (num_proc=208):  57%|████████████████████████████████████████████████████████▋                                          | 19516/34053 [00:13<00:07, 2012.31 examples/s]
Applying chat template to train dataset (num_proc=208):  58%|█████████████████████████████████████████████████████████▋                                         | 19844/34053 [00:14<00:06, 2051.54 examples/s]
Applying chat template to train dataset (num_proc=208):  59%|██████████████████████████████████████████████████████████▋                                        | 20172/34053 [00:14<00:06, 2086.31 examples/s]
Applying chat template to train dataset (num_proc=208):  60%|███████████████████████████████████████████████████████████▌                                       | 20500/34053 [00:14<00:06, 2084.71 examples/s]
Applying chat template to train dataset (num_proc=208):  61%|████████████████████████████████████████████████████████████▌                                      | 20828/34053 [00:14<00:06, 2094.56 examples/s]
Applying chat template to train dataset (num_proc=208):  62%|█████████████████████████████████████████████████████████████▌                                     | 21156/34053 [00:14<00:06, 2096.57 examples/s]
Applying chat template to train dataset (num_proc=208):  63%|██████████████████████████████████████████████████████████████▍                                    | 21484/34053 [00:14<00:06, 2093.99 examples/s]
Applying chat template to train dataset (num_proc=208):  64%|███████████████████████████████████████████████████████████████▍                                   | 21812/34053 [00:14<00:05, 2100.64 examples/s]
Applying chat template to train dataset (num_proc=208):  65%|████████████████████████████████████████████████████████████████▎                                  | 22140/34053 [00:15<00:05, 2105.16 examples/s]
Applying chat template to train dataset (num_proc=208):  66%|█████████████████████████████████████████████████████████████████▎                                 | 22468/34053 [00:15<00:05, 2124.33 examples/s]
Applying chat template to train dataset (num_proc=208):  67%|██████████████████████████████████████████████████████████████████▎                                | 22796/34053 [00:15<00:05, 2107.44 examples/s]
Applying chat template to train dataset (num_proc=208):  68%|███████████████████████████████████████████████████████████████████▏                               | 23124/34053 [00:15<00:05, 2116.35 examples/s]
Applying chat template to train dataset (num_proc=208):  69%|████████████████████████████████████████████████████████████████████▏                              | 23452/34053 [00:15<00:04, 2139.43 examples/s]
Applying chat template to train dataset (num_proc=208):  70%|█████████████████████████████████████████████████████████████████████▏                             | 23780/34053 [00:15<00:04, 2134.32 examples/s]
Applying chat template to train dataset (num_proc=208):  71%|██████████████████████████████████████████████████████████████████████                             | 24108/34053 [00:16<00:04, 2139.50 examples/s]
Applying chat template to train dataset (num_proc=208):  72%|███████████████████████████████████████████████████████████████████████                            | 24436/34053 [00:16<00:04, 2140.29 examples/s]
Applying chat template to train dataset (num_proc=208):  73%|███████████████████████████████████████████████████████████████████████▉                           | 24762/34053 [00:16<00:04, 2135.53 examples/s]
Applying chat template to train dataset (num_proc=208):  74%|████████████████████████████████████████████████████████████████████████▉                          | 25088/34053 [00:16<00:04, 2115.27 examples/s]
Applying chat template to train dataset (num_proc=208):  75%|█████████████████████████████████████████████████████████████████████████▉                         | 25414/34053 [00:16<00:04, 2130.87 examples/s]
Applying chat template to train dataset (num_proc=208):  76%|██████████████████████████████████████████████████████████████████████████▊                        | 25740/34053 [00:16<00:03, 2117.13 examples/s]
Applying chat template to train dataset (num_proc=208):  77%|███████████████████████████████████████████████████████████████████████████▊                       | 26066/34053 [00:16<00:03, 2126.21 examples/s]
Applying chat template to train dataset (num_proc=208):  78%|████████████████████████████████████████████████████████████████████████████▋                      | 26392/34053 [00:17<00:03, 2129.69 examples/s]
Applying chat template to train dataset (num_proc=208):  78%|█████████████████████████████████████████████████████████████████████████████▋                     | 26718/34053 [00:17<00:03, 2132.53 examples/s]
Applying chat template to train dataset (num_proc=208):  79%|██████████████████████████████████████████████████████████████████████████████▌                    | 27044/34053 [00:17<00:03, 2133.41 examples/s]
Applying chat template to train dataset (num_proc=208):  80%|███████████████████████████████████████████████████████████████████████████████▌                   | 27370/34053 [00:17<00:03, 2121.98 examples/s]
Applying chat template to train dataset (num_proc=208):  81%|████████████████████████████████████████████████████████████████████████████████▌                  | 27696/34053 [00:17<00:03, 2116.26 examples/s]
Applying chat template to train dataset (num_proc=208):  82%|█████████████████████████████████████████████████████████████████████████████████▍                 | 28022/34053 [00:17<00:02, 2120.56 examples/s]
Applying chat template to train dataset (num_proc=208):  83%|██████████████████████████████████████████████████████████████████████████████████▍                | 28348/34053 [00:18<00:02, 2106.15 examples/s]
Applying chat template to train dataset (num_proc=208):  84%|███████████████████████████████████████████████████████████████████████████████████▎               | 28674/34053 [00:18<00:02, 2092.88 examples/s]
Applying chat template to train dataset (num_proc=208):  85%|████████████████████████████████████████████████████████████████████████████████████▎              | 29000/34053 [00:18<00:02, 2115.35 examples/s]
Applying chat template to train dataset (num_proc=208):  86%|█████████████████████████████████████████████████████████████████████████████████████▎             | 29326/34053 [00:18<00:02, 2115.27 examples/s]
Applying chat template to train dataset (num_proc=208):  87%|██████████████████████████████████████████████████████████████████████████████████████▏            | 29652/34053 [00:18<00:02, 2114.03 examples/s]
Applying chat template to train dataset (num_proc=208):  88%|███████████████████████████████████████████████████████████████████████████████████████▏           | 29978/34053 [00:18<00:01, 2119.16 examples/s]
Applying chat template to train dataset (num_proc=208):  89%|████████████████████████████████████████████████████████████████████████████████████████           | 30304/34053 [00:18<00:01, 2126.85 examples/s]
Applying chat template to train dataset (num_proc=208):  90%|█████████████████████████████████████████████████████████████████████████████████████████          | 30630/34053 [00:19<00:01, 2120.58 examples/s]
Applying chat template to train dataset (num_proc=208):  91%|█████████████████████████████████████████████████████████████████████████████████████████▉         | 30956/34053 [00:19<00:01, 2120.39 examples/s]
Applying chat template to train dataset (num_proc=208):  92%|██████████████████████████████████████████████████████████████████████████████████████████▉        | 31282/34053 [00:19<00:01, 2127.06 examples/s]
Applying chat template to train dataset (num_proc=208):  93%|███████████████████████████████████████████████████████████████████████████████████████████▉       | 31608/34053 [00:19<00:01, 2123.15 examples/s]
Applying chat template to train dataset (num_proc=208):  94%|████████████████████████████████████████████████████████████████████████████████████████████▊      | 31934/34053 [00:19<00:01, 2114.34 examples/s]
Applying chat template to train dataset (num_proc=208):  95%|█████████████████████████████████████████████████████████████████████████████████████████████▊     | 32260/34053 [00:19<00:00, 2125.01 examples/s]
Applying chat template to train dataset (num_proc=208):  96%|██████████████████████████████████████████████████████████████████████████████████████████████▋    | 32586/34053 [00:20<00:00, 2120.98 examples/s]
Applying chat template to train dataset (num_proc=208):  97%|███████████████████████████████████████████████████████████████████████████████████████████████▋   | 32912/34053 [00:20<00:00, 2110.50 examples/s]
Applying chat template to train dataset (num_proc=208):  98%|████████████████████████████████████████████████████████████████████████████████████████████████▋  | 33238/34053 [00:20<00:00, 2288.18 examples/s]
Applying chat template to train dataset (num_proc=208):  99%|█████████████████████████████████████████████████████████████████████████████████████████████████▌ | 33564/34053 [00:20<00:00, 2297.60 examples/s]
Applying chat template to train dataset (num_proc=208): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████▌| 33890/34053 [00:20<00:00, 2245.53 examples/s]
Applying chat template to train dataset (num_proc=208): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 34053/34053 [00:21<00:00, 1583.14 examples/s]

Tokenizing train dataset (num_proc=208):   0%|                                                                                                                                | 0/34053 [00:00<?, ? examples/s]
Tokenizing train dataset (num_proc=208):   0%|                                                                                                                     | 10/34053 [00:04<4:08:22,  2.28 examples/s]
Tokenizing train dataset (num_proc=208):   0%|▏                                                                                                                      | 71/34053 [00:04<26:48, 21.13 examples/s]
Tokenizing train dataset (num_proc=208):   1%|▋                                                                                                                     | 199/34053 [00:04<07:44, 72.85 examples/s]
Tokenizing train dataset (num_proc=208):   1%|█▎                                                                                                                   | 381/34053 [00:04<03:23, 165.27 examples/s]
Tokenizing train dataset (num_proc=208):   2%|██▏                                                                                                                  | 619/34053 [00:05<01:47, 310.94 examples/s]
Tokenizing train dataset (num_proc=208):   3%|███▏                                                                                                                 | 936/34053 [00:05<01:01, 538.52 examples/s]
Tokenizing train dataset (num_proc=208):   4%|████▎                                                                                                               | 1266/34053 [00:05<00:41, 787.09 examples/s]
Tokenizing train dataset (num_proc=208):   5%|█████▍                                                                                                             | 1602/34053 [00:05<00:31, 1030.04 examples/s]
Tokenizing train dataset (num_proc=208):   6%|██████▋                                                                                                            | 1977/34053 [00:05<00:24, 1303.05 examples/s]
Tokenizing train dataset (num_proc=208):   7%|███████▋                                                                                                           | 2294/34053 [00:05<00:21, 1462.99 examples/s]
Tokenizing train dataset (num_proc=208):   8%|████████▊                                                                                                          | 2611/34053 [00:05<00:19, 1594.46 examples/s]
Tokenizing train dataset (num_proc=208):   9%|█████████▊                                                                                                         | 2920/34053 [00:06<00:18, 1672.03 examples/s]
Tokenizing train dataset (num_proc=208):   9%|██████████▉                                                                                                        | 3226/34053 [00:06<00:17, 1746.01 examples/s]
Tokenizing train dataset (num_proc=208):  10%|███████████▉                                                                                                       | 3540/34053 [00:06<00:17, 1794.48 examples/s]
Tokenizing train dataset (num_proc=208):  11%|█████████████                                                                                                      | 3878/34053 [00:06<00:16, 1877.03 examples/s]
Tokenizing train dataset (num_proc=208):  12%|██████████████▏                                                                                                    | 4208/34053 [00:06<00:15, 1934.53 examples/s]
Tokenizing train dataset (num_proc=208):  13%|███████████████▍                                                                                                   | 4562/34053 [00:06<00:14, 2008.15 examples/s]
Tokenizing train dataset (num_proc=208):  14%|████████████████▋                                                                                                  | 4937/34053 [00:07<00:13, 2083.96 examples/s]
Tokenizing train dataset (num_proc=208):  15%|█████████████████▋                                                                                                 | 5246/34053 [00:07<00:14, 2030.08 examples/s]
Tokenizing train dataset (num_proc=208):  16%|██████████████████▊                                                                                                | 5570/34053 [00:07<00:14, 2031.36 examples/s]
Tokenizing train dataset (num_proc=208):  17%|███████████████████▉                                                                                               | 5900/34053 [00:07<00:13, 2020.99 examples/s]
Tokenizing train dataset (num_proc=208):  18%|█████████████████████                                                                                              | 6223/34053 [00:07<00:13, 2016.61 examples/s]
Tokenizing train dataset (num_proc=208):  19%|██████████████████████▏                                                                                            | 6556/34053 [00:07<00:13, 2048.69 examples/s]
Tokenizing train dataset (num_proc=208):  20%|███████████████████████                                                                                            | 6839/34053 [00:08<00:13, 1964.50 examples/s]
Tokenizing train dataset (num_proc=208):  21%|████████████████████████▏                                                                                          | 7170/34053 [00:08<00:13, 1980.86 examples/s]
Tokenizing train dataset (num_proc=208):  22%|█████████████████████████▎                                                                                         | 7501/34053 [00:08<00:13, 1990.03 examples/s]
Tokenizing train dataset (num_proc=208):  23%|██████████████████████████▎                                                                                        | 7803/34053 [00:08<00:13, 1964.27 examples/s]
Tokenizing train dataset (num_proc=208):  24%|███████████████████████████▍                                                                                       | 8131/34053 [00:08<00:13, 1969.07 examples/s]
Tokenizing train dataset (num_proc=208):  25%|████████████████████████████▌                                                                                      | 8443/34053 [00:08<00:13, 1969.18 examples/s]
Tokenizing train dataset (num_proc=208):  26%|█████████████████████████████▌                                                                                     | 8769/34053 [00:09<00:12, 1977.33 examples/s]
Tokenizing train dataset (num_proc=208):  27%|██████████████████████████████▊                                                                                    | 9122/34053 [00:09<00:12, 2016.62 examples/s]
Tokenizing train dataset (num_proc=208):  28%|████████████████████████████████                                                                                   | 9484/34053 [00:09<00:11, 2089.48 examples/s]
Tokenizing train dataset (num_proc=208):  29%|█████████████████████████████████▏                                                                                 | 9818/34053 [00:09<00:11, 2062.64 examples/s]
Tokenizing train dataset (num_proc=208):  30%|█████████████████████████████████▉                                                                                | 10154/34053 [00:09<00:11, 2063.13 examples/s]
Tokenizing train dataset (num_proc=208):  31%|███████████████████████████████████▏                                                                              | 10503/34053 [00:09<00:11, 2089.39 examples/s]
Tokenizing train dataset (num_proc=208):  32%|████████████████████████████████████▏                                                                             | 10817/34053 [00:10<00:11, 2038.12 examples/s]
Tokenizing train dataset (num_proc=208):  33%|█████████████████████████████████████▏                                                                            | 11124/34053 [00:10<00:11, 2002.79 examples/s]
Tokenizing train dataset (num_proc=208):  34%|██████████████████████████████████████▎                                                                           | 11455/34053 [00:10<00:11, 2022.21 examples/s]
Tokenizing train dataset (num_proc=208):  35%|███████████████████████████████████████▍                                                                          | 11776/34053 [00:10<00:11, 2013.23 examples/s]
Tokenizing train dataset (num_proc=208):  36%|████████████████████████████████████████▌                                                                         | 12114/34053 [00:10<00:10, 2007.71 examples/s]
Tokenizing train dataset (num_proc=208):  37%|█████████████████████████████████████████▋                                                                        | 12441/34053 [00:10<00:11, 1947.86 examples/s]
Tokenizing train dataset (num_proc=208):  38%|██████████████████████████████████████████▉                                                                       | 12808/34053 [00:10<00:09, 2290.84 examples/s]
Tokenizing train dataset (num_proc=208):  38%|███████████████████████████████████████████▋                                                                      | 13057/34053 [00:11<00:10, 2017.01 examples/s]
Tokenizing train dataset (num_proc=208):  39%|████████████████████████████████████████████▋                                                                     | 13341/34053 [00:11<00:11, 1877.14 examples/s]
Tokenizing train dataset (num_proc=208):  40%|█████████████████████████████████████████████▉                                                                    | 13704/34053 [00:11<00:09, 2241.98 examples/s]
Tokenizing train dataset (num_proc=208):  41%|██████████████████████████████████████████████▋                                                                   | 13956/34053 [00:11<00:10, 1989.24 examples/s]
Tokenizing train dataset (num_proc=208):  42%|███████████████████████████████████████████████▋                                                                  | 14243/34053 [00:11<00:10, 1887.25 examples/s]
Tokenizing train dataset (num_proc=208):  43%|████████████████████████████████████████████████▋                                                                 | 14525/34053 [00:11<00:09, 2079.79 examples/s]
Tokenizing train dataset (num_proc=208):  43%|█████████████████████████████████████████████████▍                                                                | 14756/34053 [00:12<00:10, 1852.25 examples/s]
Tokenizing train dataset (num_proc=208):  44%|██████████████████████████████████████████████████▎                                                               | 15032/34053 [00:12<00:09, 2047.71 examples/s]
Tokenizing train dataset (num_proc=208):  45%|███████████████████████████████████████████████████                                                               | 15255/34053 [00:12<00:10, 1813.61 examples/s]
Tokenizing train dataset (num_proc=208):  46%|███████████████████████████████████████████████████▉                                                              | 15506/34053 [00:12<00:10, 1714.86 examples/s]
Tokenizing train dataset (num_proc=208):  46%|████████████████████████████████████████████████████▉                                                             | 15821/34053 [00:12<00:10, 1752.30 examples/s]
Tokenizing train dataset (num_proc=208):  47%|██████████████████████████████████████████████████████                                                            | 16146/34053 [00:12<00:08, 2070.09 examples/s]
Tokenizing train dataset (num_proc=208):  48%|██████████████████████████████████████████████████████▊                                                           | 16374/34053 [00:12<00:09, 1840.85 examples/s]
Tokenizing train dataset (num_proc=208):  49%|███████████████████████████████████████████████████████▊                                                          | 16657/34053 [00:13<00:09, 1788.07 examples/s]
Tokenizing train dataset (num_proc=208):  50%|████████████████████████████████████████████████████████▊                                                         | 16986/34053 [00:13<00:09, 1801.53 examples/s]
Tokenizing train dataset (num_proc=208):  51%|█████████████████████████████████████████████████████████▉                                                        | 17307/34053 [00:13<00:09, 1805.61 examples/s]
Tokenizing train dataset (num_proc=208):  52%|███████████████████████████████████████████████████████████                                                       | 17644/34053 [00:13<00:07, 2118.95 examples/s]
Tokenizing train dataset (num_proc=208):  52%|███████████████████████████████████████████████████████████▊                                                      | 17874/34053 [00:13<00:08, 1875.67 examples/s]
Tokenizing train dataset (num_proc=208):  53%|████████████████████████████████████████████████████████████▊                                                     | 18156/34053 [00:13<00:08, 1794.55 examples/s]
Tokenizing train dataset (num_proc=208):  54%|█████████████████████████████████████████████████████████████▊                                                    | 18460/34053 [00:13<00:07, 2058.13 examples/s]
Tokenizing train dataset (num_proc=208):  55%|██████████████████████████████████████████████████████████████▌                                                   | 18689/34053 [00:14<00:08, 1838.52 examples/s]
Tokenizing train dataset (num_proc=208):  56%|███████████████████████████████████████████████████████████████▍                                                  | 18956/34053 [00:14<00:08, 1725.29 examples/s]
Tokenizing train dataset (num_proc=208):  57%|████████████████████████████████████████████████████████████████▍                                                 | 19262/34053 [00:14<00:08, 1750.66 examples/s]
Tokenizing train dataset (num_proc=208):  57%|█████████████████████████████████████████████████████████████████▌                                                | 19567/34053 [00:14<00:07, 2015.76 examples/s]
Tokenizing train dataset (num_proc=208):  58%|██████████████████████████████████████████████████████████████████▎                                               | 19791/34053 [00:14<00:07, 1798.25 examples/s]
Tokenizing train dataset (num_proc=208):  59%|███████████████████████████████████████████████████████████████████                                               | 20039/34053 [00:14<00:08, 1675.94 examples/s]
Tokenizing train dataset (num_proc=208):  60%|████████████████████████████████████████████████████████████████████▎                                             | 20410/34053 [00:15<00:07, 1811.12 examples/s]
Tokenizing train dataset (num_proc=208):  61%|█████████████████████████████████████████████████████████████████████▌                                            | 20779/34053 [00:15<00:06, 2190.39 examples/s]
Tokenizing train dataset (num_proc=208):  62%|██████████████████████████████████████████████████████████████████████▍                                           | 21024/34053 [00:15<00:06, 1963.14 examples/s]
Tokenizing train dataset (num_proc=208):  62%|███████████████████████████████████████████████████████████████████████▏                                          | 21260/34053 [00:15<00:07, 1797.69 examples/s]
Tokenizing train dataset (num_proc=208):  63%|████████████████████████████████████████████████████████████████████████▏                                         | 21578/34053 [00:15<00:06, 1839.51 examples/s]
Tokenizing train dataset (num_proc=208):  64%|█████████████████████████████████████████████████████████████████████████▎                                        | 21892/34053 [00:15<00:06, 1862.77 examples/s]
Tokenizing train dataset (num_proc=208):  65%|██████████████████████████████████████████████████████████████████████████▏                                       | 22169/34053 [00:15<00:06, 1882.69 examples/s]
Tokenizing train dataset (num_proc=208):  66%|███████████████████████████████████████████████████████████████████████████▏                                      | 22443/34053 [00:16<00:06, 1867.71 examples/s]
Tokenizing train dataset (num_proc=208):  67%|████████████████████████████████████████████████████████████████████████████                                      | 22720/34053 [00:16<00:06, 1888.10 examples/s]
Tokenizing train dataset (num_proc=208):  68%|████████████████████████████████████████████████████████████████████████████▉                                     | 22991/34053 [00:16<00:06, 1826.80 examples/s]
Tokenizing train dataset (num_proc=208):  69%|██████████████████████████████████████████████████████████████████████████████                                    | 23330/34053 [00:16<00:05, 1873.26 examples/s]
Tokenizing train dataset (num_proc=208):  70%|███████████████████████████████████████████████████████████████████████████████▎                                  | 23691/34053 [00:16<00:05, 1978.60 examples/s]
Tokenizing train dataset (num_proc=208):  71%|████████████████████████████████████████████████████████████████████████████████▍                                 | 24035/34053 [00:16<00:04, 2084.16 examples/s]
Tokenizing train dataset (num_proc=208):  71%|█████████████████████████████████████████████████████████████████████████████████▍                                | 24335/34053 [00:17<00:04, 2044.56 examples/s]
Tokenizing train dataset (num_proc=208):  72%|██████████████████████████████████████████████████████████████████████████████████▌                               | 24673/34053 [00:17<00:04, 2056.20 examples/s]
Tokenizing train dataset (num_proc=208):  73%|███████████████████████████████████████████████████████████████████████████████████▊                              | 25025/34053 [00:17<00:04, 2097.36 examples/s]
Tokenizing train dataset (num_proc=208):  74%|████████████████████████████████████████████████████████████████████████████████████▉                             | 25355/34053 [00:17<00:04, 2112.46 examples/s]
Tokenizing train dataset (num_proc=208):  75%|█████████████████████████████████████████████████████████████████████████████████████▉                            | 25662/34053 [00:17<00:04, 2060.24 examples/s]
Tokenizing train dataset (num_proc=208):  76%|██████████████████████████████████████████████████████████████████████████████████████▌                           | 25869/34053 [00:17<00:04, 1926.44 examples/s]
Tokenizing train dataset (num_proc=208):  77%|███████████████████████████████████████████████████████████████████████████████████████▋                          | 26185/34053 [00:17<00:03, 1999.41 examples/s]
Tokenizing train dataset (num_proc=208):  78%|████████████████████████████████████████████████████████████████████████████████████████▋                         | 26483/34053 [00:18<00:03, 2027.94 examples/s]
Tokenizing train dataset (num_proc=208):  79%|█████████████████████████████████████████████████████████████████████████████████████████▋                        | 26800/34053 [00:18<00:03, 2003.03 examples/s]
Tokenizing train dataset (num_proc=208):  80%|██████████████████████████████████████████████████████████████████████████████████████████▊                       | 27126/34053 [00:18<00:03, 2273.97 examples/s]
Tokenizing train dataset (num_proc=208):  80%|███████████████████████████████████████████████████████████████████████████████████████████▌                      | 27367/34053 [00:18<00:03, 2015.41 examples/s]
Tokenizing train dataset (num_proc=208):  81%|████████████████████████████████████████████████████████████████████████████████████████████▌                     | 27662/34053 [00:18<00:03, 1973.82 examples/s]
Tokenizing train dataset (num_proc=208):  82%|█████████████████████████████████████████████████████████████████████████████████████████████▋                    | 27992/34053 [00:18<00:02, 2037.47 examples/s]
Tokenizing train dataset (num_proc=208):  83%|██████████████████████████████████████████████████████████████████████████████████████████████▋                   | 28292/34053 [00:18<00:02, 2052.94 examples/s]
Tokenizing train dataset (num_proc=208):  84%|███████████████████████████████████████████████████████████████████████████████████████████████▌                  | 28564/34053 [00:19<00:02, 2004.19 examples/s]
Tokenizing train dataset (num_proc=208):  85%|████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 28856/34053 [00:19<00:02, 1997.26 examples/s]
Tokenizing train dataset (num_proc=208):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                | 29155/34053 [00:19<00:02, 1979.61 examples/s]
Tokenizing train dataset (num_proc=208):  87%|██████████████████████████████████████████████████████████████████████████████████████████████████▋               | 29496/34053 [00:19<00:02, 1991.80 examples/s]
Tokenizing train dataset (num_proc=208):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████              | 29885/34053 [00:19<00:01, 2386.29 examples/s]
Tokenizing train dataset (num_proc=208):  89%|████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 30138/34053 [00:19<00:01, 2202.80 examples/s]
Tokenizing train dataset (num_proc=208):  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 30370/34053 [00:20<00:01, 2021.81 examples/s]
Tokenizing train dataset (num_proc=208):  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 30672/34053 [00:20<00:01, 2028.25 examples/s]
Tokenizing train dataset (num_proc=208):  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 30981/34053 [00:20<00:01, 2005.56 examples/s]
Tokenizing train dataset (num_proc=208):  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 31331/34053 [00:20<00:01, 2053.73 examples/s]
Tokenizing train dataset (num_proc=208):  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 31654/34053 [00:20<00:01, 2083.21 examples/s]
Tokenizing train dataset (num_proc=208):  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████       | 31966/34053 [00:20<00:01, 2046.03 examples/s]
Tokenizing train dataset (num_proc=208):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 32303/34053 [00:20<00:00, 2315.04 examples/s]
Tokenizing train dataset (num_proc=208):  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 32551/34053 [00:20<00:00, 2303.70 examples/s]
Tokenizing train dataset (num_proc=208):  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 32795/34053 [00:21<00:00, 2301.64 examples/s]
Tokenizing train dataset (num_proc=208):  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 33030/34053 [00:21<00:00, 2230.17 examples/s]
Tokenizing train dataset (num_proc=208):  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 33272/34053 [00:21<00:00, 2248.18 examples/s]
Tokenizing train dataset (num_proc=208):  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 33500/34053 [00:21<00:00, 2177.95 examples/s]
Tokenizing train dataset (num_proc=208):  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 33726/34053 [00:21<00:00, 1934.24 examples/s]
Tokenizing train dataset (num_proc=208): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 33930/34053 [00:21<00:00, 1565.14 examples/s]
Tokenizing train dataset (num_proc=208): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 34053/34053 [00:23<00:00, 1471.63 examples/s]
Time to load cpu_adam op: 2.2873032093048096 seconds