Spaces:

HuggingFaceFW-Dev
/

lang-word-tokenizers

Running

App Files Files Community

guipenedo commited on Sep 11, 2024

Commit

79ddb0e

unverified ·

1 Parent(s): 3a9bfe9

cleaned up unusued parent toks

Browse files

Files changed (13) hide show

data/Afro-Asiatic.json +0 -0
data/Austro-Asiatic.json +88 -957
data/Austronesian.json +0 -0
data/Creole.json +130 -664
data/Dravidian.json +113 -1225
data/Indo-European.json +0 -0
data/Japonic.json +5 -60
data/Kra-Dai.json +9 -108
data/Mongolic.json +3 -36
data/Niger-Congo.json +0 -0
data/Sino-Tibetan.json +76 -1479
data/Turkic.json +28 -96
data/Uralic.json +1 -162

data/Afro-Asiatic.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

data/Austro-Asiatic.json CHANGED Viewed

@@ -36,35 +36,13 @@
           "name": "Aslian",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"vi\")",
-              "original_lang_name": "vietnamese",
-              "original_lang_code": "vie",
-              "scripts": [
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Jah Hut",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Jah Hut",
@@ -85,35 +63,13 @@
               "name": "North Aslian",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Chewong",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Cheq Wong",
@@ -134,18 +90,7 @@
                   "name": "Eastern",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Batek",
@@ -196,18 +141,7 @@
                   "name": "Tonga",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Ten\u2019edn",
@@ -228,18 +162,7 @@
                   "name": "Western",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Kintaq",
@@ -275,18 +198,7 @@
               "name": "Senoic",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Lanoh",
@@ -347,18 +259,7 @@
               "name": "South Aslian",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Mah Meri",
@@ -523,18 +424,7 @@
                   "name": "East Bahnaric",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Cua",
@@ -555,18 +445,7 @@
                   "name": "North Bahnaric",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Katua",
@@ -592,18 +471,7 @@
                       "name": "East",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Kayong",
@@ -634,18 +502,7 @@
                       "name": "West",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Trieng",
@@ -671,18 +528,7 @@
                           "name": "Duan",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"vi\")",
-                              "original_lang_name": "vietnamese",
-                              "original_lang_code": "vie",
-                              "scripts": [
-                                "Latn"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": false
-                            }
-                          },
                           "children": [
                             {
                               "name": "Halang Doan",
@@ -703,18 +549,7 @@
                           "name": "Jeh-Halang",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"vi\")",
-                              "original_lang_name": "vietnamese",
-                              "original_lang_code": "vie",
-                              "scripts": [
-                                "Latn"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": false
-                            }
-                          },
                           "children": [
                             {
                               "name": "Halang",
@@ -745,18 +580,7 @@
                           "name": "Rengao",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"vi\")",
-                              "original_lang_name": "vietnamese",
-                              "original_lang_code": "vie",
-                              "scripts": [
-                                "Latn"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": false
-                            }
-                          },
                           "children": [
                             {
                               "name": "Rengao",
@@ -777,35 +601,13 @@
                           "name": "Sedang-Todrah",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"vi\")",
-                              "original_lang_name": "vietnamese",
-                              "original_lang_code": "vie",
-                              "scripts": [
-                                "Latn"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": false
-                            }
-                          },
                           "children": [
                             {
                               "name": "Sedang",
                               "iso_1_code": null,
                               "iso_3_code": null,
-                              "tokenizers": {
-                                "Latn": {
-                                  "full_object": "SpaCyTokenizer(\"vi\")",
-                                  "original_lang_name": "vietnamese",
-                                  "original_lang_code": "vie",
-                                  "scripts": [
-                                    "Latn"
-                                  ],
-                                  "class_name": "SpaCyTokenizer",
-                                  "macrolanguage": false
-                                }
-                              },
                               "children": [
                                 {
                                   "name": "Hre",
@@ -836,18 +638,7 @@
                               "name": "Todrah-Monom",
                               "iso_1_code": null,
                               "iso_3_code": null,
-                              "tokenizers": {
-                                "Latn": {
-                                  "full_object": "SpaCyTokenizer(\"vi\")",
-                                  "original_lang_name": "vietnamese",
-                                  "original_lang_code": "vie",
-                                  "scripts": [
-                                    "Latn"
-                                  ],
-                                  "class_name": "SpaCyTokenizer",
-                                  "macrolanguage": false
-                                }
-                              },
                               "children": [
                                 {
                                   "name": "Monom",
@@ -954,18 +745,7 @@
                               "name": "Eastern Mnong",
                               "iso_1_code": null,
                               "iso_3_code": null,
-                              "tokenizers": {
-                                "Latn": {
-                                  "full_object": "SpaCyTokenizer(\"vi\")",
-                                  "original_lang_name": "vietnamese",
-                                  "original_lang_code": "vie",
-                                  "scripts": [
-                                    "Latn"
-                                  ],
-                                  "class_name": "SpaCyTokenizer",
-                                  "macrolanguage": false
-                                }
-                              },
                               "children": [
                                 {
                                   "name": "Mnong, Eastern",
@@ -1057,18 +837,7 @@
                           "name": "Sre",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"vi\")",
-                              "original_lang_name": "vietnamese",
-                              "original_lang_code": "vie",
-                              "scripts": [
-                                "Latn"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": false
-                            }
-                          },
                           "children": [
                             {
                               "name": "Maa",
@@ -1104,18 +873,7 @@
                       "name": "Stieng-Chrau",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Chrau",
@@ -1161,18 +919,7 @@
                   "name": "West Bahnaric",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Lavi",
@@ -1188,18 +935,7 @@
                       "name": "Brao-Kravet",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Brao",
@@ -1250,18 +986,7 @@
                       "name": "Laven",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Laven",
@@ -1282,18 +1007,7 @@
                       "name": "Nyaheun",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Nyaheun",
@@ -1314,18 +1028,7 @@
                       "name": "Oi-The",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Oy",
@@ -1383,35 +1086,13 @@
                   "name": "Central Katuic",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Ta\u2019oih",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Ir",
@@ -1467,35 +1148,13 @@
                   "name": "East Katuic",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Katu-Pacoh",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Katu, Eastern",
@@ -1556,18 +1215,7 @@
                       "name": "Ngeq-Nkriang",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Kriang",
@@ -1707,18 +1355,7 @@
                       "name": "Kuay",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Kuay",
@@ -1759,18 +1396,7 @@
               "name": "Khmer",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Khmer",
@@ -1805,35 +1431,13 @@
               "name": "Pearic",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Eastern",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Pear",
@@ -1854,35 +1458,13 @@
                   "name": "Western",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Chong",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Chong",
@@ -1913,18 +1495,7 @@
                       "name": "Samre",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Somray",
@@ -1946,27 +1517,16 @@
                           "scripts": [],
                           "own_tokenizer": false
                         }
-                      ],
-                      "node_i": "1292",
-                      "scripts": [],
-                      "own_tokenizer": false
-                    },
-                    {
-                      "name": "Suoy",
-                      "iso_1_code": null,
-                      "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Su\u2019ung",
@@ -2002,18 +1562,7 @@
           "name": "Monic",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"vi\")",
-              "original_lang_name": "vietnamese",
-              "original_lang_code": "vie",
-              "scripts": [
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Mon",
@@ -2098,18 +1647,7 @@
               "name": "Chowra-Teressa",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Chaura",
@@ -2140,18 +1678,7 @@
               "name": "Great Nicobar",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Nicobarese, Southern",
@@ -2172,18 +1699,7 @@
               "name": "Nancowry",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Nicobarese, Central",
@@ -2204,18 +1720,7 @@
               "name": "Shom Peng",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Shom Peng",
@@ -2333,35 +1838,13 @@
               "name": "Khmuic",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Khao",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Khao",
@@ -2382,35 +1865,13 @@
                   "name": "Mal-Khmu\u2019",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Khmu\u2019",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Khuen",
@@ -2451,18 +1912,7 @@
                       "name": "Mal-Prai",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Mal",
@@ -2498,18 +1948,7 @@
                   "name": "Mlabri",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Mlabri",
@@ -2530,18 +1969,7 @@
                   "name": "Xinh Mul",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Phong-Kniang",
@@ -2577,18 +2005,7 @@
               "name": "Mang",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Mang",
@@ -2643,18 +2060,7 @@
                       "name": "Angkuic",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Hu",
@@ -2755,18 +2161,7 @@
                       "name": "Bit-Khang",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Bit",
@@ -2807,18 +2202,7 @@
                       "name": "Lametic",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Con",
@@ -2866,18 +2250,7 @@
                           "name": "Bulang",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"vi\")",
-                              "original_lang_name": "vietnamese",
-                              "original_lang_code": "vie",
-                              "scripts": [
-                                "Latn"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": false
-                            }
-                          },
                           "children": [
                             {
                               "name": "Blang",
@@ -2898,18 +2271,7 @@
                           "name": "Lawa",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"vi\")",
-                              "original_lang_name": "vietnamese",
-                              "original_lang_code": "vie",
-                              "scripts": [
-                                "Latn"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": false
-                            }
-                          },
                           "children": [
                             {
                               "name": "Lawa, Western",
@@ -3017,35 +2379,13 @@
                   "name": "Western Palaungic",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Danau",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Danau",
@@ -3066,18 +2406,7 @@
                       "name": "Palaung",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Palaung, Ruching",
@@ -3118,18 +2447,7 @@
                       "name": "Riang",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Riang Lang",
@@ -3175,18 +2493,7 @@
           "name": "Palyu",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"vi\")",
-              "original_lang_name": "vietnamese",
-              "original_lang_code": "vie",
-              "scripts": [
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Bugan",
@@ -3217,18 +2524,7 @@
           "name": "Southern Monic",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"vi\")",
-              "original_lang_name": "vietnamese",
-              "original_lang_code": "vie",
-              "scripts": [
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Nyahkur",
@@ -3249,18 +2545,7 @@
           "name": "Unclassified",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"vi\")",
-              "original_lang_name": "vietnamese",
-              "original_lang_code": "vie",
-              "scripts": [
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Kemiehua",
@@ -3308,18 +2593,7 @@
               "name": "Chut",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Arem",
@@ -3360,18 +2634,7 @@
               "name": "Cuoi",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Hung",
@@ -3402,18 +2665,7 @@
               "name": "Muong",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Bo",
@@ -3454,18 +2706,7 @@
               "name": "Thavung",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Aheu",
@@ -3809,18 +3050,7 @@
               "name": "Korku",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Korku",
@@ -3846,35 +3076,13 @@
           "name": "South Munda",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"vi\")",
-              "original_lang_name": "vietnamese",
-              "original_lang_code": "vie",
-              "scripts": [
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Kharia-Juang",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Juang",
@@ -3907,52 +3115,19 @@
               "name": "Koraput Munda",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"vi\")",
-                  "original_lang_name": "vietnamese",
-                  "original_lang_code": "vie",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Gutob-Remo-Geta\u2019",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Geta\u2019",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Gata\u2019",
@@ -3973,18 +3148,7 @@
                       "name": "Gutob-Remo",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Bondo",
@@ -4020,35 +3184,13 @@
                   "name": "Sora-Juray-Gorum",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"vi\")",
-                      "original_lang_name": "vietnamese",
-                      "original_lang_code": "vie",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Gorum",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Parenga",
@@ -4069,18 +3211,7 @@
                       "name": "Sora-Juray",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"vi\")",
-                          "original_lang_name": "vietnamese",
-                          "original_lang_code": "vie",
-                          "scripts": [
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Juray",

           "name": "Aslian",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Jah Hut",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Jah Hut",
               "name": "North Aslian",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Chewong",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Cheq Wong",
                   "name": "Eastern",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Batek",
                   "name": "Tonga",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Ten\u2019edn",
                   "name": "Western",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Kintaq",
               "name": "Senoic",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Lanoh",
               "name": "South Aslian",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Mah Meri",
                   "name": "East Bahnaric",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Cua",
                   "name": "North Bahnaric",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Katua",
                       "name": "East",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Kayong",
                       "name": "West",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Trieng",
                           "name": "Duan",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Halang Doan",
                           "name": "Jeh-Halang",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Halang",
                           "name": "Rengao",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Rengao",
                           "name": "Sedang-Todrah",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Sedang",
                               "iso_1_code": null,
                               "iso_3_code": null,
+                              "tokenizers": {},
                               "children": [
                                 {
                                   "name": "Hre",
                               "name": "Todrah-Monom",
                               "iso_1_code": null,
                               "iso_3_code": null,
+                              "tokenizers": {},
                               "children": [
                                 {
                                   "name": "Monom",
                               "name": "Eastern Mnong",
                               "iso_1_code": null,
                               "iso_3_code": null,
+                              "tokenizers": {},
                               "children": [
                                 {
                                   "name": "Mnong, Eastern",
                           "name": "Sre",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Maa",
                       "name": "Stieng-Chrau",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Chrau",
                   "name": "West Bahnaric",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Lavi",
                       "name": "Brao-Kravet",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Brao",
                       "name": "Laven",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Laven",
                       "name": "Nyaheun",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Nyaheun",
                       "name": "Oi-The",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Oy",
                   "name": "Central Katuic",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Ta\u2019oih",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Ir",
                   "name": "East Katuic",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Katu-Pacoh",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Katu, Eastern",
                       "name": "Ngeq-Nkriang",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Kriang",
                       "name": "Kuay",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Kuay",
               "name": "Khmer",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Khmer",
               "name": "Pearic",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Eastern",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Pear",
                   "name": "Western",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Chong",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Chong",
                       "name": "Samre",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Somray",
                           "scripts": [],
                           "own_tokenizer": false
                         }
+                      ],
+                      "node_i": "1292",
+                      "scripts": [],
+                      "own_tokenizer": false
+                    },
+                    {
+                      "name": "Suoy",
+                      "iso_1_code": null,
+                      "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Su\u2019ung",
           "name": "Monic",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Mon",
               "name": "Chowra-Teressa",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Chaura",
               "name": "Great Nicobar",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Nicobarese, Southern",
               "name": "Nancowry",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Nicobarese, Central",
               "name": "Shom Peng",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Shom Peng",
               "name": "Khmuic",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Khao",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Khao",
                   "name": "Mal-Khmu\u2019",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Khmu\u2019",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Khuen",
                       "name": "Mal-Prai",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Mal",
                   "name": "Mlabri",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Mlabri",
                   "name": "Xinh Mul",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Phong-Kniang",
               "name": "Mang",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Mang",
                       "name": "Angkuic",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Hu",
                       "name": "Bit-Khang",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Bit",
                       "name": "Lametic",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Con",
                           "name": "Bulang",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Blang",
                           "name": "Lawa",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Lawa, Western",
                   "name": "Western Palaungic",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Danau",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Danau",
                       "name": "Palaung",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Palaung, Ruching",
                       "name": "Riang",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Riang Lang",
           "name": "Palyu",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Bugan",
           "name": "Southern Monic",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Nyahkur",
           "name": "Unclassified",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Kemiehua",
               "name": "Chut",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Arem",
               "name": "Cuoi",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Hung",
               "name": "Muong",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Bo",
               "name": "Thavung",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Aheu",
               "name": "Korku",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Korku",
           "name": "South Munda",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Kharia-Juang",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Juang",
               "name": "Koraput Munda",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Gutob-Remo-Geta\u2019",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Geta\u2019",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Gata\u2019",
                       "name": "Gutob-Remo",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Bondo",
                   "name": "Sora-Juray-Gorum",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Gorum",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Parenga",
                       "name": "Sora-Juray",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Juray",

data/Austronesian.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

data/Creole.json CHANGED Viewed

@@ -8,9 +8,9 @@
       "original_lang_name": "malay",
       "original_lang_code": "msa",
       "scripts": [
         "Arab",
-        "Thai",
-        "Latn"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": true
@@ -20,9 +20,9 @@
       "original_lang_name": "malay",
       "original_lang_code": "msa",
       "scripts": [
         "Arab",
-        "Thai",
-        "Latn"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": true
@@ -32,9 +32,9 @@
       "original_lang_name": "malay",
       "original_lang_code": "msa",
       "scripts": [
         "Arab",
-        "Thai",
-        "Latn"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": true
@@ -45,44 +45,7 @@
       "name": "Afrikaans based",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Arab": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Thai": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        }
-      },
       "children": [
         {
           "name": "Flaaitaal",
@@ -123,30 +86,6 @@
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
-        },
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Thai": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
         }
       },
       "children": [
@@ -190,44 +129,7 @@
       "name": "Assamese based",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Arab": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Thai": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        }
-      },
       "children": [
         {
           "name": "Nagamese",
@@ -248,44 +150,7 @@
       "name": "Dutch based",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Arab": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Thai": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        }
-      },
       "children": [
         {
           "name": "Berbice Dutch Creole",
@@ -356,30 +221,6 @@
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
-        },
-        "Arab": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Thai": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
         }
       },
       "children": [
@@ -420,30 +261,6 @@
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
-            },
-            "Arab": {
-              "full_object": "SpaCyTokenizer(\"ms\")",
-              "original_lang_name": "malay",
-              "original_lang_code": "msa",
-              "scripts": [
-                "Arab",
-                "Thai",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": true
-            },
-            "Thai": {
-              "full_object": "SpaCyTokenizer(\"ms\")",
-              "original_lang_name": "malay",
-              "original_lang_code": "msa",
-              "scripts": [
-                "Arab",
-                "Thai",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": true
             }
           },
           "children": [
@@ -461,30 +278,6 @@
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
-                },
-                "Arab": {
-                  "full_object": "SpaCyTokenizer(\"ms\")",
-                  "original_lang_name": "malay",
-                  "original_lang_code": "msa",
-                  "scripts": [
-                    "Arab",
-                    "Thai",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Thai": {
-                  "full_object": "SpaCyTokenizer(\"ms\")",
-                  "original_lang_name": "malay",
-                  "original_lang_code": "msa",
-                  "scripts": [
-                    "Arab",
-                    "Thai",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
                 }
               },
               "children": [
@@ -512,30 +305,6 @@
                       ],
                       "class_name": "StanzaTokenizer",
                       "macrolanguage": false
-                    },
-                    "Arab": {
-                      "full_object": "SpaCyTokenizer(\"ms\")",
-                      "original_lang_name": "malay",
-                      "original_lang_code": "msa",
-                      "scripts": [
-                        "Arab",
-                        "Thai",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Thai": {
-                      "full_object": "SpaCyTokenizer(\"ms\")",
-                      "original_lang_name": "malay",
-                      "original_lang_code": "msa",
-                      "scripts": [
-                        "Arab",
-                        "Thai",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
                     }
                   },
                   "children": [
@@ -591,42 +360,7 @@
                   "name": "Southern",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "StanzaTokenizer(\"pcm\")",
-                      "original_lang_name": "nigerian_pidgin",
-                      "original_lang_code": "pcm",
-                      "scripts": [
-                        "Latn"
-                      ],
-                      "class_name": "StanzaTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Arab": {
-                      "full_object": "SpaCyTokenizer(\"ms\")",
-                      "original_lang_name": "malay",
-                      "original_lang_code": "msa",
-                      "scripts": [
-                        "Arab",
-                        "Thai",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Thai": {
-                      "full_object": "SpaCyTokenizer(\"ms\")",
-                      "original_lang_name": "malay",
-                      "original_lang_code": "msa",
-                      "scripts": [
-                        "Arab",
-                        "Thai",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Leeward Caribbean English Creole",
@@ -732,30 +466,6 @@
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
-                },
-                "Arab": {
-                  "full_object": "SpaCyTokenizer(\"ms\")",
-                  "original_lang_name": "malay",
-                  "original_lang_code": "msa",
-                  "scripts": [
-                    "Arab",
-                    "Thai",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Thai": {
-                  "full_object": "SpaCyTokenizer(\"ms\")",
-                  "original_lang_name": "malay",
-                  "original_lang_code": "msa",
-                  "scripts": [
-                    "Arab",
-                    "Thai",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
                 }
               },
               "children": [
@@ -867,30 +577,6 @@
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
-                },
-                "Arab": {
-                  "full_object": "SpaCyTokenizer(\"ms\")",
-                  "original_lang_name": "malay",
-                  "original_lang_code": "msa",
-                  "scripts": [
-                    "Arab",
-                    "Thai",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Thai": {
-                  "full_object": "SpaCyTokenizer(\"ms\")",
-                  "original_lang_name": "malay",
-                  "original_lang_code": "msa",
-                  "scripts": [
-                    "Arab",
-                    "Thai",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
                 }
               },
               "children": [
@@ -931,30 +617,6 @@
                       ],
                       "class_name": "StanzaTokenizer",
                       "macrolanguage": false
-                    },
-                    "Arab": {
-                      "full_object": "SpaCyTokenizer(\"ms\")",
-                      "original_lang_name": "malay",
-                      "original_lang_code": "msa",
-                      "scripts": [
-                        "Arab",
-                        "Thai",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Thai": {
-                      "full_object": "SpaCyTokenizer(\"ms\")",
-                      "original_lang_name": "malay",
-                      "original_lang_code": "msa",
-                      "scripts": [
-                        "Arab",
-                        "Thai",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
                     }
                   },
                   "children": [
@@ -1015,30 +677,6 @@
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
-                },
-                "Arab": {
-                  "full_object": "SpaCyTokenizer(\"ms\")",
-                  "original_lang_name": "malay",
-                  "original_lang_code": "msa",
-                  "scripts": [
-                    "Arab",
-                    "Thai",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Thai": {
-                  "full_object": "SpaCyTokenizer(\"ms\")",
-                  "original_lang_name": "malay",
-                  "original_lang_code": "msa",
-                  "scripts": [
-                    "Arab",
-                    "Thai",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
                 }
               },
               "children": [
@@ -1145,30 +783,6 @@
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
-            },
-            "Arab": {
-              "full_object": "SpaCyTokenizer(\"ms\")",
-              "original_lang_name": "malay",
-              "original_lang_code": "msa",
-              "scripts": [
-                "Arab",
-                "Thai",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": true
-            },
-            "Thai": {
-              "full_object": "SpaCyTokenizer(\"ms\")",
-              "original_lang_name": "malay",
-              "original_lang_code": "msa",
-              "scripts": [
-                "Arab",
-                "Thai",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": true
             }
           },
           "children": [
@@ -1350,9 +964,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -1362,9 +976,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -1374,9 +988,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -1393,9 +1007,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -1428,9 +1042,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -1453,9 +1067,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -1478,9 +1092,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -1503,9 +1117,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -1548,9 +1162,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -1573,9 +1187,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -1607,44 +1221,7 @@
       "name": "German based",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Arab": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Thai": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        }
-      },
       "children": [
         {
           "name": "Unserdeutsch",
@@ -1665,44 +1242,7 @@
       "name": "Hindi based",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Arab": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Thai": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        }
-      },
       "children": [
         {
           "name": "Andaman Hindi Creole",
@@ -1729,9 +1269,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -1741,9 +1281,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -1753,9 +1293,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -1772,9 +1312,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -1796,44 +1336,7 @@
       "name": "Japanese-based",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Arab": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Thai": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        }
-      },
       "children": [
         {
           "name": "Yilan Creole",
@@ -1860,9 +1363,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -1872,9 +1375,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -1884,9 +1387,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -1903,9 +1406,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -1938,38 +1441,38 @@
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
-        "Arab": {
           "full_object": "SpaCyTokenizer(\"ms\")",
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
         },
-        "Thai": {
           "full_object": "SpaCyTokenizer(\"ms\")",
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
         },
-        "Latn": {
           "full_object": "SpaCyTokenizer(\"ms\")",
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -1986,9 +1489,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2011,9 +1514,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2051,38 +1554,38 @@
           "iso_1_code": "ms",
           "iso_3_code": "coa",
           "tokenizers": {
-            "Arab": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
-            "Thai": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
-            "Latn": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2108,38 +1611,38 @@
           "iso_1_code": "ms",
           "iso_3_code": "max",
           "tokenizers": {
-            "Arab": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
-            "Thai": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
-            "Latn": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2162,9 +1665,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2197,9 +1700,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2247,38 +1750,38 @@
           "iso_1_code": "ms",
           "iso_3_code": "xmm",
           "tokenizers": {
-            "Arab": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
-            "Thai": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
-            "Latn": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2306,9 +1809,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2318,9 +1821,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2330,9 +1833,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2349,9 +1852,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2389,9 +1892,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2401,9 +1904,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2413,9 +1916,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2452,9 +1955,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2497,9 +2000,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2542,9 +2045,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2612,9 +2115,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2624,9 +2127,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2636,9 +2139,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2655,9 +2158,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
@@ -2689,44 +2192,7 @@
       "name": "Swahili based",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Arab": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        },
-        "Thai": {
-          "full_object": "SpaCyTokenizer(\"ms\")",
-          "original_lang_name": "malay",
-          "original_lang_code": "msa",
-          "scripts": [
-            "Arab",
-            "Thai",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
-        }
-      },
       "children": [
         {
           "name": "Cutchi-Swahili",
@@ -2753,9 +2219,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2765,9 +2231,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2777,9 +2243,9 @@
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
             "Arab",
-            "Thai",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
@@ -2796,9 +2262,9 @@
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
                 "Arab",
-                "Thai",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true

       "original_lang_name": "malay",
       "original_lang_code": "msa",
       "scripts": [
+        "Latn",
         "Arab",
+        "Thai"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": true
       "original_lang_name": "malay",
       "original_lang_code": "msa",
       "scripts": [
+        "Latn",
         "Arab",
+        "Thai"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": true
       "original_lang_name": "malay",
       "original_lang_code": "msa",
       "scripts": [
+        "Latn",
         "Arab",
+        "Thai"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": true
       "name": "Afrikaans based",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Flaaitaal",
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
         }
       },
       "children": [
       "name": "Assamese based",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Nagamese",
       "name": "Dutch based",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Berbice Dutch Creole",
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
         }
       },
       "children": [
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
             }
           },
           "children": [
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
                 }
               },
               "children": [
                       ],
                       "class_name": "StanzaTokenizer",
                       "macrolanguage": false
                     }
                   },
                   "children": [
                   "name": "Southern",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Leeward Caribbean English Creole",
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
                 }
               },
               "children": [
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
                 }
               },
               "children": [
                       ],
                       "class_name": "StanzaTokenizer",
                       "macrolanguage": false
                     }
                   },
                   "children": [
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
                 }
               },
               "children": [
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
             }
           },
           "children": [
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
       "name": "German based",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Unserdeutsch",
       "name": "Hindi based",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Andaman Hindi Creole",
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
       "name": "Japanese-based",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Yilan Creole",
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
+        "Latn": {
           "full_object": "SpaCyTokenizer(\"ms\")",
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
         },
+        "Arab": {
           "full_object": "SpaCyTokenizer(\"ms\")",
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
         },
+        "Thai": {
           "full_object": "SpaCyTokenizer(\"ms\")",
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
           "iso_1_code": "ms",
           "iso_3_code": "coa",
           "tokenizers": {
+            "Latn": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
+            "Arab": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
+            "Thai": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
           "iso_1_code": "ms",
           "iso_3_code": "max",
           "tokenizers": {
+            "Latn": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
+            "Arab": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
+            "Thai": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
           "iso_1_code": "ms",
           "iso_3_code": "xmm",
           "tokenizers": {
+            "Latn": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
+            "Arab": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
             },
+            "Thai": {
               "full_object": "SpaCyTokenizer(\"ms\")",
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true
       "name": "Swahili based",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Cutchi-Swahili",
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
           "original_lang_name": "malay",
           "original_lang_code": "msa",
           "scripts": [
+            "Latn",
             "Arab",
+            "Thai"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
               "original_lang_name": "malay",
               "original_lang_code": "msa",
               "scripts": [
+                "Latn",
                 "Arab",
+                "Thai"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": true

data/Dravidian.json CHANGED Viewed

@@ -3,24 +3,24 @@
   "iso_1_code": null,
   "iso_3_code": null,
   "tokenizers": {
-    "Latn": {
-      "full_object": "SpaCyTokenizer(\"ta\")",
-      "original_lang_name": "tamil",
-      "original_lang_code": "tam",
       "scripts": [
-        "Taml",
         "Latn"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": false
     },
-    "Telu": {
-      "full_object": "SpaCyTokenizer(\"te\")",
-      "original_lang_name": "telugu",
-      "original_lang_code": "tel",
       "scripts": [
         "Latn",
-        "Telu"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": false
@@ -52,8 +52,8 @@
       "original_lang_name": "tamil",
       "original_lang_code": "tam",
       "scripts": [
-        "Taml",
-        "Latn"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": false
@@ -64,125 +64,13 @@
       "name": "Central",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"ta\")",
-          "original_lang_name": "tamil",
-          "original_lang_code": "tam",
-          "scripts": [
-            "Taml",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Telu": {
-          "full_object": "SpaCyTokenizer(\"te\")",
-          "original_lang_name": "telugu",
-          "original_lang_code": "tel",
-          "scripts": [
-            "Latn",
-            "Telu"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Knda": {
-          "full_object": "SpaCyTokenizer(\"kn\")",
-          "original_lang_name": "kannada",
-          "original_lang_code": "kan",
-          "scripts": [
-            "Latn",
-            "Knda"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Mlym": {
-          "full_object": "SpaCyTokenizer(\"ml\")",
-          "original_lang_name": "malayalam",
-          "original_lang_code": "mal",
-          "scripts": [
-            "Latn",
-            "Mlym"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Taml": {
-          "full_object": "SpaCyTokenizer(\"ta\")",
-          "original_lang_name": "tamil",
-          "original_lang_code": "tam",
-          "scripts": [
-            "Taml",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        }
-      },
       "children": [
         {
           "name": "Kolami-Naiki",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"ta\")",
-              "original_lang_name": "tamil",
-              "original_lang_code": "tam",
-              "scripts": [
-                "Taml",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Telu": {
-              "full_object": "SpaCyTokenizer(\"te\")",
-              "original_lang_name": "telugu",
-              "original_lang_code": "tel",
-              "scripts": [
-                "Latn",
-                "Telu"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Knda": {
-              "full_object": "SpaCyTokenizer(\"kn\")",
-              "original_lang_name": "kannada",
-              "original_lang_code": "kan",
-              "scripts": [
-                "Latn",
-                "Knda"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Mlym": {
-              "full_object": "SpaCyTokenizer(\"ml\")",
-              "original_lang_name": "malayalam",
-              "original_lang_code": "mal",
-              "scripts": [
-                "Latn",
-                "Mlym"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Taml": {
-              "full_object": "SpaCyTokenizer(\"ta\")",
-              "original_lang_name": "tamil",
-              "original_lang_code": "tam",
-              "scripts": [
-                "Taml",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Kolami, Northwestern",
@@ -213,63 +101,7 @@
           "name": "Parji-Gadaba",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"ta\")",
-              "original_lang_name": "tamil",
-              "original_lang_code": "tam",
-              "scripts": [
-                "Taml",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Telu": {
-              "full_object": "SpaCyTokenizer(\"te\")",
-              "original_lang_name": "telugu",
-              "original_lang_code": "tel",
-              "scripts": [
-                "Latn",
-                "Telu"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Knda": {
-              "full_object": "SpaCyTokenizer(\"kn\")",
-              "original_lang_name": "kannada",
-              "original_lang_code": "kan",
-              "scripts": [
-                "Latn",
-                "Knda"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Mlym": {
-              "full_object": "SpaCyTokenizer(\"ml\")",
-              "original_lang_name": "malayalam",
-              "original_lang_code": "mal",
-              "scripts": [
-                "Latn",
-                "Mlym"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Taml": {
-              "full_object": "SpaCyTokenizer(\"ta\")",
-              "original_lang_name": "tamil",
-              "original_lang_code": "tam",
-              "scripts": [
-                "Taml",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Gadaba, Mudhili",
@@ -315,63 +147,7 @@
       "name": "Northern",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"ta\")",
-          "original_lang_name": "tamil",
-          "original_lang_code": "tam",
-          "scripts": [
-            "Taml",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Telu": {
-          "full_object": "SpaCyTokenizer(\"te\")",
-          "original_lang_name": "telugu",
-          "original_lang_code": "tel",
-          "scripts": [
-            "Latn",
-            "Telu"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Knda": {
-          "full_object": "SpaCyTokenizer(\"kn\")",
-          "original_lang_name": "kannada",
-          "original_lang_code": "kan",
-          "scripts": [
-            "Latn",
-            "Knda"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Mlym": {
-          "full_object": "SpaCyTokenizer(\"ml\")",
-          "original_lang_name": "malayalam",
-          "original_lang_code": "mal",
-          "scripts": [
-            "Latn",
-            "Mlym"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Taml": {
-          "full_object": "SpaCyTokenizer(\"ta\")",
-          "original_lang_name": "tamil",
-          "original_lang_code": "tam",
-          "scripts": [
-            "Taml",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        }
-      },
       "children": [
         {
           "name": "Brahui",
@@ -437,57 +213,24 @@
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
-        "Latn": {
           "full_object": "SpaCyTokenizer(\"te\")",
           "original_lang_name": "telugu",
           "original_lang_code": "tel",
           "scripts": [
-            "Latn",
-            "Telu"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
         },
-        "Telu": {
           "full_object": "SpaCyTokenizer(\"te\")",
           "original_lang_name": "telugu",
           "original_lang_code": "tel",
           "scripts": [
-            "Latn",
-            "Telu"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Knda": {
-          "full_object": "SpaCyTokenizer(\"kn\")",
-          "original_lang_name": "kannada",
-          "original_lang_code": "kan",
-          "scripts": [
-            "Latn",
-            "Knda"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Mlym": {
-          "full_object": "SpaCyTokenizer(\"ml\")",
-          "original_lang_name": "malayalam",
-          "original_lang_code": "mal",
-          "scripts": [
-            "Latn",
-            "Mlym"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Taml": {
-          "full_object": "SpaCyTokenizer(\"ta\")",
-          "original_lang_name": "tamil",
-          "original_lang_code": "tam",
-          "scripts": [
-            "Taml",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
@@ -499,56 +242,23 @@
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
-            "Latn": {
               "full_object": "SpaCyTokenizer(\"te\")",
               "original_lang_name": "telugu",
               "original_lang_code": "tel",
               "scripts": [
-                "Latn",
-                "Telu"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
             },
-            "Telu": {
               "full_object": "SpaCyTokenizer(\"te\")",
               "original_lang_name": "telugu",
               "original_lang_code": "tel",
               "scripts": [
-                "Latn",
-                "Telu"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Knda": {
-              "full_object": "SpaCyTokenizer(\"kn\")",
-              "original_lang_name": "kannada",
-              "original_lang_code": "kan",
-              "scripts": [
-                "Latn",
-                "Knda"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Mlym": {
-              "full_object": "SpaCyTokenizer(\"ml\")",
-              "original_lang_name": "malayalam",
-              "original_lang_code": "mal",
-              "scripts": [
-                "Latn",
-                "Mlym"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Taml": {
-              "full_object": "SpaCyTokenizer(\"ta\")",
-              "original_lang_name": "tamil",
-              "original_lang_code": "tam",
-              "scripts": [
-                "Taml",
                 "Latn"
               ],
               "class_name": "SpaCyTokenizer",
@@ -561,56 +271,23 @@
               "iso_1_code": null,
               "iso_3_code": null,
               "tokenizers": {
-                "Latn": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
-                    "Latn",
-                    "Telu"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
                 },
-                "Telu": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
-                    "Latn",
-                    "Telu"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Knda": {
-                  "full_object": "SpaCyTokenizer(\"kn\")",
-                  "original_lang_name": "kannada",
-                  "original_lang_code": "kan",
-                  "scripts": [
-                    "Latn",
-                    "Knda"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Mlym": {
-                  "full_object": "SpaCyTokenizer(\"ml\")",
-                  "original_lang_name": "malayalam",
-                  "original_lang_code": "mal",
-                  "scripts": [
-                    "Latn",
-                    "Mlym"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Taml": {
-                  "full_object": "SpaCyTokenizer(\"ta\")",
-                  "original_lang_name": "tamil",
-                  "original_lang_code": "tam",
-                  "scripts": [
-                    "Taml",
                     "Latn"
                   ],
                   "class_name": "SpaCyTokenizer",
@@ -730,8 +407,8 @@
                       "original_lang_name": "telugu",
                       "original_lang_code": "tel",
                       "scripts": [
-                        "Latn",
-                        "Telu"
                       ],
                       "class_name": "SpaCyTokenizer",
                       "macrolanguage": false
@@ -754,56 +431,23 @@
               "iso_1_code": null,
               "iso_3_code": null,
               "tokenizers": {
-                "Latn": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
-                    "Latn",
-                    "Telu"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
                 },
-                "Telu": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
-                    "Latn",
-                    "Telu"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Knda": {
-                  "full_object": "SpaCyTokenizer(\"kn\")",
-                  "original_lang_name": "kannada",
-                  "original_lang_code": "kan",
-                  "scripts": [
-                    "Latn",
-                    "Knda"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Mlym": {
-                  "full_object": "SpaCyTokenizer(\"ml\")",
-                  "original_lang_name": "malayalam",
-                  "original_lang_code": "mal",
-                  "scripts": [
-                    "Latn",
-                    "Mlym"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Taml": {
-                  "full_object": "SpaCyTokenizer(\"ta\")",
-                  "original_lang_name": "tamil",
-                  "original_lang_code": "tam",
-                  "scripts": [
-                    "Taml",
                     "Latn"
                   ],
                   "class_name": "SpaCyTokenizer",
@@ -815,63 +459,7 @@
                   "name": "Konda",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"te\")",
-                      "original_lang_name": "telugu",
-                      "original_lang_code": "tel",
-                      "scripts": [
-                        "Latn",
-                        "Telu"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Telu": {
-                      "full_object": "SpaCyTokenizer(\"te\")",
-                      "original_lang_name": "telugu",
-                      "original_lang_code": "tel",
-                      "scripts": [
-                        "Latn",
-                        "Telu"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Knda": {
-                      "full_object": "SpaCyTokenizer(\"kn\")",
-                      "original_lang_name": "kannada",
-                      "original_lang_code": "kan",
-                      "scripts": [
-                        "Latn",
-                        "Knda"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Mlym": {
-                      "full_object": "SpaCyTokenizer(\"ml\")",
-                      "original_lang_name": "malayalam",
-                      "original_lang_code": "mal",
-                      "scripts": [
-                        "Latn",
-                        "Mlym"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Taml": {
-                      "full_object": "SpaCyTokenizer(\"ta\")",
-                      "original_lang_name": "tamil",
-                      "original_lang_code": "tam",
-                      "scripts": [
-                        "Taml",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Konda-Dora",
@@ -903,56 +491,23 @@
                   "iso_1_code": null,
                   "iso_3_code": null,
                   "tokenizers": {
-                    "Latn": {
                       "full_object": "SpaCyTokenizer(\"te\")",
                       "original_lang_name": "telugu",
                       "original_lang_code": "tel",
                       "scripts": [
-                        "Latn",
-                        "Telu"
                       ],
                       "class_name": "SpaCyTokenizer",
                       "macrolanguage": false
                     },
-                    "Telu": {
                       "full_object": "SpaCyTokenizer(\"te\")",
                       "original_lang_name": "telugu",
                       "original_lang_code": "tel",
                       "scripts": [
-                        "Latn",
-                        "Telu"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Knda": {
-                      "full_object": "SpaCyTokenizer(\"kn\")",
-                      "original_lang_name": "kannada",
-                      "original_lang_code": "kan",
-                      "scripts": [
-                        "Latn",
-                        "Knda"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Mlym": {
-                      "full_object": "SpaCyTokenizer(\"ml\")",
-                      "original_lang_name": "malayalam",
-                      "original_lang_code": "mal",
-                      "scripts": [
-                        "Latn",
-                        "Mlym"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Taml": {
-                      "full_object": "SpaCyTokenizer(\"ta\")",
-                      "original_lang_name": "tamil",
-                      "original_lang_code": "tam",
-                      "scripts": [
-                        "Taml",
                         "Latn"
                       ],
                       "class_name": "SpaCyTokenizer",
@@ -965,57 +520,24 @@
                       "iso_1_code": null,
                       "iso_3_code": null,
                       "tokenizers": {
-                        "Latn": {
                           "full_object": "SpaCyTokenizer(\"te\")",
                           "original_lang_name": "telugu",
                           "original_lang_code": "tel",
                           "scripts": [
-                            "Latn",
-                            "Telu"
                           ],
                           "class_name": "SpaCyTokenizer",
                           "macrolanguage": false
                         },
-                        "Telu": {
                           "full_object": "SpaCyTokenizer(\"te\")",
                           "original_lang_name": "telugu",
                           "original_lang_code": "tel",
                           "scripts": [
-                            "Latn",
-                            "Telu"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Knda": {
-                          "full_object": "SpaCyTokenizer(\"kn\")",
-                          "original_lang_name": "kannada",
-                          "original_lang_code": "kan",
-                          "scripts": [
-                            "Latn",
-                            "Knda"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Mlym": {
-                          "full_object": "SpaCyTokenizer(\"ml\")",
-                          "original_lang_name": "malayalam",
-                          "original_lang_code": "mal",
-                          "scripts": [
-                            "Latn",
-                            "Mlym"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Taml": {
-                          "full_object": "SpaCyTokenizer(\"ta\")",
-                          "original_lang_name": "tamil",
-                          "original_lang_code": "tam",
-                          "scripts": [
-                            "Taml",
-                            "Latn"
                           ],
                           "class_name": "SpaCyTokenizer",
                           "macrolanguage": false
@@ -1042,8 +564,8 @@
                               "original_lang_name": "telugu",
                               "original_lang_code": "tel",
                               "scripts": [
-                                "Latn",
-                                "Telu"
                               ],
                               "class_name": "SpaCyTokenizer",
                               "macrolanguage": false
@@ -1085,63 +607,7 @@
                       "name": "Manda-Pengo",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"te\")",
-                          "original_lang_name": "telugu",
-                          "original_lang_code": "tel",
-                          "scripts": [
-                            "Latn",
-                            "Telu"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Telu": {
-                          "full_object": "SpaCyTokenizer(\"te\")",
-                          "original_lang_name": "telugu",
-                          "original_lang_code": "tel",
-                          "scripts": [
-                            "Latn",
-                            "Telu"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Knda": {
-                          "full_object": "SpaCyTokenizer(\"kn\")",
-                          "original_lang_name": "kannada",
-                          "original_lang_code": "kan",
-                          "scripts": [
-                            "Latn",
-                            "Knda"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Mlym": {
-                          "full_object": "SpaCyTokenizer(\"ml\")",
-                          "original_lang_name": "malayalam",
-                          "original_lang_code": "mal",
-                          "scripts": [
-                            "Latn",
-                            "Mlym"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Taml": {
-                          "full_object": "SpaCyTokenizer(\"ta\")",
-                          "original_lang_name": "tamil",
-                          "original_lang_code": "tam",
-                          "scripts": [
-                            "Taml",
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        }
-                      },
                       "children": [
                         {
                           "name": "Manda",
@@ -1188,56 +654,23 @@
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
-            "Latn": {
               "full_object": "SpaCyTokenizer(\"te\")",
               "original_lang_name": "telugu",
               "original_lang_code": "tel",
               "scripts": [
-                "Latn",
-                "Telu"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
             },
-            "Telu": {
               "full_object": "SpaCyTokenizer(\"te\")",
               "original_lang_name": "telugu",
               "original_lang_code": "tel",
               "scripts": [
-                "Latn",
-                "Telu"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Knda": {
-              "full_object": "SpaCyTokenizer(\"kn\")",
-              "original_lang_name": "kannada",
-              "original_lang_code": "kan",
-              "scripts": [
-                "Latn",
-                "Knda"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Mlym": {
-              "full_object": "SpaCyTokenizer(\"ml\")",
-              "original_lang_name": "malayalam",
-              "original_lang_code": "mal",
-              "scripts": [
-                "Latn",
-                "Mlym"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Taml": {
-              "full_object": "SpaCyTokenizer(\"ta\")",
-              "original_lang_name": "tamil",
-              "original_lang_code": "tam",
-              "scripts": [
-                "Taml",
                 "Latn"
               ],
               "class_name": "SpaCyTokenizer",
@@ -1270,24 +703,24 @@
               "iso_1_code": "te",
               "iso_3_code": "tel",
               "tokenizers": {
-                "Latn": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
-                    "Latn",
-                    "Telu"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
                 },
-                "Telu": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
-                    "Latn",
-                    "Telu"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
@@ -1331,8 +764,8 @@
           "original_lang_name": "tamil",
           "original_lang_code": "tam",
           "scripts": [
-            "Taml",
-            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
@@ -1363,20 +796,9 @@
           "full_object": "SpaCyTokenizer(\"ta\")",
           "original_lang_name": "tamil",
           "original_lang_code": "tam",
-          "scripts": [
-            "Taml",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Telu": {
-          "full_object": "SpaCyTokenizer(\"te\")",
-          "original_lang_name": "telugu",
-          "original_lang_code": "tel",
           "scripts": [
             "Latn",
-            "Telu"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
@@ -1463,8 +885,8 @@
               "original_lang_name": "tamil",
               "original_lang_code": "tam",
               "scripts": [
-                "Taml",
-                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
@@ -1495,20 +917,9 @@
               "full_object": "SpaCyTokenizer(\"ta\")",
               "original_lang_name": "tamil",
               "original_lang_code": "tam",
-              "scripts": [
-                "Taml",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Telu": {
-              "full_object": "SpaCyTokenizer(\"te\")",
-              "original_lang_name": "telugu",
-              "original_lang_code": "tel",
               "scripts": [
                 "Latn",
-                "Telu"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
@@ -1541,39 +952,6 @@
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
-                },
-                "Mlym": {
-                  "full_object": "SpaCyTokenizer(\"ml\")",
-                  "original_lang_name": "malayalam",
-                  "original_lang_code": "mal",
-                  "scripts": [
-                    "Latn",
-                    "Mlym"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Taml": {
-                  "full_object": "SpaCyTokenizer(\"ta\")",
-                  "original_lang_name": "tamil",
-                  "original_lang_code": "tam",
-                  "scripts": [
-                    "Taml",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Telu": {
-                  "full_object": "SpaCyTokenizer(\"te\")",
-                  "original_lang_name": "telugu",
-                  "original_lang_code": "tel",
-                  "scripts": [
-                    "Latn",
-                    "Telu"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
                 }
               },
               "children": [
@@ -1658,8 +1036,8 @@
                   "original_lang_name": "tamil",
                   "original_lang_code": "tam",
                   "scripts": [
-                    "Taml",
-                    "Latn"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
@@ -1679,31 +1057,9 @@
                   "full_object": "SpaCyTokenizer(\"ta\")",
                   "original_lang_name": "tamil",
                   "original_lang_code": "tam",
-                  "scripts": [
-                    "Taml",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Knda": {
-                  "full_object": "SpaCyTokenizer(\"kn\")",
-                  "original_lang_name": "kannada",
-                  "original_lang_code": "kan",
-                  "scripts": [
-                    "Latn",
-                    "Knda"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Telu": {
-                  "full_object": "SpaCyTokenizer(\"te\")",
-                  "original_lang_name": "telugu",
-                  "original_lang_code": "tel",
                   "scripts": [
                     "Latn",
-                    "Telu"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
@@ -1714,83 +1070,27 @@
                   "name": "Kodagu",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"ta\")",
-                      "original_lang_name": "tamil",
-                      "original_lang_code": "tam",
-                      "scripts": [
-                        "Taml",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Mlym": {
-                      "full_object": "SpaCyTokenizer(\"ml\")",
-                      "original_lang_name": "malayalam",
-                      "original_lang_code": "mal",
-                      "scripts": [
-                        "Latn",
-                        "Mlym"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
                     },
-                    "Taml": {
-                      "full_object": "SpaCyTokenizer(\"ta\")",
-                      "original_lang_name": "tamil",
-                      "original_lang_code": "tam",
-                      "scripts": [
-                        "Taml",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Knda": {
-                      "full_object": "SpaCyTokenizer(\"kn\")",
-                      "original_lang_name": "kannada",
-                      "original_lang_code": "kan",
-                      "scripts": [
-                        "Latn",
-                        "Knda"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Telu": {
-                      "full_object": "SpaCyTokenizer(\"te\")",
-                      "original_lang_name": "telugu",
-                      "original_lang_code": "tel",
-                      "scripts": [
-                        "Latn",
-                        "Telu"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
-                  "children": [
-                    {
-                      "name": "Kodava",
-                      "iso_1_code": null,
-                      "iso_3_code": "kfa",
-                      "tokenizers": {},
-                      "children": [],
-                      "node_i": "3664",
-                      "scripts": [],
-                      "own_tokenizer": false
-                    },
-                    {
-                      "name": "Kurumba, Kannada",
-                      "iso_1_code": null,
-                      "iso_3_code": "kfi",
-                      "tokenizers": {},
-                      "children": [],
-                      "node_i": "3665",
-                      "scripts": [],
-                      "own_tokenizer": false
                     },
                     {
                       "name": "Kurumba, Mullu",
@@ -1837,8 +1137,8 @@
                       "original_lang_name": "tamil",
                       "original_lang_code": "tam",
                       "scripts": [
-                        "Taml",
-                        "Latn"
                       ],
                       "class_name": "SpaCyTokenizer",
                       "macrolanguage": false
@@ -1858,31 +1158,9 @@
                       "full_object": "SpaCyTokenizer(\"ta\")",
                       "original_lang_name": "tamil",
                       "original_lang_code": "tam",
-                      "scripts": [
-                        "Taml",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Knda": {
-                      "full_object": "SpaCyTokenizer(\"kn\")",
-                      "original_lang_name": "kannada",
-                      "original_lang_code": "kan",
                       "scripts": [
                         "Latn",
-                        "Knda"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Telu": {
-                      "full_object": "SpaCyTokenizer(\"te\")",
-                      "original_lang_name": "telugu",
-                      "original_lang_code": "tel",
-                      "scripts": [
-                        "Latn",
-                        "Telu"
                       ],
                       "class_name": "SpaCyTokenizer",
                       "macrolanguage": false
@@ -1925,39 +1203,6 @@
                           ],
                           "class_name": "SpaCyTokenizer",
                           "macrolanguage": false
-                        },
-                        "Taml": {
-                          "full_object": "SpaCyTokenizer(\"ta\")",
-                          "original_lang_name": "tamil",
-                          "original_lang_code": "tam",
-                          "scripts": [
-                            "Taml",
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Knda": {
-                          "full_object": "SpaCyTokenizer(\"kn\")",
-                          "original_lang_name": "kannada",
-                          "original_lang_code": "kan",
-                          "scripts": [
-                            "Latn",
-                            "Knda"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Telu": {
-                          "full_object": "SpaCyTokenizer(\"te\")",
-                          "original_lang_name": "telugu",
-                          "original_lang_code": "tel",
-                          "scripts": [
-                            "Latn",
-                            "Telu"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
                         }
                       },
                       "children": [
@@ -2087,57 +1332,24 @@
                       "iso_1_code": null,
                       "iso_3_code": null,
                       "tokenizers": {
-                        "Taml": {
                           "full_object": "SpaCyTokenizer(\"ta\")",
                           "original_lang_name": "tamil",
                           "original_lang_code": "tam",
                           "scripts": [
-                            "Taml",
-                            "Latn"
                           ],
                           "class_name": "SpaCyTokenizer",
                           "macrolanguage": false
                         },
-                        "Latn": {
                           "full_object": "SpaCyTokenizer(\"ta\")",
                           "original_lang_name": "tamil",
                           "original_lang_code": "tam",
-                          "scripts": [
-                            "Taml",
-                            "Latn"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Mlym": {
-                          "full_object": "SpaCyTokenizer(\"ml\")",
-                          "original_lang_name": "malayalam",
-                          "original_lang_code": "mal",
-                          "scripts": [
-                            "Latn",
-                            "Mlym"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Knda": {
-                          "full_object": "SpaCyTokenizer(\"kn\")",
-                          "original_lang_name": "kannada",
-                          "original_lang_code": "kan",
                           "scripts": [
                             "Latn",
-                            "Knda"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": false
-                        },
-                        "Telu": {
-                          "full_object": "SpaCyTokenizer(\"te\")",
-                          "original_lang_name": "telugu",
-                          "original_lang_code": "tel",
-                          "scripts": [
-                            "Latn",
-                            "Telu"
                           ],
                           "class_name": "SpaCyTokenizer",
                           "macrolanguage": false
@@ -2209,24 +1421,24 @@
                           "iso_1_code": "ta",
                           "iso_3_code": "tam",
                           "tokenizers": {
-                            "Taml": {
                               "full_object": "SpaCyTokenizer(\"ta\")",
                               "original_lang_name": "tamil",
                               "original_lang_code": "tam",
                               "scripts": [
-                                "Taml",
-                                "Latn"
                               ],
                               "class_name": "SpaCyTokenizer",
                               "macrolanguage": false
                             },
-                            "Latn": {
                               "full_object": "SpaCyTokenizer(\"ta\")",
                               "original_lang_name": "tamil",
                               "original_lang_code": "tam",
                               "scripts": [
-                                "Taml",
-                                "Latn"
                               ],
                               "class_name": "SpaCyTokenizer",
                               "macrolanguage": false
@@ -2274,63 +1486,7 @@
                   "name": "Toda-Kota",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"ta\")",
-                      "original_lang_name": "tamil",
-                      "original_lang_code": "tam",
-                      "scripts": [
-                        "Taml",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Mlym": {
-                      "full_object": "SpaCyTokenizer(\"ml\")",
-                      "original_lang_name": "malayalam",
-                      "original_lang_code": "mal",
-                      "scripts": [
-                        "Latn",
-                        "Mlym"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Taml": {
-                      "full_object": "SpaCyTokenizer(\"ta\")",
-                      "original_lang_name": "tamil",
-                      "original_lang_code": "tam",
-                      "scripts": [
-                        "Taml",
-                        "Latn"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Knda": {
-                      "full_object": "SpaCyTokenizer(\"kn\")",
-                      "original_lang_name": "kannada",
-                      "original_lang_code": "kan",
-                      "scripts": [
-                        "Latn",
-                        "Knda"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    },
-                    "Telu": {
-                      "full_object": "SpaCyTokenizer(\"te\")",
-                      "original_lang_name": "telugu",
-                      "original_lang_code": "tel",
-                      "scripts": [
-                        "Latn",
-                        "Telu"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": false
-                    }
-                  },
                   "children": [
                     {
                       "name": "Kota",
@@ -2366,63 +1522,7 @@
               "name": "Unclassified",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"ta\")",
-                  "original_lang_name": "tamil",
-                  "original_lang_code": "tam",
-                  "scripts": [
-                    "Taml",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Knda": {
-                  "full_object": "SpaCyTokenizer(\"kn\")",
-                  "original_lang_name": "kannada",
-                  "original_lang_code": "kan",
-                  "scripts": [
-                    "Latn",
-                    "Knda"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Mlym": {
-                  "full_object": "SpaCyTokenizer(\"ml\")",
-                  "original_lang_name": "malayalam",
-                  "original_lang_code": "mal",
-                  "scripts": [
-                    "Latn",
-                    "Mlym"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Taml": {
-                  "full_object": "SpaCyTokenizer(\"ta\")",
-                  "original_lang_name": "tamil",
-                  "original_lang_code": "tam",
-                  "scripts": [
-                    "Taml",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Telu": {
-                  "full_object": "SpaCyTokenizer(\"te\")",
-                  "original_lang_name": "telugu",
-                  "original_lang_code": "tel",
-                  "scripts": [
-                    "Latn",
-                    "Telu"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Chetti, Wayanad",
@@ -2449,17 +1549,6 @@
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"ta\")",
-              "original_lang_name": "tamil",
-              "original_lang_code": "tam",
-              "scripts": [
-                "Taml",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
             "Knda": {
               "full_object": "SpaCyTokenizer(\"kn\")",
               "original_lang_name": "kannada",
@@ -2470,39 +1559,6 @@
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
-            },
-            "Mlym": {
-              "full_object": "SpaCyTokenizer(\"ml\")",
-              "original_lang_name": "malayalam",
-              "original_lang_code": "mal",
-              "scripts": [
-                "Latn",
-                "Mlym"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Taml": {
-              "full_object": "SpaCyTokenizer(\"ta\")",
-              "original_lang_name": "tamil",
-              "original_lang_code": "tam",
-              "scripts": [
-                "Taml",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Telu": {
-              "full_object": "SpaCyTokenizer(\"te\")",
-              "original_lang_name": "telugu",
-              "original_lang_code": "tel",
-              "scripts": [
-                "Latn",
-                "Telu"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
             }
           },
           "children": [
@@ -2554,63 +1610,7 @@
               "name": "Koraga",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"ta\")",
-                  "original_lang_name": "tamil",
-                  "original_lang_code": "tam",
-                  "scripts": [
-                    "Taml",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Knda": {
-                  "full_object": "SpaCyTokenizer(\"kn\")",
-                  "original_lang_name": "kannada",
-                  "original_lang_code": "kan",
-                  "scripts": [
-                    "Latn",
-                    "Knda"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Mlym": {
-                  "full_object": "SpaCyTokenizer(\"ml\")",
-                  "original_lang_name": "malayalam",
-                  "original_lang_code": "mal",
-                  "scripts": [
-                    "Latn",
-                    "Mlym"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Taml": {
-                  "full_object": "SpaCyTokenizer(\"ta\")",
-                  "original_lang_name": "tamil",
-                  "original_lang_code": "tam",
-                  "scripts": [
-                    "Taml",
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Telu": {
-                  "full_object": "SpaCyTokenizer(\"te\")",
-                  "original_lang_name": "telugu",
-                  "original_lang_code": "tel",
-                  "scripts": [
-                    "Latn",
-                    "Telu"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Koraga, Korra",
@@ -2646,63 +1646,7 @@
           "name": "Unclassified",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"ta\")",
-              "original_lang_name": "tamil",
-              "original_lang_code": "tam",
-              "scripts": [
-                "Taml",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Knda": {
-              "full_object": "SpaCyTokenizer(\"kn\")",
-              "original_lang_name": "kannada",
-              "original_lang_code": "kan",
-              "scripts": [
-                "Latn",
-                "Knda"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Mlym": {
-              "full_object": "SpaCyTokenizer(\"ml\")",
-              "original_lang_name": "malayalam",
-              "original_lang_code": "mal",
-              "scripts": [
-                "Latn",
-                "Mlym"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Taml": {
-              "full_object": "SpaCyTokenizer(\"ta\")",
-              "original_lang_name": "tamil",
-              "original_lang_code": "tam",
-              "scripts": [
-                "Taml",
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
-            "Telu": {
-              "full_object": "SpaCyTokenizer(\"te\")",
-              "original_lang_name": "telugu",
-              "original_lang_code": "tel",
-              "scripts": [
-                "Latn",
-                "Telu"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Mala Malasar",
@@ -2758,63 +1702,7 @@
       "name": "Unclassified",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"ta\")",
-          "original_lang_name": "tamil",
-          "original_lang_code": "tam",
-          "scripts": [
-            "Taml",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Telu": {
-          "full_object": "SpaCyTokenizer(\"te\")",
-          "original_lang_name": "telugu",
-          "original_lang_code": "tel",
-          "scripts": [
-            "Latn",
-            "Telu"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Knda": {
-          "full_object": "SpaCyTokenizer(\"kn\")",
-          "original_lang_name": "kannada",
-          "original_lang_code": "kan",
-          "scripts": [
-            "Latn",
-            "Knda"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Mlym": {
-          "full_object": "SpaCyTokenizer(\"ml\")",
-          "original_lang_name": "malayalam",
-          "original_lang_code": "mal",
-          "scripts": [
-            "Latn",
-            "Mlym"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Taml": {
-          "full_object": "SpaCyTokenizer(\"ta\")",
-          "original_lang_name": "tamil",
-          "original_lang_code": "tam",
-          "scripts": [
-            "Taml",
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        }
-      },
       "children": [
         {
           "name": "Allar",

   "iso_1_code": null,
   "iso_3_code": null,
   "tokenizers": {
+    "Telu": {
+      "full_object": "SpaCyTokenizer(\"te\")",
+      "original_lang_name": "telugu",
+      "original_lang_code": "tel",
       "scripts": [
+        "Telu",
         "Latn"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": false
     },
+    "Latn": {
+      "full_object": "SpaCyTokenizer(\"ta\")",
+      "original_lang_name": "tamil",
+      "original_lang_code": "tam",
       "scripts": [
         "Latn",
+        "Taml"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": false
       "original_lang_name": "tamil",
       "original_lang_code": "tam",
       "scripts": [
+        "Latn",
+        "Taml"
       ],
       "class_name": "SpaCyTokenizer",
       "macrolanguage": false
       "name": "Central",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Kolami-Naiki",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Kolami, Northwestern",
           "name": "Parji-Gadaba",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Gadaba, Mudhili",
       "name": "Northern",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Brahui",
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
+        "Telu": {
           "full_object": "SpaCyTokenizer(\"te\")",
           "original_lang_name": "telugu",
           "original_lang_code": "tel",
           "scripts": [
+            "Telu",
+            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
         },
+        "Latn": {
           "full_object": "SpaCyTokenizer(\"te\")",
           "original_lang_name": "telugu",
           "original_lang_code": "tel",
           "scripts": [
+            "Telu",
+            "Latn"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
+            "Telu": {
               "full_object": "SpaCyTokenizer(\"te\")",
               "original_lang_name": "telugu",
               "original_lang_code": "tel",
               "scripts": [
+                "Telu",
+                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
             },
+            "Latn": {
               "full_object": "SpaCyTokenizer(\"te\")",
               "original_lang_name": "telugu",
               "original_lang_code": "tel",
               "scripts": [
+                "Telu",
                 "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "iso_1_code": null,
               "iso_3_code": null,
               "tokenizers": {
+                "Telu": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
+                    "Telu",
+                    "Latn"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
                 },
+                "Latn": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
+                    "Telu",
                     "Latn"
                   ],
                   "class_name": "SpaCyTokenizer",
                       "original_lang_name": "telugu",
                       "original_lang_code": "tel",
                       "scripts": [
+                        "Telu",
+                        "Latn"
                       ],
                       "class_name": "SpaCyTokenizer",
                       "macrolanguage": false
               "iso_1_code": null,
               "iso_3_code": null,
               "tokenizers": {
+                "Telu": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
+                    "Telu",
+                    "Latn"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
                 },
+                "Latn": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
+                    "Telu",
                     "Latn"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "name": "Konda",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Konda-Dora",
                   "iso_1_code": null,
                   "iso_3_code": null,
                   "tokenizers": {
+                    "Telu": {
                       "full_object": "SpaCyTokenizer(\"te\")",
                       "original_lang_name": "telugu",
                       "original_lang_code": "tel",
                       "scripts": [
+                        "Telu",
+                        "Latn"
                       ],
                       "class_name": "SpaCyTokenizer",
                       "macrolanguage": false
                     },
+                    "Latn": {
                       "full_object": "SpaCyTokenizer(\"te\")",
                       "original_lang_name": "telugu",
                       "original_lang_code": "tel",
                       "scripts": [
+                        "Telu",
                         "Latn"
                       ],
                       "class_name": "SpaCyTokenizer",
                       "iso_1_code": null,
                       "iso_3_code": null,
                       "tokenizers": {
+                        "Telu": {
                           "full_object": "SpaCyTokenizer(\"te\")",
                           "original_lang_name": "telugu",
                           "original_lang_code": "tel",
                           "scripts": [
+                            "Telu",
+                            "Latn"
                           ],
                           "class_name": "SpaCyTokenizer",
                           "macrolanguage": false
                         },
+                        "Latn": {
                           "full_object": "SpaCyTokenizer(\"te\")",
                           "original_lang_name": "telugu",
                           "original_lang_code": "tel",
                           "scripts": [
+                            "Telu",
+                            "Latn"
                           ],
                           "class_name": "SpaCyTokenizer",
                           "macrolanguage": false
                               "original_lang_name": "telugu",
                               "original_lang_code": "tel",
                               "scripts": [
+                                "Telu",
+                                "Latn"
                               ],
                               "class_name": "SpaCyTokenizer",
                               "macrolanguage": false
                       "name": "Manda-Pengo",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Manda",
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
+            "Telu": {
               "full_object": "SpaCyTokenizer(\"te\")",
               "original_lang_name": "telugu",
               "original_lang_code": "tel",
               "scripts": [
+                "Telu",
+                "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
             },
+            "Latn": {
               "full_object": "SpaCyTokenizer(\"te\")",
               "original_lang_name": "telugu",
               "original_lang_code": "tel",
               "scripts": [
+                "Telu",
                 "Latn"
               ],
               "class_name": "SpaCyTokenizer",
               "iso_1_code": "te",
               "iso_3_code": "tel",
               "tokenizers": {
+                "Telu": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
+                    "Telu",
+                    "Latn"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
                 },
+                "Latn": {
                   "full_object": "SpaCyTokenizer(\"te\")",
                   "original_lang_name": "telugu",
                   "original_lang_code": "tel",
                   "scripts": [
+                    "Telu",
+                    "Latn"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
           "original_lang_name": "tamil",
           "original_lang_code": "tam",
           "scripts": [
+            "Latn",
+            "Taml"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
           "full_object": "SpaCyTokenizer(\"ta\")",
           "original_lang_name": "tamil",
           "original_lang_code": "tam",
           "scripts": [
             "Latn",
+            "Taml"
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
               "original_lang_name": "tamil",
               "original_lang_code": "tam",
               "scripts": [
+                "Latn",
+                "Taml"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
               "full_object": "SpaCyTokenizer(\"ta\")",
               "original_lang_name": "tamil",
               "original_lang_code": "tam",
               "scripts": [
                 "Latn",
+                "Taml"
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
                 }
               },
               "children": [
                   "original_lang_name": "tamil",
                   "original_lang_code": "tam",
                   "scripts": [
+                    "Latn",
+                    "Taml"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
                   "full_object": "SpaCyTokenizer(\"ta\")",
                   "original_lang_name": "tamil",
                   "original_lang_code": "tam",
                   "scripts": [
                     "Latn",
+                    "Taml"
                   ],
                   "class_name": "SpaCyTokenizer",
                   "macrolanguage": false
                   "name": "Kodagu",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
+                  "children": [
+                    {
+                      "name": "Kodava",
+                      "iso_1_code": null,
+                      "iso_3_code": "kfa",
+                      "tokenizers": {},
+                      "children": [],
+                      "node_i": "3664",
+                      "scripts": [],
+                      "own_tokenizer": false
                     },
+                    {
+                      "name": "Kurumba, Kannada",
+                      "iso_1_code": null,
+                      "iso_3_code": "kfi",
+                      "tokenizers": {},
+                      "children": [],
+                      "node_i": "3665",
+                      "scripts": [],
+                      "own_tokenizer": false
                     },
                     {
                       "name": "Kurumba, Mullu",
                       "original_lang_name": "tamil",
                       "original_lang_code": "tam",
                       "scripts": [
+                        "Latn",
+                        "Taml"
                       ],
                       "class_name": "SpaCyTokenizer",
                       "macrolanguage": false
                       "full_object": "SpaCyTokenizer(\"ta\")",
                       "original_lang_name": "tamil",
                       "original_lang_code": "tam",
                       "scripts": [
                         "Latn",
+                        "Taml"
                       ],
                       "class_name": "SpaCyTokenizer",
                       "macrolanguage": false
                           ],
                           "class_name": "SpaCyTokenizer",
                           "macrolanguage": false
                         }
                       },
                       "children": [
                       "iso_1_code": null,
                       "iso_3_code": null,
                       "tokenizers": {
+                        "Latn": {
                           "full_object": "SpaCyTokenizer(\"ta\")",
                           "original_lang_name": "tamil",
                           "original_lang_code": "tam",
                           "scripts": [
+                            "Latn",
+                            "Taml"
                           ],
                           "class_name": "SpaCyTokenizer",
                           "macrolanguage": false
                         },
+                        "Taml": {
                           "full_object": "SpaCyTokenizer(\"ta\")",
                           "original_lang_name": "tamil",
                           "original_lang_code": "tam",
                           "scripts": [
                             "Latn",
+                            "Taml"
                           ],
                           "class_name": "SpaCyTokenizer",
                           "macrolanguage": false
                           "iso_1_code": "ta",
                           "iso_3_code": "tam",
                           "tokenizers": {
+                            "Latn": {
                               "full_object": "SpaCyTokenizer(\"ta\")",
                               "original_lang_name": "tamil",
                               "original_lang_code": "tam",
                               "scripts": [
+                                "Latn",
+                                "Taml"
                               ],
                               "class_name": "SpaCyTokenizer",
                               "macrolanguage": false
                             },
+                            "Taml": {
                               "full_object": "SpaCyTokenizer(\"ta\")",
                               "original_lang_name": "tamil",
                               "original_lang_code": "tam",
                               "scripts": [
+                                "Latn",
+                                "Taml"
                               ],
                               "class_name": "SpaCyTokenizer",
                               "macrolanguage": false
                   "name": "Toda-Kota",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Kota",
               "name": "Unclassified",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Chetti, Wayanad",
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
             "Knda": {
               "full_object": "SpaCyTokenizer(\"kn\")",
               "original_lang_name": "kannada",
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
             }
           },
           "children": [
               "name": "Koraga",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Koraga, Korra",
           "name": "Unclassified",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Mala Malasar",
       "name": "Unclassified",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Allar",

data/Indo-European.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

data/Japonic.json CHANGED Viewed

@@ -42,52 +42,19 @@
       "name": "Ryukyuan",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Jpan": {
-          "full_object": "SpaCyTokenizer(\"ja\"),  ",
-          "original_lang_name": "japanese",
-          "original_lang_code": "jpn",
-          "scripts": [
-            "Jpan"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        }
-      },
       "children": [
         {
           "name": "Amami-Okinawan",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Jpan": {
-              "full_object": "SpaCyTokenizer(\"ja\"),  ",
-              "original_lang_name": "japanese",
-              "original_lang_code": "jpn",
-              "scripts": [
-                "Jpan"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Northern Amami-Okinawan",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Jpan": {
-                  "full_object": "SpaCyTokenizer(\"ja\"),  ",
-                  "original_lang_name": "japanese",
-                  "original_lang_code": "jpn",
-                  "scripts": [
-                    "Jpan"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Amami-Oshima, Southern",
@@ -138,18 +105,7 @@
               "name": "Southern Amami-Okinawan",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Jpan": {
-                  "full_object": "SpaCyTokenizer(\"ja\"),  ",
-                  "original_lang_name": "japanese",
-                  "original_lang_code": "jpn",
-                  "scripts": [
-                    "Jpan"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Oki-No-Erabu",
@@ -205,18 +161,7 @@
           "name": "Sakishima",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Jpan": {
-              "full_object": "SpaCyTokenizer(\"ja\"),  ",
-              "original_lang_name": "japanese",
-              "original_lang_code": "jpn",
-              "scripts": [
-                "Jpan"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Miyako",

       "name": "Ryukyuan",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Amami-Okinawan",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Northern Amami-Okinawan",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Amami-Oshima, Southern",
               "name": "Southern Amami-Okinawan",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Oki-No-Erabu",
           "name": "Sakishima",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Miyako",

data/Kra-Dai.json CHANGED Viewed

@@ -29,18 +29,7 @@
       "name": "Hlai",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Thai": {
-          "full_object": "ThaiTokenizer()",
-          "original_lang_name": "thai",
-          "original_lang_code": "tha",
-          "scripts": [
-            "Thai"
-          ],
-          "class_name": "ThaiTokenizer",
-          "macrolanguage": false
-        }
-      },
       "children": [
         {
           "name": "Jiamao",
@@ -88,18 +77,7 @@
           "name": "Kam-Sui",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Thai": {
-              "full_object": "ThaiTokenizer()",
-              "original_lang_name": "thai",
-              "original_lang_code": "tha",
-              "scripts": [
-                "Thai"
-              ],
-              "class_name": "ThaiTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Ai-Cham",
@@ -230,18 +208,7 @@
           "name": "Lakkja",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Thai": {
-              "full_object": "ThaiTokenizer()",
-              "original_lang_name": "thai",
-              "original_lang_code": "tha",
-              "scripts": [
-                "Thai"
-              ],
-              "class_name": "ThaiTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Lakkia",
@@ -329,18 +296,7 @@
               "name": "Central",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Thai": {
-                  "full_object": "ThaiTokenizer()",
-                  "original_lang_name": "thai",
-                  "original_lang_code": "tha",
-                  "scripts": [
-                    "Thai"
-                  ],
-                  "class_name": "ThaiTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Cao Lan",
@@ -451,18 +407,7 @@
               "name": "Northern",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Thai": {
-                  "full_object": "ThaiTokenizer()",
-                  "original_lang_name": "thai",
-                  "original_lang_code": "tha",
-                  "scripts": [
-                    "Thai"
-                  ],
-                  "class_name": "ThaiTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Bouyei",
@@ -979,35 +924,13 @@
       "name": "Kra",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Thai": {
-          "full_object": "ThaiTokenizer()",
-          "original_lang_name": "thai",
-          "original_lang_code": "tha",
-          "scripts": [
-            "Thai"
-          ],
-          "class_name": "ThaiTokenizer",
-          "macrolanguage": false
-        }
-      },
       "children": [
         {
           "name": "Central Kra",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Thai": {
-              "full_object": "ThaiTokenizer()",
-              "original_lang_name": "thai",
-              "original_lang_code": "tha",
-              "scripts": [
-                "Thai"
-              ],
-              "class_name": "ThaiTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Buyang, Baha",
@@ -1028,18 +951,7 @@
           "name": "Eastern Kra",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Thai": {
-              "full_object": "ThaiTokenizer()",
-              "original_lang_name": "thai",
-              "original_lang_code": "tha",
-              "scripts": [
-                "Thai"
-              ],
-              "class_name": "ThaiTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Cun",
@@ -1120,18 +1032,7 @@
           "name": "Western Kra",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Thai": {
-              "full_object": "ThaiTokenizer()",
-              "original_lang_name": "thai",
-              "original_lang_code": "tha",
-              "scripts": [
-                "Thai"
-              ],
-              "class_name": "ThaiTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "A\u2019ou",

       "name": "Hlai",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Jiamao",
           "name": "Kam-Sui",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Ai-Cham",
           "name": "Lakkja",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Lakkia",
               "name": "Central",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Cao Lan",
               "name": "Northern",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Bouyei",
       "name": "Kra",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Central Kra",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Buyang, Baha",
           "name": "Eastern Kra",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Cun",
           "name": "Western Kra",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "A\u2019ou",

data/Mongolic.json CHANGED Viewed

@@ -36,18 +36,7 @@
           "name": "Dagur",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Cyrl": {
-              "full_object": "StanzaTokenizer(\"bxr\")",
-              "original_lang_name": "russia_buriat",
-              "original_lang_code": "bxr",
-              "scripts": [
-                "Cyrl"
-              ],
-              "class_name": "StanzaTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Daur",
@@ -68,18 +57,7 @@
           "name": "Mongour",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Cyrl": {
-              "full_object": "StanzaTokenizer(\"bxr\")",
-              "original_lang_name": "russia_buriat",
-              "original_lang_code": "bxr",
-              "scripts": [
-                "Cyrl"
-              ],
-              "class_name": "StanzaTokenizer",
-              "macrolanguage": false
-            }
-          },
           "children": [
             {
               "name": "Kangjia",
@@ -364,18 +342,7 @@
       "name": "Western",
       "iso_1_code": null,
       "iso_3_code": null,
-      "tokenizers": {
-        "Cyrl": {
-          "full_object": "StanzaTokenizer(\"bxr\")",
-          "original_lang_name": "russia_buriat",
-          "original_lang_code": "bxr",
-          "scripts": [
-            "Cyrl"
-          ],
-          "class_name": "StanzaTokenizer",
-          "macrolanguage": false
-        }
-      },
       "children": [
         {
           "name": "Mogholi",

           "name": "Dagur",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Daur",
           "name": "Mongour",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Kangjia",
       "name": "Western",
       "iso_1_code": null,
       "iso_3_code": null,
+      "tokenizers": {},
       "children": [
         {
           "name": "Mogholi",

data/Niger-Congo.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

data/Sino-Tibetan.json CHANGED Viewed

@@ -1029,30 +1029,7 @@
               "name": "Digarish",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Idu-Mishmi",
@@ -1083,30 +1060,7 @@
               "name": "Hrusish",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Hruso",
@@ -1137,30 +1091,7 @@
               "name": "Keman",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Zakhring",
@@ -1181,30 +1112,7 @@
               "name": "Kho-Bwa",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Bugun",
@@ -1275,30 +1183,7 @@
               "name": "Lepcha",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Lepcha",
@@ -1319,30 +1204,7 @@
               "name": "Mijish",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Miju-Mishmi",
@@ -1851,30 +1713,7 @@
               "name": "Northern",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Lahta",
@@ -1935,30 +1774,7 @@
               "name": "Peripheral",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Pa\u2019o",
@@ -2023,30 +1839,7 @@
               "name": "Southern",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Karen, Mobwa",
@@ -2564,30 +2357,7 @@
                   "name": "Mara",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Chin, Lautu",
@@ -3406,30 +3176,7 @@
                           "name": "Asho",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            },
-                            "Hani": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            }
-                          },
                           "children": [
                             {
                               "name": "Chin, L\u00e4okt\u00fc",
@@ -3810,30 +3557,7 @@
                   "name": "Southern",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Danu",
@@ -3921,30 +3645,7 @@
               "name": "Mru",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Chin, Anu-Khongso",
@@ -4318,30 +4019,7 @@
                   "name": "Northern",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Nuosu",
@@ -4492,30 +4170,7 @@
                   "name": "Southeastern",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Alugu",
@@ -5113,30 +4768,7 @@
                       "name": "Bisoid",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Bisu",
@@ -5194,30 +4826,7 @@
                   "name": "Unclassified",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Laopang",
@@ -5258,59 +4867,13 @@
           "name": "Northeastern Tibeto-Burman",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-              "original_lang_name": "chinese",
-              "original_lang_code": "zho",
-              "scripts": [
-                "Latn",
-                "Hani"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": true
-            },
-            "Hani": {
-              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-              "original_lang_name": "chinese",
-              "original_lang_code": "zho",
-              "scripts": [
-                "Latn",
-                "Hani"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": true
-            }
-          },
           "children": [
             {
               "name": "Bai",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Bai, Central",
@@ -5361,30 +4924,7 @@
               "name": "Baima",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Baima",
@@ -5405,30 +4945,7 @@
               "name": "Ersuish",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Ersu",
@@ -5449,30 +4966,7 @@
               "name": "Naic",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Namuyi",
@@ -5523,30 +5017,7 @@
               "name": "Qiangic",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Qiang, Northern",
@@ -5647,30 +5118,7 @@
               "name": "rGyalrongic",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Horpa",
@@ -5721,30 +5169,7 @@
               "name": "Tujia",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Tujia, Northern",
@@ -6143,30 +5568,7 @@
                   "name": "Koch",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Atong",
@@ -6484,30 +5886,7 @@
               "name": "Dhimalish",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Dhimal",
@@ -6567,30 +5946,7 @@
                   "name": "Asakian",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Chak",
@@ -7191,59 +6547,13 @@
           "name": "Western Tibeto-Burman",
           "iso_1_code": null,
           "iso_3_code": null,
-          "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-              "original_lang_name": "chinese",
-              "original_lang_code": "zho",
-              "scripts": [
-                "Latn",
-                "Hani"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": true
-            },
-            "Hani": {
-              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-              "original_lang_name": "chinese",
-              "original_lang_code": "zho",
-              "scripts": [
-                "Latn",
-                "Hani"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": true
-            }
-          },
           "children": [
             {
               "name": "Bodish",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
               "children": [
                 {
                   "name": "Gongduk",
@@ -7299,30 +6609,7 @@
                   "name": "Central Bodish",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Choni",
@@ -7348,30 +6635,7 @@
                       "name": "Amdo",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Tibetan, Amdo",
@@ -7392,30 +6656,7 @@
                       "name": "Central",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Tibetan, Central",
@@ -7433,30 +6674,7 @@
                           "name": "gTsang",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            },
-                            "Hani": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            }
-                          },
                           "children": [
                             {
                               "name": "Dolpo",
@@ -7609,30 +6827,7 @@
                           "name": "Southern",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            },
-                            "Hani": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            }
-                          },
                           "children": [
                             {
                               "name": "Brokkat",
@@ -7735,30 +6930,7 @@
                           "name": "Western",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            },
-                            "Hani": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            }
-                          },
                           "children": [
                             {
                               "name": "Jad",
@@ -7804,30 +6976,7 @@
                       "name": "Khams",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Tibetan, Khams",
@@ -7848,30 +6997,7 @@
                       "name": "Unclassified",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Naaba",
@@ -7902,30 +7028,7 @@
                       "name": "Western",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Balti",
@@ -7993,30 +7096,7 @@
                   "name": "East Bodish",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Dakpakha",
@@ -8042,40 +7122,17 @@
                       "name": "Bumthang",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
-                      "children": [
-                        {
-                          "name": "Dzalakha",
-                          "iso_1_code": null,
-                          "iso_3_code": "dzl",
-                          "tokenizers": {},
-                          "children": [],
-                          "node_i": "9374",
-                          "scripts": [],
-                          "own_tokenizer": false
                         },
                         {
                           "name": "Bumthangkha",
@@ -8151,30 +7208,7 @@
                   "name": "West Bodish",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Dura",
@@ -8200,30 +7234,7 @@
                       "name": "Ghale",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Ghale, Southern",
@@ -8266,59 +7277,13 @@
                       "name": "Gurung-Tamang",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Gurungic",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            },
-                            "Hani": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            }
-                          },
                           "children": [
                             {
                               "name": "Chantyal",
@@ -8389,30 +7354,7 @@
                           "name": "Tamang",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            },
-                            "Hani": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            }
-                          },
                           "children": [
                             {
                               "name": "Tamang, Eastern",
@@ -8465,59 +7407,13 @@
                   "name": "West Himalayish",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Almora",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Byangsi",
@@ -8568,30 +7464,7 @@
                       "name": "Kinauri",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Gahri",
@@ -8732,88 +7605,19 @@
               "name": "Himalayan",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                },
-                "Hani": {
-                  "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                  "original_lang_name": "chinese",
-                  "original_lang_code": "zho",
-                  "scripts": [
-                    "Latn",
-                    "Hani"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": true
-                }
-              },
-              "children": [
-                {
-                  "name": "Central Himalayan",
-                  "iso_1_code": null,
-                  "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Chepang-Bhujel",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Bhujel",
@@ -8844,59 +7648,13 @@
                       "name": "Kham-Magar",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Kham",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            },
-                            "Hani": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            }
-                          },
                           "children": [
                             {
                               "name": "Kham, Gamal",
@@ -8947,30 +7705,7 @@
                           "name": "Magar",
                           "iso_1_code": null,
                           "iso_3_code": null,
-                          "tokenizers": {
-                            "Latn": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            },
-                            "Hani": {
-                              "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                              "original_lang_name": "chinese",
-                              "original_lang_code": "zho",
-                              "scripts": [
-                                "Latn",
-                                "Hani"
-                              ],
-                              "class_name": "SpaCyTokenizer",
-                              "macrolanguage": true
-                            }
-                          },
                           "children": [
                             {
                               "name": "Magar, Eastern",
@@ -9006,30 +7741,7 @@
                       "name": "Newar",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Newar",
@@ -9062,30 +7774,7 @@
                       "name": "Raute-Raji",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Rawat",
@@ -9126,30 +7815,7 @@
                       "name": "Thangmi-Baraamu",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Baram",
@@ -9185,59 +7851,13 @@
                   "name": "Kiranti",
                   "iso_1_code": null,
                   "iso_3_code": null,
-                  "tokenizers": {
-                    "Latn": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    },
-                    "Hani": {
-                      "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                      "original_lang_name": "chinese",
-                      "original_lang_code": "zho",
-                      "scripts": [
-                        "Latn",
-                        "Hani"
-                      ],
-                      "class_name": "SpaCyTokenizer",
-                      "macrolanguage": true
-                    }
-                  },
                   "children": [
                     {
                       "name": "Eastern",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Athpariya",
@@ -9485,30 +8105,7 @@
                       "name": "Western",
                       "iso_1_code": null,
                       "iso_3_code": null,
-                      "tokenizers": {
-                        "Latn": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        },
-                        "Hani": {
-                          "full_object": "SpaCyTokenizer(\"zh\", {\"nlp\": {\"tokenizer\": {\"segmenter\": \"jieba\"}}})",
-                          "original_lang_name": "chinese",
-                          "original_lang_code": "zho",
-                          "scripts": [
-                            "Latn",
-                            "Hani"
-                          ],
-                          "class_name": "SpaCyTokenizer",
-                          "macrolanguage": true
-                        }
-                      },
                       "children": [
                         {
                           "name": "Bahing",

               "name": "Digarish",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Idu-Mishmi",
               "name": "Hrusish",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Hruso",
               "name": "Keman",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Zakhring",
               "name": "Kho-Bwa",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Bugun",
               "name": "Lepcha",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Lepcha",
               "name": "Mijish",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Miju-Mishmi",
               "name": "Northern",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Lahta",
               "name": "Peripheral",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Pa\u2019o",
               "name": "Southern",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Karen, Mobwa",
                   "name": "Mara",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Chin, Lautu",
                           "name": "Asho",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Chin, L\u00e4okt\u00fc",
                   "name": "Southern",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Danu",
               "name": "Mru",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Chin, Anu-Khongso",
                   "name": "Northern",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Nuosu",
                   "name": "Southeastern",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Alugu",
                       "name": "Bisoid",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Bisu",
                   "name": "Unclassified",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Laopang",
           "name": "Northeastern Tibeto-Burman",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Bai",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Bai, Central",
               "name": "Baima",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Baima",
               "name": "Ersuish",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Ersu",
               "name": "Naic",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Namuyi",
               "name": "Qiangic",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Qiang, Northern",
               "name": "rGyalrongic",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Horpa",
               "name": "Tujia",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Tujia, Northern",
                   "name": "Koch",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Atong",
               "name": "Dhimalish",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Dhimal",
                   "name": "Asakian",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Chak",
           "name": "Western Tibeto-Burman",
           "iso_1_code": null,
           "iso_3_code": null,
+          "tokenizers": {},
           "children": [
             {
               "name": "Bodish",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Gongduk",
                   "name": "Central Bodish",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Choni",
                       "name": "Amdo",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Tibetan, Amdo",
                       "name": "Central",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Tibetan, Central",
                           "name": "gTsang",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Dolpo",
                           "name": "Southern",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Brokkat",
                           "name": "Western",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Jad",
                       "name": "Khams",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Tibetan, Khams",
                       "name": "Unclassified",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Naaba",
                       "name": "Western",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Balti",
                   "name": "East Bodish",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Dakpakha",
                       "name": "Bumthang",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
+                      "children": [
+                        {
+                          "name": "Dzalakha",
+                          "iso_1_code": null,
+                          "iso_3_code": "dzl",
+                          "tokenizers": {},
+                          "children": [],
+                          "node_i": "9374",
+                          "scripts": [],
+                          "own_tokenizer": false
                         },
                         {
                           "name": "Bumthangkha",
                   "name": "West Bodish",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Dura",
                       "name": "Ghale",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Ghale, Southern",
                       "name": "Gurung-Tamang",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Gurungic",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Chantyal",
                           "name": "Tamang",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Tamang, Eastern",
                   "name": "West Himalayish",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Almora",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Byangsi",
                       "name": "Kinauri",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Gahri",
               "name": "Himalayan",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
+              "children": [
+                {
+                  "name": "Central Himalayan",
+                  "iso_1_code": null,
+                  "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Chepang-Bhujel",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Bhujel",
                       "name": "Kham-Magar",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Kham",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Kham, Gamal",
                           "name": "Magar",
                           "iso_1_code": null,
                           "iso_3_code": null,
+                          "tokenizers": {},
                           "children": [
                             {
                               "name": "Magar, Eastern",
                       "name": "Newar",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Newar",
                       "name": "Raute-Raji",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Rawat",
                       "name": "Thangmi-Baraamu",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Baram",
                   "name": "Kiranti",
                   "iso_1_code": null,
                   "iso_3_code": null,
+                  "tokenizers": {},
                   "children": [
                     {
                       "name": "Eastern",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Athpariya",
                       "name": "Western",
                       "iso_1_code": null,
                       "iso_3_code": null,
+                      "tokenizers": {},
                       "children": [
                         {
                           "name": "Bahing",

data/Turkic.json CHANGED Viewed

@@ -13,7 +13,7 @@
       "class_name": "SpaCyTokenizer",
       "macrolanguage": false
     },
-    "Arab": {
       "full_object": "SpaCyTokenizer(\"az\")",
       "original_lang_name": "azerbaijani",
       "original_lang_code": "aze",
@@ -25,7 +25,7 @@
       "class_name": "SpaCyTokenizer",
       "macrolanguage": true
     },
-    "Cyrl": {
       "full_object": "SpaCyTokenizer(\"az\")",
       "original_lang_name": "azerbaijani",
       "original_lang_code": "aze",
@@ -54,17 +54,7 @@
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"tr\")",
-          "original_lang_name": "turkish",
-          "original_lang_code": "tur",
-          "scripts": [
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Arab": {
           "full_object": "SpaCyTokenizer(\"az\")",
           "original_lang_name": "azerbaijani",
           "original_lang_code": "aze",
@@ -76,7 +66,7 @@
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
         },
-        "Cyrl": {
           "full_object": "SpaCyTokenizer(\"az\")",
           "original_lang_name": "azerbaijani",
           "original_lang_code": "aze",
@@ -131,32 +121,32 @@
           "original_lang_code": "uig",
           "scripts": [
             "Latn",
-            "Arab",
-            "Cyrl"
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
         },
-        "Arab": {
           "full_object": "StanzaTokenizer(\"ug\")",
           "original_lang_name": "uyghur",
           "original_lang_code": "uig",
           "scripts": [
             "Latn",
-            "Arab",
-            "Cyrl"
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
         },
-        "Cyrl": {
           "full_object": "StanzaTokenizer(\"ug\")",
           "original_lang_name": "uyghur",
           "original_lang_code": "uig",
           "scripts": [
             "Latn",
-            "Arab",
-            "Cyrl"
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
@@ -204,32 +194,32 @@
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
-                "Arab",
-                "Cyrl"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
             },
-            "Arab": {
               "full_object": "StanzaTokenizer(\"ug\")",
               "original_lang_name": "uyghur",
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
-                "Arab",
-                "Cyrl"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
             },
-            "Cyrl": {
               "full_object": "StanzaTokenizer(\"ug\")",
               "original_lang_name": "uyghur",
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
-                "Arab",
-                "Cyrl"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
@@ -255,8 +245,8 @@
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
-                "Arab",
-                "Cyrl"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
@@ -267,8 +257,8 @@
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
-                "Arab",
-                "Cyrl"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
@@ -293,8 +283,8 @@
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
-                "Arab",
-                "Cyrl"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
@@ -327,17 +317,7 @@
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"tr\")",
-          "original_lang_name": "turkish",
-          "original_lang_code": "tur",
-          "scripts": [
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
-        "Arab": {
           "full_object": "SpaCyTokenizer(\"az\")",
           "original_lang_name": "azerbaijani",
           "original_lang_code": "aze",
@@ -349,7 +329,7 @@
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
         },
-        "Cyrl": {
           "full_object": "SpaCyTokenizer(\"az\")",
           "original_lang_name": "azerbaijani",
           "original_lang_code": "aze",
@@ -1027,18 +1007,6 @@
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
-        },
-        "Arab": {
-          "full_object": "SpaCyTokenizer(\"az\")",
-          "original_lang_name": "azerbaijani",
-          "original_lang_code": "aze",
-          "scripts": [
-            "Arab",
-            "Latn",
-            "Cyrl"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": true
         }
       },
       "children": [
@@ -1067,18 +1035,6 @@
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
-            },
-            "Arab": {
-              "full_object": "SpaCyTokenizer(\"az\")",
-              "original_lang_name": "azerbaijani",
-              "original_lang_code": "aze",
-              "scripts": [
-                "Arab",
-                "Latn",
-                "Cyrl"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": true
             }
           },
           "children": [
@@ -1226,18 +1182,6 @@
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
-            },
-            "Arab": {
-              "full_object": "SpaCyTokenizer(\"az\")",
-              "original_lang_name": "azerbaijani",
-              "original_lang_code": "aze",
-              "scripts": [
-                "Arab",
-                "Latn",
-                "Cyrl"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": true
             }
           },
           "children": [
@@ -1352,18 +1296,6 @@
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
-            },
-            "Arab": {
-              "full_object": "SpaCyTokenizer(\"az\")",
-              "original_lang_name": "azerbaijani",
-              "original_lang_code": "aze",
-              "scripts": [
-                "Arab",
-                "Latn",
-                "Cyrl"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": true
             }
           },
           "children": [

       "class_name": "SpaCyTokenizer",
       "macrolanguage": false
     },
+    "Cyrl": {
       "full_object": "SpaCyTokenizer(\"az\")",
       "original_lang_name": "azerbaijani",
       "original_lang_code": "aze",
       "class_name": "SpaCyTokenizer",
       "macrolanguage": true
     },
+    "Arab": {
       "full_object": "SpaCyTokenizer(\"az\")",
       "original_lang_name": "azerbaijani",
       "original_lang_code": "aze",
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
+        "Cyrl": {
           "full_object": "SpaCyTokenizer(\"az\")",
           "original_lang_name": "azerbaijani",
           "original_lang_code": "aze",
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
         },
+        "Arab": {
           "full_object": "SpaCyTokenizer(\"az\")",
           "original_lang_name": "azerbaijani",
           "original_lang_code": "aze",
           "original_lang_code": "uig",
           "scripts": [
             "Latn",
+            "Cyrl",
+            "Arab"
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
         },
+        "Cyrl": {
           "full_object": "StanzaTokenizer(\"ug\")",
           "original_lang_name": "uyghur",
           "original_lang_code": "uig",
           "scripts": [
             "Latn",
+            "Cyrl",
+            "Arab"
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
         },
+        "Arab": {
           "full_object": "StanzaTokenizer(\"ug\")",
           "original_lang_name": "uyghur",
           "original_lang_code": "uig",
           "scripts": [
             "Latn",
+            "Cyrl",
+            "Arab"
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
+                "Cyrl",
+                "Arab"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
             },
+            "Cyrl": {
               "full_object": "StanzaTokenizer(\"ug\")",
               "original_lang_name": "uyghur",
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
+                "Cyrl",
+                "Arab"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
             },
+            "Arab": {
               "full_object": "StanzaTokenizer(\"ug\")",
               "original_lang_name": "uyghur",
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
+                "Cyrl",
+                "Arab"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
+                "Cyrl",
+                "Arab"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
+                "Cyrl",
+                "Arab"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
               "original_lang_code": "uig",
               "scripts": [
                 "Latn",
+                "Cyrl",
+                "Arab"
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
+        "Cyrl": {
           "full_object": "SpaCyTokenizer(\"az\")",
           "original_lang_name": "azerbaijani",
           "original_lang_code": "aze",
           "class_name": "SpaCyTokenizer",
           "macrolanguage": true
         },
+        "Arab": {
           "full_object": "SpaCyTokenizer(\"az\")",
           "original_lang_name": "azerbaijani",
           "original_lang_code": "aze",
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
         }
       },
       "children": [
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
             }
           },
           "children": [
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
             }
           },
           "children": [
               ],
               "class_name": "SpaCyTokenizer",
               "macrolanguage": false
             }
           },
           "children": [

data/Uralic.json CHANGED Viewed

@@ -108,16 +108,6 @@
           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
-        },
-        "Cyrl": {
-          "full_object": "StanzaTokenizer(\"myv\")",
-          "original_lang_name": "erzya",
-          "original_lang_code": "myv",
-          "scripts": [
-            "Cyrl"
-          ],
-          "class_name": "StanzaTokenizer",
-          "macrolanguage": false
         }
       },
       "children": [
@@ -404,16 +394,6 @@
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"hu\")",
-          "original_lang_name": "hungarian",
-          "original_lang_code": "hun",
-          "scripts": [
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
         "Cyrl": {
           "full_object": "StanzaTokenizer(\"myv\")",
           "original_lang_name": "erzya",
@@ -491,16 +471,6 @@
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
-        },
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"hu\")",
-          "original_lang_name": "hungarian",
-          "original_lang_code": "hun",
-          "scripts": [
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
         }
       },
       "children": [
@@ -560,16 +530,6 @@
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"hu\")",
-          "original_lang_name": "hungarian",
-          "original_lang_code": "hun",
-          "scripts": [
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
         "Cyrl": {
           "full_object": "StanzaTokenizer(\"myv\")",
           "original_lang_name": "erzya",
@@ -610,16 +570,6 @@
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"hu\")",
-              "original_lang_name": "hungarian",
-              "original_lang_code": "hun",
-              "scripts": [
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
             "Cyrl": {
               "full_object": "StanzaTokenizer(\"myv\")",
               "original_lang_name": "erzya",
@@ -702,16 +652,6 @@
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
-        },
-        "Cyrl": {
-          "full_object": "StanzaTokenizer(\"myv\")",
-          "original_lang_name": "erzya",
-          "original_lang_code": "myv",
-          "scripts": [
-            "Cyrl"
-          ],
-          "class_name": "StanzaTokenizer",
-          "macrolanguage": false
         }
       },
       "children": [
@@ -729,16 +669,6 @@
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
-            },
-            "Cyrl": {
-              "full_object": "StanzaTokenizer(\"myv\")",
-              "original_lang_name": "erzya",
-              "original_lang_code": "myv",
-              "scripts": [
-                "Cyrl"
-              ],
-              "class_name": "StanzaTokenizer",
-              "macrolanguage": false
             }
           },
           "children": [
@@ -847,16 +777,6 @@
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
-            },
-            "Cyrl": {
-              "full_object": "StanzaTokenizer(\"myv\")",
-              "original_lang_name": "erzya",
-              "original_lang_code": "myv",
-              "scripts": [
-                "Cyrl"
-              ],
-              "class_name": "StanzaTokenizer",
-              "macrolanguage": false
             }
           },
           "children": [
@@ -902,16 +822,6 @@
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
-            },
-            "Cyrl": {
-              "full_object": "StanzaTokenizer(\"myv\")",
-              "original_lang_name": "erzya",
-              "original_lang_code": "myv",
-              "scripts": [
-                "Cyrl"
-              ],
-              "class_name": "StanzaTokenizer",
-              "macrolanguage": false
             }
           },
           "children": [
@@ -929,16 +839,6 @@
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
-                },
-                "Cyrl": {
-                  "full_object": "StanzaTokenizer(\"myv\")",
-                  "original_lang_name": "erzya",
-                  "original_lang_code": "myv",
-                  "scripts": [
-                    "Cyrl"
-                  ],
-                  "class_name": "StanzaTokenizer",
-                  "macrolanguage": false
                 }
               },
               "children": [
@@ -1017,16 +917,6 @@
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
-                },
-                "Cyrl": {
-                  "full_object": "StanzaTokenizer(\"myv\")",
-                  "original_lang_name": "erzya",
-                  "original_lang_code": "myv",
-                  "scripts": [
-                    "Cyrl"
-                  ],
-                  "class_name": "StanzaTokenizer",
-                  "macrolanguage": false
                 }
               },
               "children": [
@@ -1073,16 +963,6 @@
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
-        "Latn": {
-          "full_object": "SpaCyTokenizer(\"hu\")",
-          "original_lang_name": "hungarian",
-          "original_lang_code": "hun",
-          "scripts": [
-            "Latn"
-          ],
-          "class_name": "SpaCyTokenizer",
-          "macrolanguage": false
-        },
         "Cyrl": {
           "full_object": "StanzaTokenizer(\"myv\")",
           "original_lang_name": "erzya",
@@ -1110,16 +990,6 @@
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"hu\")",
-              "original_lang_name": "hungarian",
-              "original_lang_code": "hun",
-              "scripts": [
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
             "Cyrl": {
               "full_object": "StanzaTokenizer(\"myv\")",
               "original_lang_name": "erzya",
@@ -1182,28 +1052,7 @@
               "name": "Enets",
               "iso_1_code": null,
               "iso_3_code": null,
-              "tokenizers": {
-                "Latn": {
-                  "full_object": "SpaCyTokenizer(\"hu\")",
-                  "original_lang_name": "hungarian",
-                  "original_lang_code": "hun",
-                  "scripts": [
-                    "Latn"
-                  ],
-                  "class_name": "SpaCyTokenizer",
-                  "macrolanguage": false
-                },
-                "Cyrl": {
-                  "full_object": "StanzaTokenizer(\"myv\")",
-                  "original_lang_name": "erzya",
-                  "original_lang_code": "myv",
-                  "scripts": [
-                    "Cyrl"
-                  ],
-                  "class_name": "StanzaTokenizer",
-                  "macrolanguage": false
-                }
-              },
               "children": [
                 {
                   "name": "Enets, Forest",
@@ -1250,16 +1099,6 @@
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
-            "Latn": {
-              "full_object": "SpaCyTokenizer(\"hu\")",
-              "original_lang_name": "hungarian",
-              "original_lang_code": "hun",
-              "scripts": [
-                "Latn"
-              ],
-              "class_name": "SpaCyTokenizer",
-              "macrolanguage": false
-            },
             "Cyrl": {
               "full_object": "StanzaTokenizer(\"myv\")",
               "original_lang_name": "erzya",

           ],
           "class_name": "SpaCyTokenizer",
           "macrolanguage": false
         }
       },
       "children": [
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
         "Cyrl": {
           "full_object": "StanzaTokenizer(\"myv\")",
           "original_lang_name": "erzya",
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
         }
       },
       "children": [
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
         "Cyrl": {
           "full_object": "StanzaTokenizer(\"myv\")",
           "original_lang_name": "erzya",
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
             "Cyrl": {
               "full_object": "StanzaTokenizer(\"myv\")",
               "original_lang_name": "erzya",
           ],
           "class_name": "StanzaTokenizer",
           "macrolanguage": false
         }
       },
       "children": [
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
             }
           },
           "children": [
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
             }
           },
           "children": [
               ],
               "class_name": "StanzaTokenizer",
               "macrolanguage": false
             }
           },
           "children": [
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
                 }
               },
               "children": [
                   ],
                   "class_name": "StanzaTokenizer",
                   "macrolanguage": false
                 }
               },
               "children": [
       "iso_1_code": null,
       "iso_3_code": null,
       "tokenizers": {
         "Cyrl": {
           "full_object": "StanzaTokenizer(\"myv\")",
           "original_lang_name": "erzya",
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
             "Cyrl": {
               "full_object": "StanzaTokenizer(\"myv\")",
               "original_lang_name": "erzya",
               "name": "Enets",
               "iso_1_code": null,
               "iso_3_code": null,
+              "tokenizers": {},
               "children": [
                 {
                   "name": "Enets, Forest",
           "iso_1_code": null,
           "iso_3_code": null,
           "tokenizers": {
             "Cyrl": {
               "full_object": "StanzaTokenizer(\"myv\")",
               "original_lang_name": "erzya",