Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

.gitattributes +4 -34
README.md +58 -0
infer.py +79 -0
metadata.json +113 -0
parakeet_decoder.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
parakeet_decoder.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
parakeet_decoder.mlpackage/Manifest.json +18 -0
parakeet_joint_decision_single_step.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
parakeet_joint_decision_single_step.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
parakeet_joint_decision_single_step.mlpackage/Manifest.json +18 -0
parakeet_mel_encoder.mlpackage/Data/com.apple.CoreML/model.mlmodel +3 -0
parakeet_mel_encoder.mlpackage/Data/com.apple.CoreML/weights/weight.bin +3 -0
parakeet_mel_encoder.mlpackage/Manifest.json +18 -0
vocab.json +1028 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,5 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.mlpackage filter=lfs diff=lfs merge=lfs -text
+*.mlpackage/** filter=lfs diff=lfs merge=lfs -text
+weights/** filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
+*.nemo filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+license: cc-by-4.0
+language:
+  - en
+tags:
+  - asr
+  - speech
+  - coreml
+  - nemo
+  - parakeet
+  - nvidia
+library_name: coremltools
+pipeline_tag: automatic-speech-recognition
+base_model: nvidia/parakeet_realtime_eou_120m-v1
+---
+# parakeet-rnnt-120m-eou-coreml
+CoreML conversion of [nvidia/parakeet_realtime_eou_120m-v1](https://huggingface.co/nvidia/parakeet_realtime_eou_120m-v1).
+| | |
+|---|---|
+| **Architecture** | RNNT |
+| **Language** | English |
+| **Sample rate** | 16000 Hz |
+| **Max audio** | 15.0s |
+| **Vocab size** | 1026 |
+| **Framework** | NVIDIA NeMo → CoreML (coremltools) |
+## Components
+| File | Component | Best compute |
+|------|-----------|--------------|
+| `parakeet_mel_encoder.mlpackage` | mel_encoder | ANE / GPU |
+| `parakeet_decoder.mlpackage` | decoder | CPU only |
+| `parakeet_joint_decision_single_step.mlpackage` | joint_decision_single_step | ANE / GPU |
+## Usage
+```bash
+pip install ovos-stt-plugin-coreml
+```
+```python
+from ovos_stt_plugin_coreml import CoremlSTT
+from ovos_plugin_manager.utils.audio import AudioFile
+stt = CoremlSTT(config={"metadata": "metadata.json"})
+with AudioFile("speech.wav") as f:
+    audio = f.read()
+print(stt.execute(audio))
+```
+## Source model
+[nvidia/parakeet_realtime_eou_120m-v1](https://huggingface.co/nvidia/parakeet_realtime_eou_120m-v1)

infer.py ADDED Viewed

	@@ -0,0 +1,79 @@

+#!/usr/bin/env python3
+"""Greedy TDT/RNNT inference with CoreML parakeet-rnnt-120m-eou.
+Usage:  python infer.py audio.wav
+"""
+import json, sys
+from pathlib import Path
+import coremltools as ct
+import numpy as np
+import soundfile as sf
+REPO_DIR = Path(__file__).parent
+SAMPLE_RATE = 16_000
+def load_audio(path, max_samples):
+    data, sr = sf.read(path, dtype="float32", always_2d=False)
+    if sr != SAMPLE_RATE: raise ValueError(f"Expected {SAMPLE_RATE} Hz.")
+    if data.ndim > 1: data = data[:, 0]
+    actual = min(len(data), max_samples)
+    data = np.pad(data, (0, max(0, max_samples - len(data))))[:max_samples]
+    return data.reshape(1, -1).astype(np.float32), actual
+def transcribe(audio_path, compute_units="ALL"):
+    meta  = json.loads((REPO_DIR / "metadata.json").read_text())
+    vocab = json.loads((REPO_DIR / "vocab.json").read_text())
+    blank = meta["blank_id"]
+    n     = meta["max_audio_samples"]
+    bins  = meta.get("duration_bins", [1])
+    comps = meta["components"]["decoder"]["inputs"]
+    d_layers = comps["h_in"][0]
+    d_hidden = comps["h_in"][2]
+    cu_map = {"ALL": ct.ComputeUnit.ALL, "CPU_ONLY": ct.ComputeUnit.CPU_ONLY,
+               "CPU_AND_NE": ct.ComputeUnit.CPU_AND_NE}
+    cu = cu_map.get(compute_units.upper(), ct.ComputeUnit.ALL)
+    mel_enc  = ct.models.MLModel(str(REPO_DIR / "parakeet_mel_encoder.mlpackage"), compute_units=cu)
+    dec_model = ct.models.MLModel(str(REPO_DIR / "parakeet_decoder.mlpackage"),
+                                  compute_units=ct.ComputeUnit.CPU_ONLY)
+    jd_model  = ct.models.MLModel(str(REPO_DIR / "parakeet_joint_decision_single_step.mlpackage"),
+                                  compute_units=cu)
+    audio, actual = load_audio(audio_path, n)
+    length = np.array([actual], dtype=np.int32)
+    enc_out  = mel_enc.predict({"audio_signal": audio, "audio_length": length})
+    encoder  = enc_out["encoder"]
+    enc_len  = int(enc_out["encoder_length"][0])
+    h = np.zeros((d_layers, 1, d_hidden), dtype=np.float32)
+    c = np.zeros((d_layers, 1, d_hidden), dtype=np.float32)
+    prev  = np.array([[blank]], dtype=np.int32)
+    tlen  = np.array([1], dtype=np.int32)
+    dec_out = dec_model.predict({"targets": prev, "target_length": tlen, "h_in": h, "c_in": c})
+    dec_state, h, c = dec_out["decoder"], dec_out["h_out"], dec_out["c_out"]
+    tokens, t = [], 0
+    while t < enc_len:
+        jd  = jd_model.predict({"encoder_step": encoder[:,:,t:t+1], "decoder_step": dec_state[:,:,:1]})
+        tok = int(jd["token_id"].flat[0])
+        dur = int(jd["duration"].flat[0])
+        adv = bins[min(dur, len(bins)-1)] if bins else 1
+        if tok != blank:
+            tokens.append(tok)
+            dec_out = dec_model.predict({"targets": np.array([[tok]], dtype=np.int32),
+                                          "target_length": tlen, "h_in": h, "c_in": c})
+            dec_state, h, c = dec_out["decoder"], dec_out["h_out"], dec_out["c_out"]
+        t += max(1, adv)
+    return "".join(vocab[i] for i in tokens if i < len(vocab)).replace("▁", " ").strip()
+if __name__ == "__main__":
+    args = sys.argv[1:]
+    if not args:
+        print("Usage: python infer.py <audio.wav> [--compute-units ALL|CPU_ONLY|CPU_AND_NE]")
+        sys.exit(1)
+    cu = "ALL"
+    if "--compute-units" in args:
+        cu = args[args.index("--compute-units") + 1]
+    print(transcribe(args[0], cu))

metadata.json ADDED Viewed

	@@ -0,0 +1,113 @@

+{
+  "model_id": "nvidia/parakeet_realtime_eou_120m-v1",
+  "model_type": "parakeet_rnnt",
+  "language": "",
+  "sample_rate": 16000,
+  "max_audio_seconds": 15.0,
+  "max_audio_samples": 240000,
+  "vocab_size": 1026,
+  "blank_id": 1026,
+  "checkpoint": {
+    "type": "pretrained",
+    "model_id": "nvidia/parakeet_realtime_eou_120m-v1"
+  },
+  "coreml": {
+    "compute_precision": "FLOAT32",
+    "quantization": "none"
+  },
+  "components": {
+    "mel_encoder": {
+      "path": "parakeet_mel_encoder.mlpackage",
+      "inputs": {
+        "audio_signal": [
+          1,
+          240000
+        ],
+        "audio_length": [
+          1
+        ]
+      },
+      "outputs": {
+        "encoder": [
+          1,
+          512,
+          189
+        ],
+        "encoder_length": [
+          1
+        ]
+      }
+    },
+    "decoder": {
+      "path": "parakeet_decoder.mlpackage",
+      "inputs": {
+        "targets": [
+          1,
+          1
+        ],
+        "target_length": [
+          1
+        ],
+        "h_in": [
+          1,
+          1,
+          640
+        ],
+        "c_in": [
+          1,
+          1,
+          640
+        ]
+      },
+      "outputs": {
+        "decoder": [
+          1,
+          640,
+          1
+        ],
+        "h_out": [
+          1,
+          1,
+          640
+        ],
+        "c_out": [
+          1,
+          1,
+          640
+        ]
+      }
+    },
+    "joint_decision_single_step": {
+      "path": "parakeet_joint_decision_single_step.mlpackage",
+      "inputs": {
+        "encoder_step": [
+          1,
+          512,
+          1
+        ],
+        "decoder_step": [
+          1,
+          640,
+          1
+        ]
+      },
+      "outputs": {
+        "token_id": [
+          1,
+          1,
+          1
+        ],
+        "token_prob": [
+          1,
+          1,
+          1
+        ],
+        "duration": [
+          1,
+          1,
+          1
+        ]
+      }
+    }
+  }
+}

parakeet_decoder.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386b4563e16d9272fc04e049114470eff0cc27bc69a68f07bc348268deb5e469
+size 7962

parakeet_decoder.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b4cacecdcd9df79ab1e56de67230baf5a8664d2afe0bb8f3408eefa972cb2f4
+size 7873600

parakeet_decoder.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "542E1620-783D-40F7-B856-BBC81F8FB1CC": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        },
+        "9277620F-372A-4009-B3F0-4579EED5CF6F": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        }
+    },
+    "rootModelIdentifier": "9277620F-372A-4009-B3F0-4579EED5CF6F"
+}

parakeet_joint_decision_single_step.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a22b06a45ff04538396f5d3d606436dfffcae4ad70bf0ea2c885ecd2b15661ee
+size 7043

parakeet_joint_decision_single_step.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7039b2010a269153f5a96edf28637f921a86ef8822f248f2d6712f7a6bce84b4
+size 2794182

parakeet_joint_decision_single_step.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "81E88E5B-0A04-42EB-8AA9-1AFEF983082B": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        },
+        "CCCCAB77-9146-4F26-8C99-DC908FADD489": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        }
+    },
+    "rootModelIdentifier": "CCCCAB77-9146-4F26-8C99-DC908FADD489"
+}

parakeet_mel_encoder.mlpackage/Data/com.apple.CoreML/model.mlmodel ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5ffa15cd78b271a04f944e7cb8105494b15999f112cbe0f9565ed67c3be8565
+size 497550

parakeet_mel_encoder.mlpackage/Data/com.apple.CoreML/weights/weight.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e1ce22a11c2fa443776934f6aa20f4559086ccdc437d224461dac905ffe7ebf
+size 217322496

parakeet_mel_encoder.mlpackage/Manifest.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "fileFormatVersion": "1.0.0",
+    "itemInfoEntries": {
+        "7865CF57-8368-4EE9-89C4-AA0565E1837A": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Weights",
+            "name": "weights",
+            "path": "com.apple.CoreML/weights"
+        },
+        "BB94861E-95D2-4B35-98E0-28A388EE20D6": {
+            "author": "com.apple.CoreML",
+            "description": "CoreML Model Specification",
+            "name": "model.mlmodel",
+            "path": "com.apple.CoreML/model.mlmodel"
+        }
+    },
+    "rootModelIdentifier": "BB94861E-95D2-4B35-98E0-28A388EE20D6"
+}

vocab.json ADDED Viewed

	@@ -0,0 +1,1028 @@

+[
+  "<unk>",
+  "▁t",
+  "▁th",
+  "▁a",
+  "▁i",
+  "▁the",
+  "▁s",
+  "re",
+  "▁w",
+  "▁o",
+  "in",
+  "at",
+  "er",
+  "nd",
+  "ou",
+  "▁c",
+  "▁b",
+  "▁h",
+  "en",
+  "on",
+  "▁m",
+  "▁f",
+  "ing",
+  "▁p",
+  "▁to",
+  "▁and",
+  "▁d",
+  "an",
+  "or",
+  "es",
+  "▁y",
+  "▁l",
+  "▁of",
+  "ll",
+  "▁in",
+  "ed",
+  "it",
+  "▁g",
+  "is",
+  "▁you",
+  "▁n",
+  "ar",
+  "om",
+  "as",
+  "ve",
+  "▁e",
+  "ic",
+  "▁it",
+  "al",
+  "us",
+  "▁wh",
+  "▁we",
+  "▁be",
+  "ion",
+  "ow",
+  "le",
+  "▁is",
+  "et",
+  "ent",
+  "ot",
+  "ut",
+  "▁re",
+  "▁on",
+  "ay",
+  "▁ha",
+  "ig",
+  "▁so",
+  "ct",
+  "▁he",
+  "▁for",
+  "ver",
+  "ke",
+  "ro",
+  "▁st",
+  "id",
+  "▁go",
+  "all",
+  "se",
+  "ly",
+  "▁u",
+  "ch",
+  "st",
+  "ld",
+  "▁k",
+  "ce",
+  "ur",
+  "▁li",
+  "am",
+  "▁r",
+  "ht",
+  "▁j",
+  "ith",
+  "▁se",
+  "ir",
+  "▁as",
+  "▁an",
+  "im",
+  "▁do",
+  "ad",
+  "▁was",
+  "ight",
+  "th",
+  "▁are",
+  "▁but",
+  "▁sh",
+  "ust",
+  "ally",
+  "▁not",
+  "▁or",
+  "▁com",
+  "▁can",
+  "▁me",
+  "op",
+  "▁mo",
+  "▁at",
+  "ill",
+  "▁ch",
+  "▁ne",
+  "ant",
+  "▁de",
+  "▁kn",
+  "▁one",
+  "il",
+  "ol",
+  "▁con",
+  "ter",
+  "▁ab",
+  "▁fr",
+  "ere",
+  "ck",
+  "▁al",
+  "▁all",
+  "qu",
+  "▁pro",
+  "▁som",
+  "ould",
+  "▁tw",
+  "ul",
+  "ra",
+  "od",
+  "ers",
+  "▁su",
+  "ive",
+  "▁v",
+  "use",
+  "ate",
+  "ge",
+  "if",
+  "▁ex",
+  "ess",
+  "pp",
+  "▁lo",
+  "out",
+  "▁if",
+  "est",
+  "ain",
+  "ist",
+  "and",
+  "ea",
+  "very",
+  "art",
+  "▁wor",
+  "▁my",
+  "ab",
+  "ment",
+  "▁bec",
+  "un",
+  "ity",
+  "ri",
+  "pe",
+  "ions",
+  "▁by",
+  "ok",
+  "our",
+  "ort",
+  "ind",
+  "ink",
+  "nt",
+  "▁up",
+  "um",
+  "▁don",
+  "▁get",
+  "red",
+  "▁out",
+  "el",
+  "ause",
+  "res",
+  "▁ma",
+  "ich",
+  "▁us",
+  "rou",
+  "▁int",
+  "em",
+  "os",
+  "ies",
+  "ie",
+  "▁pl",
+  "▁tr",
+  "ven",
+  "ous",
+  "▁le",
+  "▁two",
+  "ard",
+  "ine",
+  "▁co",
+  "een",
+  "▁now",
+  "ty",
+  "her",
+  "ack",
+  "▁pe",
+  "ame",
+  "▁how",
+  "▁who",
+  "▁see",
+  "▁tim",
+  "ect",
+  "ast",
+  "▁our",
+  "ci",
+  "ree",
+  "ople",
+  "gh",
+  "▁no",
+  "▁had",
+  "▁man",
+  "▁qu",
+  "▁en",
+  "ide",
+  "ure",
+  "ud",
+  "so",
+  "▁his",
+  "▁sa",
+  "▁sp",
+  "▁say",
+  "ose",
+  "ther",
+  "▁act",
+  "▁ta",
+  "▁cl",
+  "ings",
+  "pt",
+  "king",
+  "▁any",
+  "▁has",
+  "▁un",
+  "iv",
+  "▁im",
+  "▁ag",
+  "▁te",
+  "▁fe",
+  "one",
+  "per",
+  "ong",
+  "▁po",
+  "▁ad",
+  "ff",
+  "ore",
+  "itt",
+  "ans",
+  "iz",
+  "eah",
+  "reat",
+  "act",
+  "own",
+  "hing",
+  "enty",
+  "age",
+  "ber",
+  "ice",
+  "▁am",
+  "ple",
+  "are",
+  "▁per",
+  "und",
+  "ite",
+  "ix",
+  "pl",
+  "▁way",
+  "▁did",
+  "▁pr",
+  "▁got",
+  "ars",
+  "▁she",
+  "▁let",
+  "ag",
+  "▁ac",
+  "int",
+  "▁ar",
+  "ry",
+  "ign",
+  "ish",
+  "▁fir",
+  "ace",
+  "ble",
+  "og",
+  "ue",
+  "▁ye",
+  "ap",
+  "iff",
+  "▁ro",
+  "▁her",
+  "nder",
+  "▁ok",
+  "▁res",
+  "▁gu",
+  "ence",
+  "▁may",
+  "ated",
+  "ip",
+  "▁bo",
+  "▁him",
+  "way",
+  "ac",
+  "ical",
+  "ass",
+  "ase",
+  "▁dis",
+  "able",
+  "ick",
+  "▁app",
+  "ance",
+  "▁pre",
+  "▁six",
+  "▁off",
+  "▁new",
+  "ia",
+  "orm",
+  "ank",
+  "▁lot",
+  "ach",
+  "▁fo",
+  "inet",
+  "ire",
+  "ary",
+  "ult",
+  "▁tal",
+  "▁mu",
+  "▁bl",
+  "ount",
+  "sel",
+  "vel",
+  "▁br",
+  "▁imp",
+  "ep",
+  "cess",
+  "ord",
+  "▁sc",
+  "▁inc",
+  "ound",
+  "ang",
+  "be",
+  "ress",
+  "uct",
+  "▁ind",
+  "▁af",
+  "ving",
+  "▁oh",
+  "▁bet",
+  "▁use",
+  "ome",
+  "ens",
+  "ys",
+  "▁bu",
+  "co",
+  "ory",
+  "ater",
+  "ild",
+  "ght",
+  "ial",
+  "▁day",
+  "ning",
+  "na",
+  "ile",
+  "▁spe",
+  "▁mar",
+  "ody",
+  "ough",
+  "ade",
+  "vers",
+  "xt",
+  "▁fl",
+  "▁ke",
+  "ian",
+  "▁sy",
+  "▁put",
+  "fore",
+  "ub",
+  "▁ph",
+  "fe",
+  "▁em",
+  "▁ser",
+  "form",
+  "ting",
+  "te",
+  "av",
+  "ious",
+  "▁rec",
+  "ks",
+  "▁gr",
+  "ces",
+  "wn",
+  "ors",
+  "▁jo",
+  "ents",
+  "▁des",
+  "▁try",
+  "▁equ",
+  "▁z",
+  "▁rem",
+  "▁str",
+  "self",
+  "▁bit",
+  "ph",
+  "ved",
+  "▁why",
+  "▁bas",
+  "▁hel",
+  "▁rel",
+  "ath",
+  "ject",
+  "ail",
+  "▁la",
+  "ual",
+  "▁god",
+  "▁nat",
+  "erm",
+  "day",
+  "▁id",
+  "ft",
+  "▁wr",
+  "▁min",
+  "ates",
+  "▁gen",
+  "tain",
+  "▁ob",
+  "ull",
+  "ict",
+  "▁tra",
+  "▁end",
+  "▁hig",
+  "▁fif",
+  "oth",
+  "tern",
+  "▁its",
+  "vent",
+  "▁sm",
+  "ons",
+  "▁add",
+  "iss",
+  "▁bel",
+  "ful",
+  "get",
+  "▁ele",
+  "▁rep",
+  "ak",
+  "▁ho",
+  "▁pos",
+  "▁num",
+  "ange",
+  "ves",
+  "ific",
+  "urn",
+  "ise",
+  "▁cr",
+  "▁um",
+  "ward",
+  "▁reg",
+  "ady",
+  "ower",
+  "uc",
+  "▁dec",
+  "lic",
+  "▁set",
+  "▁gon",
+  "▁op",
+  "▁ear",
+  "▁sub",
+  "▁sl",
+  "les",
+  "stem",
+  "cial",
+  "olog",
+  "atch",
+  "ily",
+  "body",
+  "nds",
+  "ular",
+  "ren",
+  "▁own",
+  "▁too",
+  "cent",
+  "ible",
+  "pect",
+  "ered",
+  "ways",
+  "teen",
+  "▁uh",
+  "▁big",
+  "▁mod",
+  "▁att",
+  "▁car",
+  "gr",
+  "▁acc",
+  "ied",
+  "mun",
+  "ib",
+  "▁mon",
+  "▁sch",
+  "▁pol",
+  "▁dat",
+  "▁fin",
+  "▁sim",
+  "▁inv",
+  "▁def",
+  "ked",
+  "▁ent",
+  "▁yes",
+  "ows",
+  "ics",
+  "ited",
+  "ute",
+  "ism",
+  "ps",
+  "▁ed",
+  "▁el",
+  "ably",
+  "ppen",
+  "als",
+  "▁ten",
+  "ract",
+  "ss",
+  "▁ass",
+  "▁met",
+  "gan",
+  "▁eng",
+  "▁stu",
+  "ween",
+  "arch",
+  "▁gl",
+  "▁cor",
+  "▁dr",
+  "vern",
+  "▁ty",
+  "▁run",
+  "hip",
+  "cus",
+  "cond",
+  "▁ins",
+  "irty",
+  "▁pub",
+  "lud",
+  "llow",
+  "▁cou",
+  "ew",
+  "iew",
+  "▁sur",
+  "ero",
+  "ood",
+  "ness",
+  "▁fun",
+  "▁eff",
+  "cept",
+  "▁ca",
+  "▁exp",
+  "duct",
+  "▁sw",
+  "ize",
+  "ope",
+  "▁par",
+  "kes",
+  "cy",
+  "▁ev",
+  "▁ref",
+  "ell",
+  "▁bus",
+  "ug",
+  "rib",
+  "▁cur",
+  "mo",
+  "ock",
+  "ures",
+  "air",
+  "▁war",
+  "str",
+  "▁med",
+  "▁wa",
+  "▁val",
+  "▁sin",
+  "blem",
+  "▁fam",
+  "li",
+  "▁far",
+  "▁cle",
+  "▁col",
+  "mon",
+  "▁gra",
+  "led",
+  "ense",
+  "tin",
+  "ues",
+  "its",
+  "▁mem",
+  "▁inf",
+  "▁eas",
+  "ideo",
+  "▁top",
+  "io",
+  "pan",
+  "▁hum",
+  "▁old",
+  "ead",
+  "▁ord",
+  "ric",
+  "ants",
+  "oy",
+  "esn",
+  "uck",
+  "ason",
+  "ced",
+  "ool",
+  "rat",
+  "ouse",
+  "▁lar",
+  "▁art",
+  "▁wee",
+  "▁cer",
+  "ized",
+  "▁mat",
+  "con",
+  "erg",
+  "land",
+  "ines",
+  "▁chr",
+  "▁aut",
+  "▁lea",
+  "▁sou",
+  "oney",
+  "tty",
+  "▁ple",
+  "ulat",
+  "oks",
+  "▁few",
+  "▁sol",
+  "▁che",
+  "chn",
+  "ird",
+  "▁bre",
+  "▁dur",
+  "▁wom",
+  "me",
+  "izat",
+  "eric",
+  "ote",
+  "▁uni",
+  "eren",
+  "arn",
+  "ross",
+  "ices",
+  "ten",
+  "eral",
+  "ever",
+  "ieve",
+  "lish",
+  "ash",
+  "▁opp",
+  "alth",
+  "ger",
+  "▁sk",
+  "▁red",
+  "peri",
+  "▁det",
+  "▁ext",
+  "ner",
+  "ah",
+  "▁var",
+  "▁loc",
+  "gram",
+  "ists",
+  "ives",
+  "▁es",
+  "▁nor",
+  "tro",
+  "ale",
+  "▁iss",
+  "▁pri",
+  "gin",
+  "az",
+  "oc",
+  "▁pop",
+  "ern",
+  "▁sit",
+  "ket",
+  "▁pa",
+  "▁law",
+  "ages",
+  "br",
+  "▁cam",
+  "▁mom",
+  "osed",
+  "▁bro",
+  "ne",
+  "bs",
+  "▁cre",
+  "erat",
+  "▁sec",
+  "▁cap",
+  "▁vis",
+  "▁pat",
+  "ield",
+  "iet",
+  "▁tri",
+  "up",
+  "▁bra",
+  "ts",
+  "▁mot",
+  "▁unt",
+  "put",
+  "bo",
+  "ork",
+  "mer",
+  "ital",
+  "▁air",
+  "ined",
+  "▁beh",
+  "▁adv",
+  "▁ret",
+  "imes",
+  "▁tea",
+  "ural",
+  "sid",
+  "ters",
+  "▁pur",
+  "▁sci",
+  "bers",
+  "ient",
+  "ier",
+  "cc",
+  "sw",
+  "▁av",
+  "reen",
+  "ode",
+  "ont",
+  "▁dra",
+  "ann",
+  "nect",
+  "▁x",
+  "▁eu",
+  "ton",
+  "inat",
+  "ene",
+  "ared",
+  "els",
+  "▁mor",
+  "▁rat",
+  "cri",
+  "▁men",
+  "▁ah",
+  "ames",
+  "▁arm",
+  "eak",
+  "▁pay",
+  "▁hal",
+  "ins",
+  "ilit",
+  "stit",
+  "▁ra",
+  "▁leg",
+  "cl",
+  "pr",
+  "▁wal",
+  "▁bad",
+  "▁ge",
+  "roup",
+  "▁mus",
+  "man",
+  "▁gi",
+  "eds",
+  "▁aw",
+  "po",
+  "ark",
+  "row",
+  "▁dep",
+  "ully",
+  "ral",
+  "lect",
+  "pend",
+  "▁sev",
+  "ime",
+  "gest",
+  "here",
+  "▁yet",
+  "ted",
+  "▁rev",
+  "ds",
+  "▁ask",
+  "less",
+  "▁di",
+  "ets",
+  "line",
+  "▁aff",
+  "ired",
+  "▁est",
+  "ken",
+  "vid",
+  "most",
+  "ivid",
+  "unch",
+  "par",
+  "med",
+  "rop",
+  "ased",
+  "eone",
+  "▁ve",
+  "▁abs",
+  "ergy",
+  "ret",
+  "▁saw",
+  "▁ey",
+  "▁cal",
+  "uat",
+  "▁mid",
+  "vat",
+  "ream",
+  "vice",
+  "ians",
+  "rent",
+  "ctor",
+  "err",
+  "ush",
+  "ases",
+  "▁suc",
+  "erms",
+  "ave",
+  "angu",
+  "ries",
+  "▁wo",
+  "arts",
+  "▁fil",
+  "▁fat",
+  "▁cho",
+  "orts",
+  "▁fre",
+  "ee",
+  "ught",
+  "eng",
+  "ump",
+  "▁bar",
+  "ying",
+  "ane",
+  "▁tem",
+  "anks",
+  "ury",
+  "iat",
+  "mit",
+  "trol",
+  "▁net",
+  "▁maj",
+  "▁cra",
+  "ling",
+  "▁fig",
+  "orn",
+  "icat",
+  "pany",
+  "▁occ",
+  "ott",
+  "ands",
+  "▁exc",
+  "▁mr",
+  "ency",
+  "rope",
+  "itch",
+  "▁lit",
+  "abil",
+  "not",
+  "ma",
+  "▁typ",
+  "▁opt",
+  "ob",
+  "ser",
+  "ety",
+  "ms",
+  "peci",
+  "aces",
+  "aut",
+  "▁hon",
+  "cuss",
+  "▁sal",
+  "▁sor",
+  "att",
+  "▁lab",
+  "▁har",
+  "urch",
+  "nded",
+  "uce",
+  "ids",
+  "▁hy",
+  "▁fut",
+  "▁ste",
+  "ours",
+  "ems",
+  "utes",
+  "ng",
+  "ta",
+  "▁won",
+  "▁fa",
+  "▁env",
+  "ards",
+  "▁job",
+  "ium",
+  "▁dot",
+  "▁obv",
+  "ina",
+  "side",
+  "elve",
+  "cu",
+  "▁jes",
+  "▁pot",
+  "▁pie",
+  "▁tre",
+  "▁hey",
+  "▁mag",
+  "ron",
+  "▁key",
+  "swer",
+  "▁win",
+  "ucat",
+  "work",
+  "ides",
+  "▁low",
+  "▁vol",
+  "▁oth",
+  "atic",
+  "lf",
+  "ads",
+  "inds",
+  "com",
+  "ths",
+  "▁ver",
+  "ised",
+  "lo",
+  "▁squ",
+  "▁cut",
+  "oked",
+  "irit",
+  "ateg",
+  "ppy",
+  "mitt",
+  "come",
+  "hn",
+  "igin",
+  "mand",
+  "▁dam",
+  "ho",
+  "▁da",
+  "▁fur",
+  "iron",
+  "ilar",
+  "▁fac",
+  "▁neg",
+  "▁ago",
+  "ged",
+  "miss",
+  "enth",
+  "▁dou",
+  "▁hit",
+  "▁guy",
+  "▁bi",
+  "ove",
+  "fess",
+  "ples",
+  "owed",
+  "ured",
+  "▁ris",
+  "ints",
+  "rew",
+  "▁sum",
+  "▁hu",
+  "ploy",
+  "ude",
+  "ried",
+  "▁cir",
+  "▁dev",
+  "ear",
+  "▁tot",
+  "▁ann",
+  "duc",
+  "ik",
+  "pon",
+  "sted",
+  "▁ide",
+  "▁'",
+  "ipp",
+  "▁eat",
+  "▁dom",
+  "▁",
+  "e",
+  "t",
+  "o",
+  "a",
+  "i",
+  "n",
+  "s",
+  "r",
+  "h",
+  "l",
+  "d",
+  "u",
+  "c",
+  "m",
+  "y",
+  "g",
+  "w",
+  "f",
+  "p",
+  "b",
+  "v",
+  "k",
+  "'",
+  "j",
+  "x",
+  "q",
+  "z",
+  "<EOU>",
+  "<EOB>"
+]