DeepPhonemizer

Browse files

Files changed (9) hide show

.gitattributes +1 -0
DeepPhonemizer/code/DeepPhonemizer.zip +3 -0
DeepPhonemizer/colab/DP_Inference.ipynb +162 -0
DeepPhonemizer/colab/Training_Example.ipynb +171 -0
DeepPhonemizer/papers/Grapheme-to-phoneme conversion using Long Short-Term Memory recurrent neural networks.pdf +0 -0
DeepPhonemizer/papers/Transformer based Grapheme-to-Phoneme Conversion.pdf +3 -0
DeepPhonemizer/pretrained/en_us_cmudict_forward.pt +3 -0
DeepPhonemizer/pretrained/en_us_cmudict_ipa_forward.pt +3 -0
DeepPhonemizer/pretrained/latin_ipa_forward.pt +3 -0

.gitattributes CHANGED Viewed

@@ -36,3 +36,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 BERT/bene-ges/en_g2p_cmu_bert_large/en_g2p.nemo filter=lfs diff=lfs merge=lfs -text
 BERT/bene-ges/ru_g2p_ipa_bert_large/g2p_correct_vocab.txt filter=lfs diff=lfs merge=lfs -text
 BERT/bene-ges/ru_g2p_ipa_bert_large/ru_g2p.nemo filter=lfs diff=lfs merge=lfs -text

 BERT/bene-ges/en_g2p_cmu_bert_large/en_g2p.nemo filter=lfs diff=lfs merge=lfs -text
 BERT/bene-ges/ru_g2p_ipa_bert_large/g2p_correct_vocab.txt filter=lfs diff=lfs merge=lfs -text
 BERT/bene-ges/ru_g2p_ipa_bert_large/ru_g2p.nemo filter=lfs diff=lfs merge=lfs -text
+DeepPhonemizer/papers/Transformer[[:space:]]based[[:space:]]Grapheme-to-Phoneme[[:space:]]Conversion.pdf filter=lfs diff=lfs merge=lfs -text

DeepPhonemizer/code/DeepPhonemizer.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c26aa6b58eb79ca0aa064231cac10138a2e2e1281924c4de13acb495b18aeca5
+size 1551747

DeepPhonemizer/colab/DP_Inference.ipynb ADDED Viewed

	@@ -0,0 +1,162 @@

+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "name": "DP_Inference.ipynb",
+      "provenance": []
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    },
+    "language_info": {
+      "name": "python"
+    }
+  },
+  "cells": [
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "bsvxO3kfo_sr"
+      },
+      "source": [
+        "pip install deep-phonemizer"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "XRTPugZ0pL-b"
+      },
+      "source": [
+        "from dp.phonemizer import Phonemizer\n",
+        "\n",
+        "!wget https://public-asai-dl-models.s3.eu-central-1.amazonaws.com/DeepPhonemizer/en_us_cmudict_ipa_forward.pt\n",
+        "\n",
+        "phonemizer = Phonemizer.from_checkpoint('en_us_cmudict_ipa_forward.pt')"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/",
+          "height": 35
+        },
+        "id": "ei9oN93rpilk",
+        "outputId": "1461e27d-ba72-4249-9ecf-f98a9563dee0"
+      },
+      "source": [
+        "phonemizer('Phonemizing an English text is imposimpable!', lang='en_us')"
+      ],
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "execute_result",
+          "data": {
+            "application/vnd.google.colaboratory.intrinsic+json": {
+              "type": "string"
+            },
+            "text/plain": [
+              "'fɑːnəmaɪzɪŋ æn ɪŋglɪʃ tɛkst aɪz ɪmpəzɪmpəbəl!'"
+            ]
+          },
+          "metadata": {
+            "tags": []
+          },
+          "execution_count": 3
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "Cq8zgZOMpk5T",
+        "outputId": "ceb1269b-619d-402a-c661-f5be5f4d2154"
+      },
+      "source": [
+        "# Phonemize a list of texts and pull out model predictions with confidence scores\n",
+        "result = phonemizer.phonemise_list(['Phonemizing an US-English text is imposimpable!', 'Holymoly.'], lang='en_us')\n",
+        "\n",
+        "for word, pred in result.predictions.items():\n",
+        "  print(f'{word} {pred.phonemes} {pred.confidence}')"
+      ],
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "text": [
+            "Phonemizing fɑːnəmaɪzɪŋ 0.9998687552490106\n",
+            "Holymoly hɑːliːmɑːli 0.6092846695646951\n",
+            "imposimpable ɪmpəzɪmpəbəl 0.9988885450352498\n"
+          ],
+          "name": "stdout"
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "ylKahJLhpltv",
+        "outputId": "93dfd4b0-58f9-4c30-f105-b9f8dec00a9f"
+      },
+      "source": [
+        "# Print confidence per phoneme\n",
+        "result = phonemizer.phonemise_list(['Otorhinolaryngologist'], lang='en_us')\n",
+        "pred = result.predictions['Otorhinolaryngologist']\n",
+        "\n",
+        "print(f'{pred.phonemes} {pred.confidence}\\n')\n",
+        "\n",
+        "for c, prob in zip(pred.phoneme_tokens, pred.token_probs):\n",
+        "  print(f'{c} {prob}')"
+      ],
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "text": [
+            "oʊtɔrhɪnɑːlɛrɪŋgoʊlgɪst 0.6062305000504705\n",
+            "\n",
+            "<en_us> 1.0\n",
+            "o 1.0\n",
+            "ʊ 0.999997615814209\n",
+            "t 1.0\n",
+            "ɔ 0.8052271008491516\n",
+            "r 0.9994328618049622\n",
+            "h 1.0\n",
+            "ɪ 0.9999969005584717\n",
+            "n 1.0\n",
+            "ɑ 0.9980535507202148\n",
+            "ː 0.9757038354873657\n",
+            "l 1.0\n",
+            "ɛ 0.7834091186523438\n",
+            "r 0.9998308420181274\n",
+            "ɪ 0.9999746084213257\n",
+            "ŋ 0.999996542930603\n",
+            "g 0.9999998807907104\n",
+            "o 0.999997615814209\n",
+            "ʊ 0.9968417882919312\n",
+            "l 1.0\n",
+            "g 0.9992079138755798\n",
+            "ɪ 0.9950146079063416\n",
+            "s 0.9965135455131531\n",
+            "t 1.0\n",
+            "<end> 1.0\n"
+          ],
+          "name": "stdout"
+        }
+      ]
+    }
+  ]
+}

DeepPhonemizer/colab/Training_Example.ipynb ADDED Viewed

	@@ -0,0 +1,171 @@

+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "accelerator": "GPU",
+    "colab": {
+      "name": "Training_Example.ipynb",
+      "provenance": []
+    },
+    "kernelspec": {
+      "display_name": "Python 3",
+      "name": "python3"
+    },
+    "language_info": {
+      "name": "python"
+    }
+  },
+  "cells": [
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "2zx09MSGFHjT"
+      },
+      "source": [
+        "!pip install deep-phonemizer"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "oZ1L1BlhOUMR"
+      },
+      "source": [
+        "# Dowload and prepare a dataset\n",
+        "!wget https://raw.githubusercontent.com/CUNY-CL/wikipron/master/data/scrape/tsv/eng_latn_us_broad.tsv\n",
+        "\n",
+        "with open('eng_latn_us_broad.tsv', 'r', encoding='utf-8') as f:\n",
+        "  lines = f.readlines()\n",
+        "\n",
+        "# Prepare data as tuples (lang, word, phoneme)\n",
+        "lines = [l.replace(' ', '').replace('\\n', '') for l in lines]\n",
+        "splits = [l.split('\\t') for l in lines]\n",
+        "train_data = [('en_us', s[0], s[1]) for s in splits if len(s)==2]\n",
+        "\n",
+        "for d in train_data[:10000:1000]:\n",
+        "  print(d)\n"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "MiV-OUi0FQ-O"
+      },
+      "source": [
+        "# Read standard config and adjust some params for speedup\n",
+        "from dp.utils.io import read_config, save_config\n",
+        "import dp\n",
+        "import os\n",
+        "\n",
+        "config_file = os.path.dirname(dp.__file__) + '/configs/forward_config.yaml'\n",
+        "config = read_config(config_file)\n",
+        "config['training']['epochs'] = 10\n",
+        "config['training']['warmup_steps'] = 100\n",
+        "config['training']['generate_steps'] = 500\n",
+        "config['training']['validate_steps'] = 500\n",
+        "save_config(config, 'config.yaml')\n",
+        "\n",
+        "for k, v in config.items():\n",
+        "  print(f'{k} {v}')\n",
+        "\n"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "m_SNVv_HN4fR"
+      },
+      "source": [
+        "%load_ext tensorboard\n",
+        "%tensorboard --logdir /content/checkpoints"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "K09wG-ymXECZ"
+      },
+      "source": [
+        "from dp.preprocess import preprocess\n",
+        "from dp.train import train\n",
+        "\n",
+        "preprocess(config_file='config.yaml', train_data=train_data)\n",
+        "train(config_file='config.yaml')"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "2KcIwL6QdvEJ",
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "outputId": "ed499929-1103-4a22-dce8-4a54d85f9b9e"
+      },
+      "source": [
+        "# Load phonemizer (including the training data dictionary)\n",
+        "from dp.phonemizer import Phonemizer\n",
+        "\n",
+        "phonemizer = Phonemizer.from_checkpoint('/content/checkpoints/best_model.pt')\n",
+        "result = phonemizer('Phonemizing an English text is imposimpable!', lang='en_us')\n",
+        "\n",
+        "print(result)"
+      ],
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "text": [
+            "2021-05-12 10:15:19,916.916 DEBUG phonemizer:  Initializing phonemizer with model step 18000\n"
+          ],
+          "name": "stderr"
+        },
+        {
+          "output_type": "stream",
+          "text": [
+            "fənəmaɪzɪŋ ən ɪŋɡlɪʃ tɛkst ɪz ɪmpɑsɪmpəbəl!\n"
+          ],
+          "name": "stdout"
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "Xt85fzFneDno",
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "outputId": "bc1cb892-9cd2-4540-b930-e4443ddf69c2"
+      },
+      "source": [
+        "# Phonemize a list of texts and pull out model predictions with confidence scores\n",
+        "result = phonemizer.phonemise_list(['Phonemizing an US-English text is imposimpable!'], lang='en_us')\n",
+        "\n",
+        "for word, pred in result.predictions.items():\n",
+        "  print(f'{word} {pred.phonemes} {pred.confidence}')"
+      ],
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "text": [
+            "imposimpable ɪmpɑsɪmpəbəl 0.2185952042855603\n",
+            "Phonemizing fənəmaɪzɪŋ 0.22222847233670942\n"
+          ],
+          "name": "stdout"
+        }
+      ]
+    }
+  ]
+}

DeepPhonemizer/papers/Grapheme-to-phoneme conversion using Long Short-Term Memory recurrent neural networks.pdf ADDED Viewed

Binary file (98.8 kB). View file

DeepPhonemizer/papers/Transformer based Grapheme-to-Phoneme Conversion.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fdaf60f1f91745e95b7139462ea26dd14c916725034c2ce070509ac07b93422
+size 348626

DeepPhonemizer/pretrained/en_us_cmudict_forward.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2e1fb223d7e027bf7b33052540c6f71d19db6d7fd87ab8671152b8b114501c2
+size 66725366

DeepPhonemizer/pretrained/en_us_cmudict_ipa_forward.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cadce3d77597b55e772799cb46994ab29a460f1a62a87207b52f3cdb29894e02
+size 65637046

DeepPhonemizer/pretrained/latin_ipa_forward.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca8439d99bbf49f4937cdb60afccbbeb872894bcd8a6febb6517a696e2e9a33f
+size 70816182