Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

pt-create.py +22 -0
train.ipynb +605 -0
train.py +201 -0
vocab.txt +181 -0
weights/pl-bert-best.pt +3 -0

pt-create.py ADDED Viewed

	@@ -0,0 +1,22 @@

+from transformers import BertForMaskedLM, BertConfig
+import torch
+# 1) Define exactly the same config you used for training
+config = BertConfig(
+    vocab_size                  = 181,
+    hidden_size                 = 768,
+    num_hidden_layers           = 12,
+    num_attention_heads         = 12,
+    intermediate_size           = 2048,
+    max_position_embeddings     = 512,
+    hidden_dropout_prob         = 0.1,
+    attention_probs_dropout_prob= 0.1,
+)
+# 2) Load the model from that checkpoint folder
+checkpoint_dir = "/dev/hdd/Users/Oron/tts/pl-bert/pl-bert/checkpoint-746"   # adjust to your actual path
+model = BertForMaskedLM.from_pretrained(checkpoint_dir, config=config)
+# 3) Save a raw .pt of its weights
+torch.save(model.state_dict(), "pl-bert-interrupted.pt")
+print("Saved interrupted-state weights to pl-bert-interrupted.pt")

train.ipynb ADDED Viewed

	@@ -0,0 +1,605 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+      "  from .autonotebook import tqdm as notebook_tqdm\n",
+      "/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/torch/nn/parallel/_functions.py:71: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "\n",
+       "    <div>\n",
+       "      \n",
+       "      <progress value='11160' max='15240' style='width:300px; height:20px; vertical-align: middle;'></progress>\n",
+       "      [11160/15240 45:51 < 16:46, 4.06 it/s, Epoch 7.32/10]\n",
+       "    </div>\n",
+       "    <table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       " <tr style=\"text-align: left;\">\n",
+       "      <th>Epoch</th>\n",
+       "      <th>Training Loss</th>\n",
+       "      <th>Validation Loss</th>\n",
+       "      <th>Accuracy</th>\n",
+       "      <th>Perplexity</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <td>1</td>\n",
+       "      <td>0.604400</td>\n",
+       "      <td>0.605723</td>\n",
+       "      <td>0.726062</td>\n",
+       "      <td>1.833437</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <td>2</td>\n",
+       "      <td>0.554500</td>\n",
+       "      <td>0.550530</td>\n",
+       "      <td>0.744238</td>\n",
+       "      <td>1.735228</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <td>3</td>\n",
+       "      <td>0.524500</td>\n",
+       "      <td>0.524182</td>\n",
+       "      <td>0.757067</td>\n",
+       "      <td>1.689540</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <td>4</td>\n",
+       "      <td>0.242700</td>\n",
+       "      <td>0.179025</td>\n",
+       "      <td>0.947226</td>\n",
+       "      <td>1.196386</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <td>5</td>\n",
+       "      <td>0.152300</td>\n",
+       "      <td>0.146584</td>\n",
+       "      <td>0.953116</td>\n",
+       "      <td>1.158002</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <td>6</td>\n",
+       "      <td>0.141600</td>\n",
+       "      <td>0.151233</td>\n",
+       "      <td>0.952377</td>\n",
+       "      <td>1.163258</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <td>7</td>\n",
+       "      <td>0.140000</td>\n",
+       "      <td>0.142038</td>\n",
+       "      <td>0.954711</td>\n",
+       "      <td>1.152668</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table><p>"
+      ],
+      "text/plain": [
+       "<IPython.core.display.HTML object>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stderr",
+     "output_type": "stream",
+     "text": [
+      "/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/torch/nn/parallel/_functions.py:71: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.\n",
+      "  warnings.warn(\n",
+      "/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/torch/nn/parallel/_functions.py:71: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.\n",
+      "  warnings.warn(\n",
+      "/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/torch/nn/parallel/_functions.py:71: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.\n",
+      "  warnings.warn(\n",
+      "/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/torch/nn/parallel/_functions.py:71: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.\n",
+      "  warnings.warn(\n",
+      "/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/torch/nn/parallel/_functions.py:71: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.\n",
+      "  warnings.warn(\n",
+      "/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/torch/nn/parallel/_functions.py:71: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.\n",
+      "  warnings.warn(\n",
+      "/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/torch/nn/parallel/_functions.py:71: UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; will instead unsqueeze and return a vector.\n",
+      "  warnings.warn(\n"
+     ]
+    },
+    {
+     "ename": "KeyboardInterrupt",
+     "evalue": "",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[31m---------------------------------------------------------------------------\u001b[39m",
+      "\u001b[31mKeyboardInterrupt\u001b[39m                         Traceback (most recent call last)",
+      "\u001b[36mCell\u001b[39m\u001b[36m \u001b[39m\u001b[32mIn[1]\u001b[39m\u001b[32m, line 198\u001b[39m\n\u001b[32m    188\u001b[39m trainer = Trainer(\n\u001b[32m    189\u001b[39m     model=model,\n\u001b[32m    190\u001b[39m     args=training_args,\n\u001b[32m   (...)\u001b[39m\u001b[32m    194\u001b[39m     compute_metrics=compute_metrics,\n\u001b[32m    195\u001b[39m )\n\u001b[32m    197\u001b[39m \u001b[38;5;66;03m# 10. Train & save\u001b[39;00m\n\u001b[32m--> \u001b[39m\u001b[32m198\u001b[39m \u001b[43mtrainer\u001b[49m\u001b[43m.\u001b[49m\u001b[43mtrain\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n\u001b[32m    199\u001b[39m trainer.save_model(\u001b[33m\"\u001b[39m\u001b[33mpl-bert-final\u001b[39m\u001b[33m\"\u001b[39m)\n\u001b[32m    200\u001b[39m tokenizer.save_pretrained(\u001b[33m\"\u001b[39m\u001b[33mpl-bert-final\u001b[39m\u001b[33m\"\u001b[39m)\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/transformers/trainer.py:2206\u001b[39m, in \u001b[36mTrainer.train\u001b[39m\u001b[34m(self, resume_from_checkpoint, trial, ignore_keys_for_eval, **kwargs)\u001b[39m\n\u001b[32m   2204\u001b[39m         hf_hub_utils.enable_progress_bars()\n\u001b[32m   2205\u001b[39m \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[32m-> \u001b[39m\u001b[32m2206\u001b[39m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43minner_training_loop\u001b[49m\u001b[43m(\u001b[49m\n\u001b[32m   2207\u001b[39m \u001b[43m        \u001b[49m\u001b[43margs\u001b[49m\u001b[43m=\u001b[49m\u001b[43margs\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m   2208\u001b[39m \u001b[43m        \u001b[49m\u001b[43mresume_from_checkpoint\u001b[49m\u001b[43m=\u001b[49m\u001b[43mresume_from_checkpoint\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m   2209\u001b[39m \u001b[43m        \u001b[49m\u001b[43mtrial\u001b[49m\u001b[43m=\u001b[49m\u001b[43mtrial\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m   2210\u001b[39m \u001b[43m        \u001b[49m\u001b[43mignore_keys_for_eval\u001b[49m\u001b[43m=\u001b[49m\u001b[43mignore_keys_for_eval\u001b[49m\u001b[43m,\u001b[49m\n\u001b[32m   2211\u001b[39m \u001b[43m    \u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/transformers/trainer.py:2502\u001b[39m, in \u001b[36mTrainer._inner_training_loop\u001b[39m\u001b[34m(self, batch_size, args, resume_from_checkpoint, trial, ignore_keys_for_eval)\u001b[39m\n\u001b[32m   2500\u001b[39m update_step += \u001b[32m1\u001b[39m\n\u001b[32m   2501\u001b[39m num_batches = args.gradient_accumulation_steps \u001b[38;5;28;01mif\u001b[39;00m update_step != (total_updates - \u001b[32m1\u001b[39m) \u001b[38;5;28;01melse\u001b[39;00m remainder\n\u001b[32m-> \u001b[39m\u001b[32m2502\u001b[39m batch_samples, num_items_in_batch = \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43mget_batch_samples\u001b[49m\u001b[43m(\u001b[49m\u001b[43mepoch_iterator\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mnum_batches\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43margs\u001b[49m\u001b[43m.\u001b[49m\u001b[43mdevice\u001b[49m\u001b[43m)\u001b[49m\n\u001b[32m   2503\u001b[39m \u001b[38;5;28;01mfor\u001b[39;00m i, inputs \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28menumerate\u001b[39m(batch_samples):\n\u001b[32m   2504\u001b[39m     step += \u001b[32m1\u001b[39m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/transformers/trainer.py:5300\u001b[39m, in \u001b[36mTrainer.get_batch_samples\u001b[39m\u001b[34m(self, epoch_iterator, num_batches, device)\u001b[39m\n\u001b[32m   5298\u001b[39m \u001b[38;5;28;01mfor\u001b[39;00m _ \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28mrange\u001b[39m(num_batches):\n\u001b[32m   5299\u001b[39m     \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[32m-> \u001b[39m\u001b[32m5300\u001b[39m         batch_samples.append(\u001b[38;5;28;43mnext\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43mepoch_iterator\u001b[49m\u001b[43m)\u001b[49m)\n\u001b[32m   5301\u001b[39m     \u001b[38;5;28;01mexcept\u001b[39;00m \u001b[38;5;167;01mStopIteration\u001b[39;00m:\n\u001b[32m   5302\u001b[39m         \u001b[38;5;28;01mbreak\u001b[39;00m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/accelerate/data_loader.py:578\u001b[39m, in \u001b[36mDataLoaderShard.__iter__\u001b[39m\u001b[34m(self)\u001b[39m\n\u001b[32m    576\u001b[39m     current_batch = send_to_device(current_batch, \u001b[38;5;28mself\u001b[39m.device, non_blocking=\u001b[38;5;28mself\u001b[39m._non_blocking)\n\u001b[32m    577\u001b[39m \u001b[38;5;28mself\u001b[39m._update_state_dict()\n\u001b[32m--> \u001b[39m\u001b[32m578\u001b[39m next_batch = \u001b[38;5;28;43mnext\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43mdataloader_iter\u001b[49m\u001b[43m)\u001b[49m\n\u001b[32m    579\u001b[39m \u001b[38;5;28;01mif\u001b[39;00m batch_index >= \u001b[38;5;28mself\u001b[39m.skip_batches:\n\u001b[32m    580\u001b[39m     \u001b[38;5;28;01myield\u001b[39;00m current_batch\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/torch/utils/data/dataloader.py:733\u001b[39m, in \u001b[36m_BaseDataLoaderIter.__next__\u001b[39m\u001b[34m(self)\u001b[39m\n\u001b[32m    730\u001b[39m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mself\u001b[39m._sampler_iter \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m:\n\u001b[32m    731\u001b[39m     \u001b[38;5;66;03m# TODO(https://github.com/pytorch/pytorch/issues/76750)\u001b[39;00m\n\u001b[32m    732\u001b[39m     \u001b[38;5;28mself\u001b[39m._reset()  \u001b[38;5;66;03m# type: ignore[call-arg]\u001b[39;00m\n\u001b[32m--> \u001b[39m\u001b[32m733\u001b[39m data = \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43m_next_data\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n\u001b[32m    734\u001b[39m \u001b[38;5;28mself\u001b[39m._num_yielded += \u001b[32m1\u001b[39m\n\u001b[32m    735\u001b[39m \u001b[38;5;28;01mif\u001b[39;00m (\n\u001b[32m    736\u001b[39m     \u001b[38;5;28mself\u001b[39m._dataset_kind == _DatasetKind.Iterable\n\u001b[32m    737\u001b[39m     \u001b[38;5;129;01mand\u001b[39;00m \u001b[38;5;28mself\u001b[39m._IterableDataset_len_called \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m\n\u001b[32m    738\u001b[39m     \u001b[38;5;129;01mand\u001b[39;00m \u001b[38;5;28mself\u001b[39m._num_yielded > \u001b[38;5;28mself\u001b[39m._IterableDataset_len_called\n\u001b[32m    739\u001b[39m ):\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/torch/utils/data/dataloader.py:789\u001b[39m, in \u001b[36m_SingleProcessDataLoaderIter._next_data\u001b[39m\u001b[34m(self)\u001b[39m\n\u001b[32m    787\u001b[39m \u001b[38;5;28;01mdef\u001b[39;00m\u001b[38;5;250m \u001b[39m\u001b[34m_next_data\u001b[39m(\u001b[38;5;28mself\u001b[39m):\n\u001b[32m    788\u001b[39m     index = \u001b[38;5;28mself\u001b[39m._next_index()  \u001b[38;5;66;03m# may raise StopIteration\u001b[39;00m\n\u001b[32m--> \u001b[39m\u001b[32m789\u001b[39m     data = \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43m_dataset_fetcher\u001b[49m\u001b[43m.\u001b[49m\u001b[43mfetch\u001b[49m\u001b[43m(\u001b[49m\u001b[43mindex\u001b[49m\u001b[43m)\u001b[49m  \u001b[38;5;66;03m# may raise StopIteration\u001b[39;00m\n\u001b[32m    790\u001b[39m     \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mself\u001b[39m._pin_memory:\n\u001b[32m    791\u001b[39m         data = _utils.pin_memory.pin_memory(data, \u001b[38;5;28mself\u001b[39m._pin_memory_device)\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/torch/utils/data/_utils/fetch.py:50\u001b[39m, in \u001b[36m_MapDatasetFetcher.fetch\u001b[39m\u001b[34m(self, possibly_batched_index)\u001b[39m\n\u001b[32m     48\u001b[39m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mself\u001b[39m.auto_collation:\n\u001b[32m     49\u001b[39m     \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mhasattr\u001b[39m(\u001b[38;5;28mself\u001b[39m.dataset, \u001b[33m\"\u001b[39m\u001b[33m__getitems__\u001b[39m\u001b[33m\"\u001b[39m) \u001b[38;5;129;01mand\u001b[39;00m \u001b[38;5;28mself\u001b[39m.dataset.__getitems__:\n\u001b[32m---> \u001b[39m\u001b[32m50\u001b[39m         data = \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43mdataset\u001b[49m\u001b[43m.\u001b[49m\u001b[43m__getitems__\u001b[49m\u001b[43m(\u001b[49m\u001b[43mpossibly_batched_index\u001b[49m\u001b[43m)\u001b[49m\n\u001b[32m     51\u001b[39m     \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[32m     52\u001b[39m         data = [\u001b[38;5;28mself\u001b[39m.dataset[idx] \u001b[38;5;28;01mfor\u001b[39;00m idx \u001b[38;5;129;01min\u001b[39;00m possibly_batched_index]\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/datasets/arrow_dataset.py:2863\u001b[39m, in \u001b[36mDataset.__getitems__\u001b[39m\u001b[34m(self, keys)\u001b[39m\n\u001b[32m   2861\u001b[39m \u001b[38;5;28;01mdef\u001b[39;00m\u001b[38;5;250m \u001b[39m\u001b[34m__getitems__\u001b[39m(\u001b[38;5;28mself\u001b[39m, keys: \u001b[38;5;28mlist\u001b[39m) -> \u001b[38;5;28mlist\u001b[39m:\n\u001b[32m   2862\u001b[39m \u001b[38;5;250m    \u001b[39m\u001b[33;03m\"\"\"Can be used to get a batch using a list of integers indices.\"\"\"\u001b[39;00m\n\u001b[32m-> \u001b[39m\u001b[32m2863\u001b[39m     batch = \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[34;43m__getitem__\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43mkeys\u001b[49m\u001b[43m)\u001b[49m\n\u001b[32m   2864\u001b[39m     n_examples = \u001b[38;5;28mlen\u001b[39m(batch[\u001b[38;5;28mnext\u001b[39m(\u001b[38;5;28miter\u001b[39m(batch))])\n\u001b[32m   2865\u001b[39m     \u001b[38;5;28;01mreturn\u001b[39;00m [{col: array[i] \u001b[38;5;28;01mfor\u001b[39;00m col, array \u001b[38;5;129;01min\u001b[39;00m batch.items()} \u001b[38;5;28;01mfor\u001b[39;00m i \u001b[38;5;129;01min\u001b[39;00m \u001b[38;5;28mrange\u001b[39m(n_examples)]\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/datasets/arrow_dataset.py:2859\u001b[39m, in \u001b[36mDataset.__getitem__\u001b[39m\u001b[34m(self, key)\u001b[39m\n\u001b[32m   2857\u001b[39m     \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mself\u001b[39m._format_type \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;28mself\u001b[39m._format_type \u001b[38;5;129;01mnot\u001b[39;00m \u001b[38;5;129;01min\u001b[39;00m (\u001b[33m\"\u001b[39m\u001b[33marrow\u001b[39m\u001b[33m\"\u001b[39m, \u001b[33m\"\u001b[39m\u001b[33mpandas\u001b[39m\u001b[33m\"\u001b[39m, \u001b[33m\"\u001b[39m\u001b[33mpolars\u001b[39m\u001b[33m\"\u001b[39m):\n\u001b[32m   2858\u001b[39m         \u001b[38;5;28;01mreturn\u001b[39;00m Column(\u001b[38;5;28mself\u001b[39m, key)\n\u001b[32m-> \u001b[39m\u001b[32m2859\u001b[39m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43m_getitem\u001b[49m\u001b[43m(\u001b[49m\u001b[43mkey\u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/datasets/arrow_dataset.py:2841\u001b[39m, in \u001b[36mDataset._getitem\u001b[39m\u001b[34m(self, key, **kwargs)\u001b[39m\n\u001b[32m   2839\u001b[39m formatter = get_formatter(format_type, features=\u001b[38;5;28mself\u001b[39m._info.features, **format_kwargs)\n\u001b[32m   2840\u001b[39m pa_subtable = query_table(\u001b[38;5;28mself\u001b[39m._data, key, indices=\u001b[38;5;28mself\u001b[39m._indices)\n\u001b[32m-> \u001b[39m\u001b[32m2841\u001b[39m formatted_output = \u001b[43mformat_table\u001b[49m\u001b[43m(\u001b[49m\n\u001b[32m   2842\u001b[39m \u001b[43m    \u001b[49m\u001b[43mpa_subtable\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mkey\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mformatter\u001b[49m\u001b[43m=\u001b[49m\u001b[43mformatter\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mformat_columns\u001b[49m\u001b[43m=\u001b[49m\u001b[43mformat_columns\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43moutput_all_columns\u001b[49m\u001b[43m=\u001b[49m\u001b[43moutput_all_columns\u001b[49m\n\u001b[32m   2843\u001b[39m \u001b[43m\u001b[49m\u001b[43m)\u001b[49m\n\u001b[32m   2844\u001b[39m \u001b[38;5;28;01mreturn\u001b[39;00m formatted_output\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/datasets/formatting/formatting.py:657\u001b[39m, in \u001b[36mformat_table\u001b[39m\u001b[34m(table, key, formatter, format_columns, output_all_columns)\u001b[39m\n\u001b[32m    655\u001b[39m python_formatter = PythonFormatter(features=formatter.features)\n\u001b[32m    656\u001b[39m \u001b[38;5;28;01mif\u001b[39;00m format_columns \u001b[38;5;129;01mis\u001b[39;00m \u001b[38;5;28;01mNone\u001b[39;00m:\n\u001b[32m--> \u001b[39m\u001b[32m657\u001b[39m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mformatter\u001b[49m\u001b[43m(\u001b[49m\u001b[43mpa_table\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mquery_type\u001b[49m\u001b[43m=\u001b[49m\u001b[43mquery_type\u001b[49m\u001b[43m)\u001b[49m\n\u001b[32m    658\u001b[39m \u001b[38;5;28;01melif\u001b[39;00m query_type == \u001b[33m\"\u001b[39m\u001b[33mcolumn\u001b[39m\u001b[33m\"\u001b[39m:\n\u001b[32m    659\u001b[39m     \u001b[38;5;28;01mif\u001b[39;00m key \u001b[38;5;129;01min\u001b[39;00m format_columns:\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/datasets/formatting/formatting.py:414\u001b[39m, in \u001b[36mFormatter.__call__\u001b[39m\u001b[34m(self, pa_table, query_type)\u001b[39m\n\u001b[32m    412\u001b[39m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28mself\u001b[39m.format_column(pa_table)\n\u001b[32m    413\u001b[39m \u001b[38;5;28;01melif\u001b[39;00m query_type == \u001b[33m\"\u001b[39m\u001b[33mbatch\u001b[39m\u001b[33m\"\u001b[39m:\n\u001b[32m--> \u001b[39m\u001b[32m414\u001b[39m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43mformat_batch\u001b[49m\u001b[43m(\u001b[49m\u001b[43mpa_table\u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/datasets/formatting/formatting.py:470\u001b[39m, in \u001b[36mPythonFormatter.format_batch\u001b[39m\u001b[34m(self, pa_table)\u001b[39m\n\u001b[32m    468\u001b[39m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;28mself\u001b[39m.lazy:\n\u001b[32m    469\u001b[39m     \u001b[38;5;28;01mreturn\u001b[39;00m LazyBatch(pa_table, \u001b[38;5;28mself\u001b[39m)\n\u001b[32m--> \u001b[39m\u001b[32m470\u001b[39m batch = \u001b[38;5;28;43mself\u001b[39;49m\u001b[43m.\u001b[49m\u001b[43mpython_arrow_extractor\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[43m.\u001b[49m\u001b[43mextract_batch\u001b[49m\u001b[43m(\u001b[49m\u001b[43mpa_table\u001b[49m\u001b[43m)\u001b[49m\n\u001b[32m    471\u001b[39m batch = \u001b[38;5;28mself\u001b[39m.python_features_decoder.decode_batch(batch)\n\u001b[32m    472\u001b[39m \u001b[38;5;28;01mreturn\u001b[39;00m batch\n",
+      "\u001b[36mFile \u001b[39m\u001b[32m/dev/hdd/Users/Oron/tts/tts-venv/lib/python3.12/site-packages/datasets/formatting/formatting.py:149\u001b[39m, in \u001b[36mPythonArrowExtractor.extract_batch\u001b[39m\u001b[34m(self, pa_table)\u001b[39m\n\u001b[32m    148\u001b[39m \u001b[38;5;28;01mdef\u001b[39;00m\u001b[38;5;250m \u001b[39m\u001b[34mextract_batch\u001b[39m(\u001b[38;5;28mself\u001b[39m, pa_table: pa.Table) -> \u001b[38;5;28mdict\u001b[39m:\n\u001b[32m--> \u001b[39m\u001b[32m149\u001b[39m     \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[43mpa_table\u001b[49m\u001b[43m.\u001b[49m\u001b[43mto_pydict\u001b[49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\n",
+      "\u001b[31mKeyboardInterrupt\u001b[39m: "
+     ]
+    }
+   ],
+   "source": [
+    "#!/usr/bin/env python3\n",
+    "# pl-bert_training.py\n",
+    "\n",
+    "from datasets import load_dataset\n",
+    "from transformers import (\n",
+    "    BertTokenizerFast,\n",
+    "    BertConfig,\n",
+    "    BertForMaskedLM,\n",
+    "    DataCollatorForLanguageModeling,\n",
+    "    Trainer,\n",
+    "    TrainingArguments\n",
+    ")\n",
+    "from collections import Counter\n",
+    "import numpy as np\n",
+    "import math\n",
+    "from evaluate import load  # use the 'evaluate' library for metrics\n",
+    "\n",
+    "# 1. Load exactly the first 100000 lines and slice into train (0-89999) and eval (90000-99999)\n",
+    "full_ds  = load_dataset(\"thewh1teagle/phonikud-phonemes-data\", split=\"train[:5000000]\")\n",
+    "ds_train = full_ds.select(range(0, 4700000))      # first 90k examples\n",
+    "ds_eval  = full_ds.select(range(4700000, 5000000)) # last 10k examples\n",
+    "\n",
+    "# 2. Split each raw line (text\\tphonemes) into its own column\n",
+    "def split_tab(examples):\n",
+    "    heb, phon = [], []\n",
+    "    for line in examples[\"text\"]:\n",
+    "        h, p = line.split(\"\\t\")\n",
+    "        heb.append(h)\n",
+    "        phon.append(p)\n",
+    "    return {\"hebrew\": heb, \"phonemes\": phon}\n",
+    "\n",
+    "# apply split_tab to both splits\n",
+    "ds_train = ds_train.map(\n",
+    "    split_tab,\n",
+    "    batched=True,\n",
+    "    remove_columns=[\"text\"],\n",
+    ")\n",
+    "ds_eval = ds_eval.map(\n",
+    "    split_tab,\n",
+    "    batched=True,\n",
+    "    remove_columns=[\"text\"],\n",
+    ")\n",
+    "\n",
+    "# 3. Build vocab from provided symbol sets\n",
+    "punctuation = ';:,.!?¡¿—…\"«»“” ’'\n",
+    "letters     = \"ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz\"\n",
+    "letters_ipa = (\n",
+    "    \"ɑɐɒæɓʙβɔɕçɗɖðʤəɘɚɛɜɝɞɟʄɡɠɢʛɦɧħɥʜɨɪʝɭɬɫɮʟɱɯ혂ŋɳɲɴøɵɸθœɶʘɹɺɾɻʀʁɽʂʃʈʧʉʊʋⱱʌɣɤʍχʎʏʑʐʒʔʡʕʢǀǁǂǃˈˌːˑʼʴʰʱʲʷˠˤ˞↓↑→↗↘̩ᵻ\"\n",
+    ")\n",
+    "extend = \"\"\n",
+    "specials = [\"[PAD]\",\"[UNK]\",\"[CLS]\",\"[SEP]\",\"[MASK]\"]\n",
+    "all_chars = list(punctuation) + list(letters) + list(letters_ipa) + list(extend)\n",
+    "seen = set(); vocab_chars = []\n",
+    "for c in all_chars:\n",
+    "    if c not in seen:\n",
+    "        seen.add(c)\n",
+    "        vocab_chars.append(c)\n",
+    "with open(\"vocab.txt\", \"w\", encoding=\"utf-8\") as vf:\n",
+    "    for tok in specials:\n",
+    "        vf.write(tok + \"\\n\")\n",
+    "    for c in vocab_chars:\n",
+    "        vf.write(c + \"\\n\")\n",
+    "\n",
+    "# 4. Init tokenizer & config\n",
+    "tokenizer = BertTokenizerFast(\n",
+    "    vocab_file=\"vocab.txt\",\n",
+    "    unk_token=\"[UNK]\", pad_token=\"[PAD]\", cls_token=\"[CLS]\",\n",
+    "    sep_token=\"[SEP]\", mask_token=\"[MASK]\",\n",
+    "    do_lower_case=False, strip_accents=False, tokenize_chinese_chars=False,\n",
+    ")\n",
+    "# config = BertConfig(\n",
+    "#     vocab_size=len(tokenizer),\n",
+    "#     hidden_size=256,\n",
+    "#     num_hidden_layers=6,\n",
+    "#     num_attention_heads=8,\n",
+    "#     intermediate_size=1024,\n",
+    "#     max_position_embeddings=512,\n",
+    "# )\n",
+    "\n",
+    "from transformers import BertConfig\n",
+    "\n",
+    "# config = BertConfig(\n",
+    "#     vocab_size=len(tokenizer),       # your vocab size\n",
+    "#     hidden_size=512,                 # ← was 256\n",
+    "#     num_hidden_layers=6,             # same depth\n",
+    "#     num_attention_heads=8,           # 512 % 8 == 0 → 64‑dim per head\n",
+    "#     intermediate_size=2048,          # typically 4× hidden_size\n",
+    "#     max_position_embeddings=512,\n",
+    "# )\n",
+    "\n",
+    "config = BertConfig(\n",
+    "    vocab_size              = len(tokenizer),   # your phoneme vocab (178)\n",
+    "    hidden_size             = 768,              # must match TTS hidden_size\n",
+    "    num_hidden_layers       = 12,               # must match TTS num_hidden_layers\n",
+    "    num_attention_heads     = 12,               # must match TTS num_attention_heads\n",
+    "    intermediate_size       = 2048,             # typically 4× hidden_size\n",
+    "    max_position_embeddings = 512,              # same as TTS max_position_embeddings\n",
+    "    hidden_dropout_prob     = 0.1,              # dropout for embeddings & attention\n",
+    "    attention_probs_dropout_prob = 0.1,         # dropout for attention scores\n",
+    ")\n",
+    "\n",
+    "\n",
+    "# config = BertConfig(\n",
+    "#     num_hidden_layers=12,\n",
+    "#     hidden_size=768,\n",
+    "#     intermediate_size=2048,\n",
+    "#     num_attention_heads=12,\n",
+    "#     max_position_embeddings=512,\n",
+    "# )\n",
+    "\n",
+    "\n",
+    "# 5. Tokenize phonemes\n",
+    "def tokenize_fn(examples):\n",
+    "    return tokenizer(\n",
+    "        examples[\"phonemes\"],\n",
+    "        return_attention_mask=True,\n",
+    "        add_special_tokens=True,\n",
+    "    )\n",
+    "\n",
+    "tokenized_train = ds_train.map(\n",
+    "    tokenize_fn,\n",
+    "    batched=True,\n",
+    "    remove_columns=[\"hebrew\",\"phonemes\"]\n",
+    ")\n",
+    "tokenized_eval  = ds_eval.map(\n",
+    "    tokenize_fn,\n",
+    "    batched=True,\n",
+    "    remove_columns=[\"hebrew\",\"phonemes\"]\n",
+    ")\n",
+    "\n",
+    "# 6. Chunk into fixed-length blocks for MLM\n",
+    "block_size = 128\n",
+    "def group_texts(examples):\n",
+    "    all_ids = sum(examples[\"input_ids\"], [])\n",
+    "    result = {\"input_ids\":[], \"attention_mask\":[]}\n",
+    "    for i in range(0, len(all_ids) - block_size + 1, block_size):\n",
+    "        chunk = all_ids[i : i + block_size]\n",
+    "        result[\"input_ids\"].append(chunk)\n",
+    "        result[\"attention_mask\"].append([1] * block_size)\n",
+    "    return result\n",
+    "\n",
+    "lm_train = tokenized_train.map(\n",
+    "    group_texts,\n",
+    "    batched=True,\n",
+    "    remove_columns=list(tokenized_train.column_names),\n",
+    ")\n",
+    "lm_eval  = tokenized_eval.map(\n",
+    "    group_texts,\n",
+    "    batched=True,\n",
+    "    remove_columns=list(tokenized_eval.column_names),\n",
+    ")\n",
+    "\n",
+    "# 7. Data collator for MLM\n",
+    "data_collator = DataCollatorForLanguageModeling(\n",
+    "    tokenizer=tokenizer, mlm=True, mlm_probability=0.15\n",
+    ")\n",
+    "\n",
+    "# 8. Metrics for masked-token accuracy + perplexity\n",
+    "accuracy_metric = load(\"accuracy\")\n",
+    "def compute_metrics(eval_pred):\n",
+    "    logits, labels = eval_pred.predictions, eval_pred.label_ids\n",
+    "    logits = logits.reshape(-1, logits.shape[-1])\n",
+    "    labels = labels.reshape(-1)\n",
+    "    mask = labels != -100\n",
+    "\n",
+    "    preds = np.argmax(logits, axis=-1)\n",
+    "    acc = accuracy_metric.compute(\n",
+    "        predictions=preds[mask], references=labels[mask]\n",
+    "    )[\"accuracy\"]\n",
+    "\n",
+    "    max_logits  = np.max(logits[mask], axis=-1, keepdims=True)\n",
+    "    stable      = logits[mask] - max_logits\n",
+    "    logsumexp   = max_logits.flatten() + np.log(np.exp(stable).sum(axis=-1))\n",
+    "    true_logits = logits[mask, labels[mask]]\n",
+    "    xent        = -np.mean(true_logits - logsumexp)\n",
+    "    ppl         = float(np.exp(xent))\n",
+    "\n",
+    "    return {\"accuracy\": acc, \"perplexity\": ppl}\n",
+    "\n",
+    "# 9. Model & Trainer\n",
+    "model = BertForMaskedLM(config)\n",
+    "training_args = TrainingArguments(\n",
+    "    output_dir=\"pl-bert\",\n",
+    "    overwrite_output_dir=True,\n",
+    "    num_train_epochs=10,\n",
+    "    per_device_train_batch_size=96,\n",
+    "    warmup_steps=400,\n",
+    "    per_device_eval_batch_size=196,\n",
+    "    logging_strategy=\"steps\",\n",
+    "    eval_strategy=\"epoch\",\n",
+    "    save_strategy=\"epoch\",\n",
+    "    logging_steps=25,\n",
+    "    learning_rate=1e-5,\n",
+    "    weight_decay=0.001,\n",
+    "    push_to_hub=False,\n",
+    "    # no_cuda=True,\n",
+    "    eval_accumulation_steps=1,\n",
+    "    save_total_limit=3,\n",
+    ")\n",
+    "trainer = Trainer(\n",
+    "    model=model,\n",
+    "    args=training_args,\n",
+    "    data_collator=data_collator,\n",
+    "    train_dataset=lm_train,\n",
+    "    eval_dataset=lm_eval,\n",
+    "    compute_metrics=compute_metrics,\n",
+    ")\n",
+    "\n",
+    "# 10. Train & save\n",
+    "trainer.train()\n",
+    "trainer.save_model(\"pl-bert-final\")\n",
+    "tokenizer.save_pretrained(\"pl-bert-final\")\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#!/usr/bin/env python3\n",
+    "# inference_plbert_full.py\n",
+    "\n",
+    "import torch\n",
+    "from transformers import BertTokenizerFast, BertModel\n",
+    "from phonikud import phonemize  # make sure phonikud is in your PYTHONPATH\n",
+    "\n",
+    "MODEL_DIR = \"/dev/hdd/Users/Oron/tts/pl-bert/pl-bert/checkpoint-300\"\n",
+    "\n",
+    "def load_encoder(model_dir=MODEL_DIR):\n",
+    "    tokenizer = BertTokenizerFast.from_pretrained(model_dir)\n",
+    "    encoder   = BertModel.from_pretrained(model_dir).eval()\n",
+    "    return tokenizer, encoder\n",
+    "\n",
+    "def infer_embeddings(hebrew_niqqud: str, tokenizer, encoder):\n",
+    "    # 1) Grapheme → Phoneme\n",
+    "    phoneme_str = phonemize(hebrew_niqqud)\n",
+    "    print(\"Phoneme string:\\n\", phoneme_str, \"\\n\")\n",
+    "\n",
+    "    # 2) Split into single-character tokens\n",
+    "    chars = list(phoneme_str)\n",
+    "    inputs = tokenizer(\n",
+    "        chars,\n",
+    "        is_split_into_words=True,\n",
+    "        add_special_tokens=True,\n",
+    "        return_tensors=\"pt\"\n",
+    "    )\n",
+    "    print(\"Tokens:\", tokenizer.convert_ids_to_tokens(inputs.input_ids[0]), \"\\n\")\n",
+    "\n",
+    "    # 3) Run through BERT encoder\n",
+    "    with torch.no_grad():\n",
+    "        outputs    = encoder(**inputs)\n",
+    "    embeddings = outputs.last_hidden_state  # (1, seq_len, hidden_size)\n",
+    "    print(\"Embeddings shape:\", embeddings.shape)\n",
+    "    return embeddings\n",
+    "\n",
+    "if __name__ == \"__main__\":\n",
+    "    tokenizer, encoder = load_encoder()\n",
+    "\n",
+    "    sample_hebrew = \"הַאִם זֶה אֲנַ֫חְנוּ וְֽ|הֵם אוֹ כֻּו֯לָּ֫נוּ בְּֽיַחַד?\"\n",
+    "    embeddings = infer_embeddings(sample_hebrew, tokenizer, encoder)\n",
+    "\n",
+    "    # Optionally, save embeddings to disk:\n",
+    "    torch.save(embeddings, \"sample_embeddings.pt\")\n",
+    "    print(\"\\nSaved embeddings → sample_embeddings.pt\")\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "#!/usr/bin/env python3\n",
+    "# g2p_evaluation.py\n",
+    "\n",
+    "import torch\n",
+    "from torch.utils.data import DataLoader\n",
+    "from datasets import load_dataset\n",
+    "from transformers import BertModel, BertTokenizerFast\n",
+    "from torch import nn\n",
+    "from tqdm import tqdm\n",
+    "\n",
+    "# ─── CONFIGURATION ────────────────────────────────────────────────────\n",
+    "BERT_MODEL_PATH = \"/dev/hdd/Users/Oron/tts/pl-bert/pl-bert/checkpoint-746\"  # Your trained BERT model path\n",
+    "BATCH_SIZE = 196\n",
+    "EPOCHS = 5\n",
+    "LEARNING_RATE = 1e-4\n",
+    "DEVICE = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
+    "FREEZE_BERT = True  # Set to True to freeze BERT weights\n",
+    "\n",
+    "# ─── LOAD DATASET ─────────────────────────────────────────────────────\n",
+    "full_ds = load_dataset(\"thewh1teagle/phonikud-phonemes-data\", split=\"train[:1000000]\")\n",
+    "ds_train = full_ds.select(range(0, 900000))\n",
+    "ds_eval = full_ds.select(range(900000, 1000000))\n",
+    "\n",
+    "# ─── SPLIT INTO INPUT AND TARGET ──────────────────────────────────────\n",
+    "def split_data(example):\n",
+    "    text, phonemes = example[\"text\"].split(\"\\t\")\n",
+    "    return {\"text\": text, \"phonemes\": phonemes}\n",
+    "\n",
+    "ds_train = ds_train.map(split_data, remove_columns=[\"text\"])\n",
+    "ds_eval = ds_eval.map(split_data, remove_columns=[\"text\"])\n",
+    "\n",
+    "# ─── TOKENIZATION ─────────────────────────────────────────────────────\n",
+    "tokenizer = BertTokenizerFast.from_pretrained(BERT_MODEL_PATH)\n",
+    "\n",
+    "def tokenize(batch):\n",
+    "    inputs = tokenizer(batch[\"text\"], padding='max_length', truncation=True, max_length=128)\n",
+    "    targets = tokenizer(batch[\"phonemes\"], padding='max_length', truncation=True, max_length=128)\n",
+    "    inputs[\"labels\"] = targets[\"input_ids\"]\n",
+    "    return inputs\n",
+    "\n",
+    "train_enc = ds_train.map(tokenize, batched=True, remove_columns=[\"text\", \"phonemes\"])\n",
+    "eval_enc = ds_eval.map(tokenize, batched=True, remove_columns=[\"text\", \"phonemes\"])\n",
+    "\n",
+    "train_enc.set_format(type=\"torch\")\n",
+    "eval_enc.set_format(type=\"torch\")\n",
+    "\n",
+    "train_loader = DataLoader(train_enc, batch_size=BATCH_SIZE, shuffle=True)\n",
+    "eval_loader = DataLoader(eval_enc, batch_size=BATCH_SIZE)\n",
+    "\n",
+    "# ─── MODEL DEFINITION ──────────────────────────────────────────────────\n",
+    "class G2PModel(nn.Module):\n",
+    "    def __init__(self, bert_path, vocab_size, freeze_bert):\n",
+    "        super().__init__()\n",
+    "        self.bert = BertModel.from_pretrained(bert_path)\n",
+    "        if freeze_bert:\n",
+    "            for param in self.bert.parameters():\n",
+    "                param.requires_grad = False\n",
+    "        self.linear = nn.Linear(self.bert.config.hidden_size, vocab_size)\n",
+    "\n",
+    "    def forward(self, input_ids, attention_mask):\n",
+    "        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)\n",
+    "        logits = self.linear(outputs.last_hidden_state)\n",
+    "        return logits\n",
+    "\n",
+    "model = G2PModel(BERT_MODEL_PATH, len(tokenizer), FREEZE_BERT).to(DEVICE)\n",
+    "\n",
+    "# ─── TRAINING SETUP ────────────────────────────────────────────────────\n",
+    "optimizer = torch.optim.AdamW(filter(lambda p: p.requires_grad, model.parameters()), lr=LEARNING_RATE)\n",
+    "criterion = nn.CrossEntropyLoss(ignore_index=tokenizer.pad_token_id)\n",
+    "\n",
+    "# ─── TRAINING LOOP ─────────────────────────────────────────────────────\n",
+    "for epoch in range(EPOCHS):\n",
+    "    model.train()\n",
+    "    total_loss = 0\n",
+    "    progress = tqdm(train_loader, desc=f\"Epoch {epoch+1}/{EPOCHS}\")\n",
+    "    for batch in progress:\n",
+    "        input_ids = batch[\"input_ids\"].to(DEVICE)\n",
+    "        attention_mask = batch[\"attention_mask\"].to(DEVICE)\n",
+    "        labels = batch[\"labels\"].to(DEVICE)\n",
+    "\n",
+    "        optimizer.zero_grad()\n",
+    "        logits = model(input_ids, attention_mask)\n",
+    "\n",
+    "        loss = criterion(logits.view(-1, logits.size(-1)), labels.view(-1))\n",
+    "        loss.backward()\n",
+    "        optimizer.step()\n",
+    "\n",
+    "        total_loss += loss.item()\n",
+    "        progress.set_postfix(avg_loss=total_loss / (progress.n + 1))\n",
+    "\n",
+    "# ─── EVALUATION LOOP ───────────────────────────────────────────────────\n",
+    "    model.eval()\n",
+    "    total_loss = 0\n",
+    "    total_count = 0\n",
+    "    top1_correct = 0\n",
+    "    top5_correct = 0\n",
+    "    with torch.no_grad():\n",
+    "        progress = tqdm(eval_loader, desc=\"Evaluating\")\n",
+    "        for batch in progress:\n",
+    "            input_ids      = batch[\"input_ids\"].to(DEVICE)\n",
+    "            attention_mask = batch[\"attention_mask\"].to(DEVICE)\n",
+    "            labels         = batch[\"labels\"].to(DEVICE)\n",
+    "\n",
+    "            logits = model(input_ids, attention_mask)\n",
+    "            loss   = criterion(logits.view(-1, logits.size(-1)), labels.view(-1))\n",
+    "            total_loss += loss.item()\n",
+    "\n",
+    "            # Top‑1\n",
+    "            top1 = logits.argmax(dim=-1)\n",
+    "            # Top‑5 (מימד אחרון = 5 אפשרויות)\n",
+    "            top5 = logits.topk(5, dim=-1).indices        # [B, T, 5]\n",
+    "\n",
+    "            mask = labels != tokenizer.pad_token_id      # מתעלמים מ‑[PAD]\n",
+    "            total_count += mask.sum().item()\n",
+    "\n",
+    "            top1_correct += ((top1 == labels) & mask).sum().item()\n",
+    "            # להפוך את labels ל‑[B, T, 1] ואז להשוות מול ‑top5\n",
+    "            top5_correct += ((top5 == labels.unsqueeze(-1)) & mask.unsqueeze(-1)).any(dim=-1).sum().item()\n",
+    "\n",
+    "            avg_loss = total_loss / (progress.n + 1)\n",
+    "            g1_acc   = top1_correct / total_count\n",
+    "            g5_acc   = top5_correct / total_count\n",
+    "            progress.set_postfix(avg_loss=avg_loss, g1_acc=g1_acc, g5_acc=g5_acc)\n",
+    "\n",
+    "    if total_count:\n",
+    "        print(f\"Final Evaluation Loss: {avg_loss:.4f}  |  G1: {g1_acc:.2%}  |  G5: {g5_acc:.2%}\")\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from phonikud import phonemize\n",
+    "from transformers import BertTokenizerFast, BertModel\n",
+    "import torch\n",
+    "\n",
+    "# 1) Your sample\n",
+    "hebrew = \"שָׁלוֹם עוֹלָם\"\n",
+    "print(\"Hebrew text:\", hebrew)\n",
+    "print(\"Length (chars):\", len(hebrew))\n",
+    "\n",
+    "# 2) Phonemize\n",
+    "phon_str = phonemize(hebrew)\n",
+    "print(\"\\nPhonemizer output string:\", phon_str)\n",
+    "# split on spaces to get *word*‐level tokens:\n",
+    "word_tokens = phon_str.split()\n",
+    "# or to see IPA‐symbol tokens:\n",
+    "symbol_tokens = [c for c in phon_str.replace(\" \", \"\")]\n",
+    "print(\"→ Word tokens:\", word_tokens, f\"(count={len(word_tokens)})\")\n",
+    "print(\"→ IPA symbol tokens:\", symbol_tokens, f\"(count={len(symbol_tokens)})\")\n",
+    "\n",
+    "# 3) Load your pl-bert encoder & tokenizer\n",
+    "MODEL_DIR = \"/dev/hdd/Users/Oron/tts/pl-bert/pl-bert-final\"\n",
+    "tokenizer = BertTokenizerFast.from_pretrained(MODEL_DIR)\n",
+    "encoder   = BertModel.from_pretrained(MODEL_DIR).eval()\n",
+    "\n",
+    "# 4) Tokenize phoneme symbols, run through encoder\n",
+    "inputs = tokenizer(symbol_tokens, is_split_into_words=True, return_tensors=\"pt\")\n",
+    "with torch.no_grad():\n",
+    "    outputs = encoder(**inputs)\n",
+    "emb = outputs.last_hidden_state  # (1, seq_len, hidden_size)\n",
+    "print(\"\\nEncoder got seq_len =\", emb.size(1), \"hidden_size =\", emb.size(2))\n"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "tts-venv",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.2"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

train.py ADDED Viewed

	@@ -0,0 +1,201 @@

+#!/usr/bin/env python3
+# pl-bert_training.py
+from datasets import load_dataset
+from transformers import (
+    BertTokenizerFast,
+    BertConfig,
+    BertForMaskedLM,
+    DataCollatorForLanguageModeling,
+    Trainer,
+    TrainingArguments
+)
+from evaluate import load  # use the 'evaluate' library for metrics
+import torch
+import yaml
+import numpy as np
+# # 1. Load dataset and split
+# full_ds  = load_dataset("thewh1teagle/phonikud-phonemes-data", split="train[:5000000]")
+# ds_train = full_ds.select(range(0, 4700000))      # first 4.7M examples
+# ds_eval  = full_ds.select(range(4700000, 5000000)) # last 300k examples
+# 2. Split "text" column into Hebrew and phonemes
+def split_tab(examples):
+    heb, phon = [], []
+    for line in examples["text"]:
+        h, p = line.split("\t")
+        heb.append(h)
+        phon.append(p)
+    return {"hebrew": heb, "phonemes": phon}
+ds_train = ds_train.map(split_tab, batched=True, remove_columns=["text"])
+ds_eval  = ds_eval.map(split_tab,  batched=True, remove_columns=["text"])
+# 3. Build character‐level phoneme vocab
+punctuation = ';:,.!?¡¿—…"«»“” ’'
+letters     = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
+letters_ipa = (
+    "ɑɐɒæɓʙβɔɕçɗɖðʤəɘɚɛɜɝɞɟʄɡɠɢʛɦɧħɥʜɨɪʝɭɬɫɮʟɱɯ혂ŋɳɲɴøɵɸθœɶʘɹɺɾɻʀʁɽʂʃʈʧʉʊʋⱱʌɣɤʍχʎʏʑʐʒʔʡʕʢǀǁǂǃˈˌːˑʼʴʰʱʲʷˠˤ˞↓↑→↗↘̩ᵻ"
+)
+specials = ["[PAD]","[UNK]","[CLS]","[SEP]","[MASK]"]
+all_chars = list(punctuation) + list(letters) + list(letters_ipa)
+vocab_chars = []
+seen = set()
+for c in all_chars:
+    if c not in seen:
+        seen.add(c)
+        vocab_chars.append(c)
+with open("vocab.txt", "w", encoding="utf-8") as vf:
+    for tok in specials:
+        vf.write(tok + "\n")
+    for c in vocab_chars:
+        vf.write(c + "\n")
+# 4. Initialize tokenizer & model config
+tokenizer = BertTokenizerFast(
+    vocab_file="vocab.txt",
+    unk_token="[UNK]", pad_token="[PAD]",
+    cls_token="[CLS]", sep_token="[SEP]",
+    mask_token="[MASK]",
+    do_lower_case=False,
+    strip_accents=False,
+    tokenize_chinese_chars=False,
+)
+config = BertConfig(
+    vocab_size                  = len(tokenizer),
+    hidden_size                 = 768,
+    num_hidden_layers           = 12,
+    num_attention_heads         = 12,
+    intermediate_size           = 2048,
+    max_position_embeddings     = 512,
+    hidden_dropout_prob         = 0.1,
+    attention_probs_dropout_prob= 0.1,
+)
+# 5. Tokenize only the phoneme sequences
+def tokenize_fn(examples):
+    return tokenizer(
+        examples["phonemes"],
+        return_attention_mask=True,
+        add_special_tokens=True,
+    )
+tokenized_train = ds_train.map(
+    tokenize_fn,
+    batched=True,
+    remove_columns=["hebrew","phonemes"]
+)
+tokenized_eval = ds_eval.map(
+    tokenize_fn,
+    batched=True,
+    remove_columns=["hebrew","phonemes"]
+)
+# 6. Group into fixed-length blocks for MLM
+block_size = 128
+def group_texts(examples):
+    all_ids = sum(examples["input_ids"], [])
+    result = {"input_ids":[], "attention_mask":[]}
+    for i in range(0, len(all_ids) - block_size + 1, block_size):
+        chunk = all_ids[i : i + block_size]
+        result["input_ids"].append(chunk)
+        result["attention_mask"].append([1] * block_size)
+    return result
+lm_train = tokenized_train.map(
+    group_texts,
+    batched=True,
+    remove_columns=list(tokenized_train.column_names),
+)
+lm_eval = tokenized_eval.map(
+    group_texts,
+    batched=True,
+    remove_columns=list(tokenized_eval.column_names),
+)
+# 7. Data collator for MLM
+data_collator = DataCollatorForLanguageModeling(
+    tokenizer=tokenizer, mlm=True, mlm_probability=0.15
+)
+# 8. Metrics for accuracy + perplexity
+accuracy_metric = load("accuracy")
+def compute_metrics(eval_pred):
+    logits, labels = eval_pred.predictions, eval_pred.label_ids
+    logits = logits.reshape(-1, logits.shape[-1])
+    labels = labels.reshape(-1)
+    mask = labels != -100
+    preds = np.argmax(logits, axis=-1)
+    acc = accuracy_metric.compute(
+        predictions=preds[mask], references=labels[mask]
+    )["accuracy"]
+    max_logits  = np.max(logits[mask], axis=-1, keepdims=True)
+    stable      = logits[mask] - max_logits
+    logsumexp   = max_logits.flatten() + np.log(np.exp(stable).sum(axis=-1))
+    true_logits = logits[mask, labels[mask]]
+    xent        = -np.mean(true_logits - logsumexp)
+    ppl         = float(np.exp(xent))
+    return {"accuracy": acc, "perplexity": ppl}
+# 9. Initialize model & Trainer
+model = BertForMaskedLM(config)
+# 9b) Load your best .pt checkpoint into it
+# ckpt_path = "/dev/hdd/Users/Oron/tts/pl-bert/pl-bert-best1.pt"
+# state_dict = torch.load(ckpt_path, map_location="cpu")
+# model.load_state_dict(state_dict, strict=False)
+# print(f"[✔] Loaded pretrained PL‑BERT weights from {ckpt_path}")
+training_args = TrainingArguments(
+    output_dir                    = "pl-bert",
+    overwrite_output_dir          = True,
+    num_train_epochs              = 20,
+    per_device_train_batch_size   = 196,
+    per_device_eval_batch_size    = 196,
+    warmup_steps                  = 400,
+    learning_rate                 = 1e-5,
+    weight_decay                  = 0.001,
+    eval_strategy           = "epoch",
+    save_strategy                 = "epoch",
+    load_best_model_at_end        = True,
+    metric_for_best_model         = "perplexity",
+    greater_is_better             = False,
+    logging_strategy              = "steps",
+    logging_steps                 = 25,
+    save_total_limit              = 3,
+    push_to_hub                   = False,
+    eval_accumulation_steps       = 1,
+    # fp16=True,  # uncomment if you want mixed precision
+)
+trainer = Trainer(
+    model           = model,
+    args            = training_args,
+    data_collator   = data_collator,
+    train_dataset   = lm_train,
+    eval_dataset    = lm_eval,
+    compute_metrics = compute_metrics,
+)
+# 10. Train & save best checkpoint and .pt file
+trainer.train()
+best_ckpt = trainer.state.best_model_checkpoint
+print(f"Best checkpoint directory: {best_ckpt}")
+# Load the best checkpoint and save a raw .pt state_dict
+best_model = BertForMaskedLM.from_pretrained(best_ckpt, config=config)
+torch.save(best_model.state_dict(), "pl-bert-best.pt")
+print("[✔] Saved best model weights to pl-bert-best.pt")
+# Also keep HF format
+best_model.save_pretrained("pl-bert-final")
+tokenizer.save_pretrained("pl-bert-final")

vocab.txt ADDED Viewed

	@@ -0,0 +1,181 @@

+[PAD]
+[UNK]
+[CLS]
+[SEP]
+[MASK]
+;
+:
+,
+.
+!
+?
+¡
+¿
+—
+…
+"
+«
+»
+“
+”
+’
+A
+B
+C
+D
+E
+F
+G
+H
+I
+J
+K
+L
+M
+N
+O
+P
+Q
+R
+S
+T
+U
+V
+W
+X
+Y
+Z
+a
+b
+c
+d
+e
+f
+g
+h
+i
+j
+k
+l
+m
+n
+o
+p
+q
+r
+s
+t
+u
+v
+w
+x
+y
+z
+ɑ
+ɐ
+ɒ
+æ
+ɓ
+ʙ
+β
+ɔ
+ɕ
+ç
+ɗ
+ɖ
+ð
+ʤ
+ə
+ɘ
+ɚ
+ɛ
+ɜ
+ɝ
+ɞ
+ɟ
+ʄ
+ɡ
+ɠ
+ɢ
+ʛ
+ɦ
+ɧ
+ħ
+ɥ
+ʜ
+ɨ
+ɪ
+ʝ
+ɭ
+ɬ
+ɫ
+ɮ
+ʟ
+ɱ
+ɯ
+혂
+ŋ
+ɳ
+ɲ
+ɴ
+ø
+ɵ
+ɸ
+θ
+œ
+ɶ
+ʘ
+ɹ
+ɺ
+ɾ
+ɻ
+ʀ
+ʁ
+ɽ
+ʂ
+ʃ
+ʈ
+ʧ
+ʉ
+ʊ
+ʋ
+ⱱ
+ʌ
+ɣ
+ɤ
+ʍ
+χ
+ʎ
+ʏ
+ʑ
+ʐ
+ʒ
+ʔ
+ʡ
+ʕ
+ʢ
+ǀ
+ǁ
+ǂ
+ǃ
+ˈ
+ˌ
+ː
+ˑ
+ʼ
+ʴ
+ʰ
+ʱ
+ʲ
+ʷ
+ˠ
+ˤ
+˞
+↓
+↑
+→
+↗
+↘
+̩
+ᵻ

weights/pl-bert-best.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2341e9b1691986831540ce942fc6e434f3c4f96922ae7a16c8213c68c2047e7e
+size 269262651