mispeech
/

dashengtokenizer

@@ -55,15 +55,8 @@
     "        audio_tensor = torch.tensor(audio).float()\n",
     "        label_tensor = torch.tensor(label).long()\n",
     "        \n",
-    "        return audio_tensor, label_tensor"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
     "def download_esc50():\n",
     "    import urllib.request\n",
     "    import zipfile\n",
@@ -80,34 +73,6 @@
     "        print(\"ESC-50 dataset downloaded and extracted\")"
    ]
   },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "def get_embedding_dim(model):\n",
-    "    dummy_input = torch.randn(1, 160000)\n",
-    "    with torch.no_grad():\n",
-    "        output = model(dummy_input)\n",
-    "        if isinstance(output, dict):\n",
-    "            for key in ['last_hidden_state', 'embeddings', 'audio']:\n",
-    "                if key in output:\n",
-    "                    features = output[key]\n",
-    "                    break\n",
-    "            else:\n",
-    "                features = list(output.values())[0]\n",
-    "        else:\n",
-    "            features = output\n",
-    "        \n",
-    "        if features.dim() > 2:\n",
-    "            embedding_dim = features.shape[-1]\n",
-    "        else:\n",
-    "            embedding_dim = features.shape[-1]\n",
-    "    \n",
-    "    return embedding_dim"
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -121,7 +86,7 @@
     "model = AutoModel.from_pretrained(\"mispeech/dashengtokenizer\", trust_remote_code=True)\n",
     "\n",
     "# Get embedding dimension\n",
-    "embedding_dim = get_embedding_dim(model)\n",
     "print(f\"Model embedding dimension: {embedding_dim}\")\n",
     "\n",
     "# Freeze model\n",
@@ -135,15 +100,7 @@
     "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
     "model.to(device)\n",
     "classifier.to(device)\n",
-    "print(f\"Using device: {device}\")"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
     "# Create datasets\n",
     "audio_dir = 'ESC-50/audio'\n",
     "metadata_path = 'ESC-50/meta/esc50.csv'\n",
@@ -259,10 +216,10 @@
   }
  ],
  "metadata": {
- "accelerator": "GPU",
   "colab": {
-    "gpuType": "T4",
-    "provenance": []
   },
   "kernelspec": {
    "display_name": "Python 3 (ipykernel)",

     "        audio_tensor = torch.tensor(audio).float()\n",
     "        label_tensor = torch.tensor(label).long()\n",
     "        \n",
+    "        return audio_tensor, label_tensor\n",
+    "\n",
     "def download_esc50():\n",
     "    import urllib.request\n",
     "    import zipfile\n",
     "        print(\"ESC-50 dataset downloaded and extracted\")"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
     "model = AutoModel.from_pretrained(\"mispeech/dashengtokenizer\", trust_remote_code=True)\n",
     "\n",
     "# Get embedding dimension\n",
+    "embedding_dim = 1280\n",
     "print(f\"Model embedding dimension: {embedding_dim}\")\n",
     "\n",
     "# Freeze model\n",
     "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
     "model.to(device)\n",
     "classifier.to(device)\n",
+    "print(f\"Using device: {device}\")\n",
     "# Create datasets\n",
     "audio_dir = 'ESC-50/audio'\n",
     "metadata_path = 'ESC-50/meta/esc50.csv'\n",
   }
  ],
  "metadata": {
+  "accelerator": "GPU",
   "colab": {
+   "gpuType": "T4",
+   "provenance": []
   },
   "kernelspec": {
    "display_name": "Python 3 (ipykernel)",