Changes to be committed: 데이터 전처리 완료

Browse files

new file: DIVA_dataset.pt
modified: preprocessing.ipynb

Files changed (2) hide show

DIVA_dataset.pt +3 -0
preprocessing.ipynb +47 -3

DIVA_dataset.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2aad626b3e4e2ebfcc83c88623dbdee4d6e2ac90dcf6683a66c1b735d8fa51cf
+size 327629

preprocessing.ipynb CHANGED Viewed

@@ -1284,7 +1284,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 9,
    "id": "dea532d4",
    "metadata": {},
    "outputs": [],
@@ -1378,13 +1378,57 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 1,
    "id": "f7b77c0c",
    "metadata": {},
    "outputs": [],
    "source": [
     "import torch\n",
-    "from sklearn.preprocessing import OneHotEncoder, MinMaxScaler"
    ]
   }
  ],

   },
   {
    "cell_type": "code",
+   "execution_count": 1,
    "id": "dea532d4",
    "metadata": {},
    "outputs": [],
   },
   {
    "cell_type": "code",
+   "execution_count": 4,
    "id": "f7b77c0c",
    "metadata": {},
    "outputs": [],
    "source": [
+    "from sklearn.preprocessing import OneHotEncoder, MinMaxScaler\n",
+    "from sklearn.compose import ColumnTransformer\n",
     "import torch\n",
+    "import pandas as pd\n",
+    "\n",
+    "vector_df = pd.DataFrame([item['vector'] for item in tokenized_data])\n",
+    "tokens = [item['token'] for item in tokenized_data]\n",
+    "\n",
+    "# 전처리 파이프라인\n",
+    "preprocessor = ColumnTransformer([\n",
+    "    (\"cat\", OneHotEncoder(sparse_output=False), [\"mode\", \"mood\", \"key\"]),\n",
+    "    (\"num\", MinMaxScaler(), [\"bpm\", \"chord_complexity\", \"melody_density\", \"syncopation\", \"pitch_range\"])\n",
+    "])\n",
+    "\n",
+    "X = preprocessor.fit_transform(vector_df)\n",
+    "\n",
+    "# 토큰 시퀀스 패딩 (0으로 뒤에 채우기)\n",
+    "max_len = max(len(seq) for seq in tokens)\n",
+    "padded_tokens = [seq + [0]*(max_len - len(seq)) for seq in tokens]\n",
+    "\n",
+    "# Tensor 변환\n",
+    "X_tensor = torch.tensor(X, dtype=torch.float32)\n",
+    "Y_tensor = torch.tensor(padded_tokens, dtype=torch.long)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "4f5f5dc1",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import torch\n",
+    "\n",
+    "torch.save({\n",
+    "    \"X\": X_tensor,\n",
+    "    \"Y\": Y_tensor\n",
+    "}, \"DIVA_dataset.pt\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "224e349f",
+   "metadata": {},
+   "source": [
+    "## 전처리 끝!"
    ]
   }
  ],