Changes to be committed: 데이터셋에 Y 길이 추가, dataset 객체로 데이터셋 관리

modified: DIVA_dataset.pt
new file: dataset.py
modified: preprocessing.ipynb

Files changed (3) hide show

DIVA_dataset.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2aad626b3e4e2ebfcc83c88623dbdee4d6e2ac90dcf6683a66c1b735d8fa51cf
-size 327629

 version https://git-lfs.github.com/spec/v1
+oid sha256:02800f2d52f834ea03fb42ff3d0b7338231e47838013e6cc09d3898ce0fca1bc
+size 328142

dataset.py ADDED Viewed

+from torch.utils.data import Dataset
+class MIDIDataset(Dataset):
+    def __init__(self, X_tensor, Y_tensor, lengths):
+        self.X = X_tensor          # [N, feature_dim]
+        self.Y = Y_tensor          # [N, seq_len]
+        self.lengths = lengths     # [N] 실제 길이
+    def __len__(self):
+        return len(self.X)
+    def __getitem__(self, idx):
+        return self.X[idx], self.Y[idx], self.lengths[idx]

preprocessing.ipynb CHANGED Viewed

@@ -1378,7 +1378,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
    "id": "f7b77c0c",
    "metadata": {},
    "outputs": [],
@@ -1403,6 +1403,9 @@
     "max_len = max(len(seq) for seq in tokens)\n",
     "padded_tokens = [seq + [0]*(max_len - len(seq)) for seq in tokens]\n",
     "\n",
     "# Tensor 변환\n",
     "X_tensor = torch.tensor(X, dtype=torch.float32)\n",
     "Y_tensor = torch.tensor(padded_tokens, dtype=torch.long)"
@@ -1410,7 +1413,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
    "id": "4f5f5dc1",
    "metadata": {},
    "outputs": [],
@@ -1419,7 +1422,8 @@
     "\n",
     "torch.save({\n",
     "    \"X\": X_tensor,\n",
-    "    \"Y\": Y_tensor\n",
     "}, \"DIVA_dataset.pt\")"
    ]
   },

   },
   {
    "cell_type": "code",
+   "execution_count": 7,
    "id": "f7b77c0c",
    "metadata": {},
    "outputs": [],
     "max_len = max(len(seq) for seq in tokens)\n",
     "padded_tokens = [seq + [0]*(max_len - len(seq)) for seq in tokens]\n",
     "\n",
+    "# 각 샘플의 실제 길이\n",
+    "lengths = torch.tensor([len(seq) for seq in tokens], dtype=torch.long)\n",
+    "\n",
     "# Tensor 변환\n",
     "X_tensor = torch.tensor(X, dtype=torch.float32)\n",
     "Y_tensor = torch.tensor(padded_tokens, dtype=torch.long)"
   },
   {
    "cell_type": "code",
+   "execution_count": 8,
    "id": "4f5f5dc1",
    "metadata": {},
    "outputs": [],
     "\n",
     "torch.save({\n",
     "    \"X\": X_tensor,\n",
+    "    \"Y\": Y_tensor,\n",
+    "    \"lengths\": lengths\n",
     "}, \"DIVA_dataset.pt\")"
    ]
   },