Changes to be committed: 토크나이저에 맞게 데이터 수정

modified: DIVA_dataset.pt
modified: data/11.mid
modified: data/12.mid
modified: data/13.mid
modified: data/15.mid
modified: data/33.mid
modified: data/7.mid
modified: preprocessing.ipynb

Files changed (8) hide show

DIVA_dataset.pt +2 -2
data/11.mid +0 -0
data/12.mid +0 -0
data/13.mid +0 -0
data/15.mid +0 -0
data/33.mid +0 -0
data/7.mid +0 -0
preprocessing.ipynb +133 -135

DIVA_dataset.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd45bdbfcc51d36e4a29718f12e9ca4a09d08ed2b429db7801d93969ba175591
-size 245710

 version https://git-lfs.github.com/spec/v1
+oid sha256:6597984bfb6a99a95e1c10ce7293080d95d976f284916d4b8aeff4582f2f22b7
+size 249037

data/11.mid CHANGED Viewed

Binary files a/data/11.mid and b/data/11.mid differ

data/12.mid CHANGED Viewed

Binary files a/data/12.mid and b/data/12.mid differ

data/13.mid CHANGED Viewed

Binary files a/data/13.mid and b/data/13.mid differ

data/15.mid CHANGED Viewed

Binary files a/data/15.mid and b/data/15.mid differ

data/33.mid CHANGED Viewed

Binary files a/data/33.mid and b/data/33.mid differ

data/7.mid CHANGED Viewed

Binary files a/data/7.mid and b/data/7.mid differ

preprocessing.ipynb CHANGED Viewed

@@ -336,8 +336,6 @@
     "    EOS = torch.full((1, 7), 100, dtype=torch.long)\n",
     "    Y_tensor.append(torch.cat([token, EOS], dim=0))\n",
     "\n",
-    "seq_lengths = torch.tensor([len(seq) for seq in Y_tensor])\n",
-    "\n",
     "# 패딩 처리\n",
     "padded_Y = pad_sequence(Y_tensor, batch_first=True, padding_value=-1)  # (batch_size, max_len, 7)"
    ]
@@ -353,20 +351,18 @@
      "output_type": "stream",
      "text": [
       "X shape: torch.Size([34, 25])\n",
-      "Y shape: torch.Size([34, 126, 7])\n",
-      "l shape: torch.Size([34])\n"
      ]
     }
    ],
    "source": [
     "print(\"X shape:\", X_tensor.shape)\n",
-    "print(\"Y shape:\", padded_Y.shape)\n",
-    "print(\"l shape:\", seq_lengths.shape)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
    "id": "b4efc676",
    "metadata": {},
    "outputs": [
@@ -374,131 +370,134 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Y example: tensor([[81,  3, 65,  1,  3, 53,  3],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [81,  2, 65,  1,  2, 53,  2],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [81,  1, 65,  1,  1, 53,  1],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [79,  2, 65,  1,  2, 53,  2],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [79,  2, 65,  1,  2, 53,  2],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [84,  1, 60,  8,  1, 55,  1],\n",
-      "        [84,  2, 60,  8,  2, 55,  2],\n",
-      "        [ 0,  2,  0,  1,  2,  0,  2],\n",
-      "        [84,  2, 60,  8,  2, 55,  2],\n",
-      "        [83,  1, 60,  8,  1, 55,  1],\n",
-      "        [84,  2, 60,  8,  2, 55,  2],\n",
-      "        [79,  1, 60,  8,  2, 55,  2],\n",
-      "        [ 0,  1,  0,  1,  0,  0,  0],\n",
-      "        [83,  2,  0,  1,  1,  0,  1],\n",
-      "        [ 0,  0, 60,  8,  2, 55,  2],\n",
-      "        [ 0,  2,  0,  1,  2, 48,  2],\n",
-      "        [84,  3, 69,  5,  3, 57,  3],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [84,  2, 69,  5,  2, 57,  2],\n",
-      "        [83,  1, 69,  5,  1, 57,  1],\n",
-      "        [84,  2, 69,  5,  2, 57,  2],\n",
-      "        [79,  1, 69,  5,  1, 57,  1],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [83,  2, 69,  5,  2, 57,  2],\n",
-      "        [ 0,  2,  0,  1,  2, 50,  2],\n",
-      "        [81,  2, 67,  1,  2, 55,  2],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [81,  2, 67,  1,  2, 55,  2],\n",
-      "        [83,  1, 67,  1,  1, 55,  1],\n",
-      "        [84,  2, 67,  1,  2, 55,  2],\n",
-      "        [83,  2, 67,  1,  2, 55,  2],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [83,  2, 67,  1,  2, 55,  2],\n",
-      "        [ 0,  2,  0,  1,  2, 48,  2],\n",
-      "        [81,  3, 65,  1,  3, 53,  3],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [81,  2, 65,  1,  2, 53,  2],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [81,  1, 65,  1,  1, 53,  1],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [79,  2, 65,  1,  2, 53,  2],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [79,  2, 65,  1,  2, 53,  2],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [84,  1, 60,  8,  1, 55,  1],\n",
-      "        [84,  2, 60,  8,  2, 55,  2],\n",
-      "        [ 0,  2,  0,  1,  2,  0,  2],\n",
-      "        [84,  2, 60,  8,  2, 55,  2],\n",
-      "        [83,  1, 60,  8,  1, 55,  1],\n",
-      "        [84,  2, 60,  8,  2, 55,  2],\n",
-      "        [91,  1, 60,  8,  1, 55,  1],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [83,  2, 60,  8,  2, 55,  2],\n",
-      "        [ 0,  2,  0,  1,  2, 48,  2],\n",
-      "        [84,  3, 69,  5,  3, 57,  3],\n",
-      "        [ 0,  1,  0,  1,  1,  0,  1],\n",
-      "        [84,  2, 69,  5,  2, 57,  2],\n",
-      "        [83,  1, 69,  5,  1, 57,  1],\n",
-      "        [84,  2, 69,  5,  2, 57,  2],\n",
-      "        [91,  1, 69,  5,  2, 57,  2],\n",
-      "        [ 0,  1,  0,  1,  0,  0,  0],\n",
-      "        [83,  2,  0,  1,  1,  0,  1],\n",
-      "        [ 0,  2, 69,  5,  2, 57,  2],\n",
-      "        [81,  2,  0,  1,  2, 50,  2],\n",
-      "        [ 0,  1, 67,  1,  2, 55,  2],\n",
-      "        [81,  2,  0,  1,  0,  0,  0],\n",
-      "        [86,  1,  0,  1,  1,  0,  1],\n",
-      "        [84,  2, 67,  1,  2, 55,  2],\n",
-      "        [86,  2, 67,  1,  1, 55,  1],\n",
-      "        [ 0,  0, 67,  1,  2, 55,  2],\n",
-      "        [ 0,  1, 67,  1,  2, 55,  2],\n",
-      "        [84,  2,  0,  1,  1,  0,  1],\n",
-      "        [84,  2, 67,  1,  2, 55,  2],\n",
-      "        [84,  2, 67,  1,  2, 48,  2],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1],\n",
-      "        [-1, -1, -1, -1, -1, -1, -1]])\n"
      ]
     }
    ],
@@ -508,7 +507,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
    "id": "4f5f5dc1",
    "metadata": {},
    "outputs": [],
@@ -517,8 +516,7 @@
     "\n",
     "torch.save({\n",
     "    \"X\": X_tensor,\n",
-    "    \"Y\": padded_Y,\n",
-    "    \"lengths\": seq_lengths\n",
     "}, \"DIVA_dataset.pt\")"
    ]
   },

     "    EOS = torch.full((1, 7), 100, dtype=torch.long)\n",
     "    Y_tensor.append(torch.cat([token, EOS], dim=0))\n",
     "\n",
     "# 패딩 처리\n",
     "padded_Y = pad_sequence(Y_tensor, batch_first=True, padding_value=-1)  # (batch_size, max_len, 7)"
    ]
      "output_type": "stream",
      "text": [
       "X shape: torch.Size([34, 25])\n",
+      "Y shape: torch.Size([34, 128, 7])\n"
      ]
     }
    ],
    "source": [
     "print(\"X shape:\", X_tensor.shape)\n",
+    "print(\"Y shape:\", padded_Y.shape)"
    ]
   },
   {
    "cell_type": "code",
+   "execution_count": 5,
    "id": "b4efc676",
    "metadata": {},
    "outputs": [
      "name": "stdout",
      "output_type": "stream",
      "text": [
+      "Y example: tensor([[ 81,   3,  65,   1,   3,  53,   3],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 81,   2,  65,   1,   2,  53,   2],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 81,   1,  65,   1,   1,  53,   1],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 79,   2,  65,   1,   2,  53,   2],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 79,   2,  65,   1,   2,  53,   2],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 84,   1,  60,   8,   1,  55,   1],\n",
+      "        [ 84,   2,  60,   8,   2,  55,   2],\n",
+      "        [  0,   2,   0,   1,   2,   0,   2],\n",
+      "        [ 84,   2,  60,   8,   2,  55,   2],\n",
+      "        [ 83,   1,  60,   8,   1,  55,   1],\n",
+      "        [ 84,   2,  60,   8,   2,  55,   2],\n",
+      "        [ 79,   1,  60,   8,   2,  55,   2],\n",
+      "        [  0,   1,   0,   1,   0,   0,   0],\n",
+      "        [ 83,   2,   0,   1,   1,   0,   1],\n",
+      "        [  0,   0,  60,   8,   2,  55,   2],\n",
+      "        [  0,   2,   0,   1,   2,  48,   2],\n",
+      "        [ 84,   3,  69,   5,   3,  57,   3],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 84,   2,  69,   5,   2,  57,   2],\n",
+      "        [ 83,   1,  69,   5,   1,  57,   1],\n",
+      "        [ 84,   2,  69,   5,   2,  57,   2],\n",
+      "        [ 79,   1,  69,   5,   1,  57,   1],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 83,   2,  69,   5,   2,  57,   2],\n",
+      "        [  0,   2,   0,   1,   2,  50,   2],\n",
+      "        [ 81,   2,  67,   1,   2,  55,   2],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 81,   2,  67,   1,   2,  55,   2],\n",
+      "        [ 83,   1,  67,   1,   1,  55,   1],\n",
+      "        [ 84,   2,  67,   1,   2,  55,   2],\n",
+      "        [ 83,   2,  67,   1,   2,  55,   2],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 83,   2,  67,   1,   2,  55,   2],\n",
+      "        [  0,   2,   0,   1,   2,  48,   2],\n",
+      "        [ 81,   3,  65,   1,   3,  53,   3],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 81,   2,  65,   1,   2,  53,   2],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 81,   1,  65,   1,   1,  53,   1],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 79,   2,  65,   1,   2,  53,   2],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 79,   2,  65,   1,   2,  53,   2],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 84,   1,  60,   8,   1,  55,   1],\n",
+      "        [ 84,   2,  60,   8,   2,  55,   2],\n",
+      "        [  0,   2,   0,   1,   2,   0,   2],\n",
+      "        [ 84,   2,  60,   8,   2,  55,   2],\n",
+      "        [ 83,   1,  60,   8,   1,  55,   1],\n",
+      "        [ 84,   2,  60,   8,   2,  55,   2],\n",
+      "        [ 91,   1,  60,   8,   1,  55,   1],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 83,   2,  60,   8,   2,  55,   2],\n",
+      "        [  0,   2,   0,   1,   2,  48,   2],\n",
+      "        [ 84,   3,  69,   5,   3,  57,   3],\n",
+      "        [  0,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 84,   2,  69,   5,   2,  57,   2],\n",
+      "        [ 83,   1,  69,   5,   1,  57,   1],\n",
+      "        [ 84,   2,  69,   5,   2,  57,   2],\n",
+      "        [ 91,   1,  69,   5,   2,  57,   2],\n",
+      "        [  0,   1,   0,   1,   0,   0,   0],\n",
+      "        [ 83,   2,   0,   1,   1,   0,   1],\n",
+      "        [  0,   2,  69,   5,   2,  57,   2],\n",
+      "        [ 81,   2,   0,   1,   2,  50,   2],\n",
+      "        [  0,   1,  67,   1,   2,  55,   2],\n",
+      "        [ 81,   2,   0,   1,   0,   0,   0],\n",
+      "        [ 86,   1,   0,   1,   1,   0,   1],\n",
+      "        [ 84,   2,  67,   1,   2,  55,   2],\n",
+      "        [ 86,   2,  67,   1,   1,  55,   1],\n",
+      "        [  0,   0,  67,   1,   2,  55,   2],\n",
+      "        [  0,   1,  67,   1,   2,  55,   2],\n",
+      "        [ 84,   2,   0,   1,   1,   0,   1],\n",
+      "        [ 84,   2,  67,   1,   2,  55,   2],\n",
+      "        [ 84,   2,  67,   1,   2,  48,   2],\n",
+      "        [100, 100, 100, 100, 100, 100, 100],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1],\n",
+      "        [ -1,  -1,  -1,  -1,  -1,  -1,  -1]])\n"
      ]
     }
    ],
   },
   {
    "cell_type": "code",
+   "execution_count": 6,
    "id": "4f5f5dc1",
    "metadata": {},
    "outputs": [],
     "\n",
     "torch.save({\n",
     "    \"X\": X_tensor,\n",
+    "    \"Y\": padded_Y\n",
     "}, \"DIVA_dataset.pt\")"
    ]
   },