File size: 7,177 Bytes
dfb3177
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Terminalden huggingface-cli login komutuyla login oldum."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "c:\\Users\\Şerife GÖKDAŞ\\AppData\\Local\\Programs\\Python\\Python310\\lib\\site-packages\\tqdm\\auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
      "  from .autonotebook import tqdm as notebook_tqdm\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "100 veri işlendi.\n",
      "200 veri işlendi.\n",
      "300 veri işlendi.\n",
      "400 veri işlendi.\n",
      "500 veri işlendi.\n",
      "600 veri işlendi.\n",
      "700 veri işlendi.\n",
      "800 veri işlendi.\n",
      "900 veri işlendi.\n",
      "1000 veri işlendi.\n",
      "1100 veri işlendi.\n",
      "1200 veri işlendi.\n",
      "1300 veri işlendi.\n",
      "1400 veri işlendi.\n",
      "1500 veri işlendi.\n",
      "1600 veri işlendi.\n",
      "1700 veri işlendi.\n",
      "1800 veri işlendi.\n",
      "1900 veri işlendi.\n",
      "2000 veri işlendi.\n",
      "2100 veri işlendi.\n",
      "2200 veri işlendi.\n",
      "2300 veri işlendi.\n",
      "2400 veri işlendi.\n",
      "2500 veri işlendi.\n",
      "2600 veri işlendi.\n",
      "2700 veri işlendi.\n",
      "2800 veri işlendi.\n",
      "2900 veri işlendi.\n",
      "3000 veri işlendi.\n",
      "3100 veri işlendi.\n",
      "3200 veri işlendi.\n",
      "3300 veri işlendi.\n",
      "3400 veri işlendi.\n",
      "3500 veri işlendi.\n",
      "3600 veri işlendi.\n",
      "3700 veri işlendi.\n",
      "3800 veri işlendi.\n",
      "3900 veri işlendi.\n",
      "4000 veri işlendi.\n",
      "4100 veri işlendi.\n",
      "4200 veri işlendi.\n",
      "4300 veri işlendi.\n",
      "4400 veri işlendi.\n",
      "4500 veri işlendi.\n",
      "4600 veri işlendi.\n",
      "4700 veri işlendi.\n",
      "4800 veri işlendi.\n",
      "4900 veri işlendi.\n",
      "5000 veri işlendi.\n",
      "5100 veri işlendi.\n",
      "5200 veri işlendi.\n",
      "5300 veri işlendi.\n",
      "5400 veri işlendi.\n",
      "5500 veri işlendi.\n",
      "5600 veri işlendi.\n",
      "5700 veri işlendi.\n",
      "5800 veri işlendi.\n",
      "5900 veri işlendi.\n",
      "6000 veri işlendi.\n",
      "6100 veri işlendi.\n",
      "6200 veri işlendi.\n",
      "6300 veri işlendi.\n",
      "6400 veri işlendi.\n",
      "6500 veri işlendi.\n",
      "6600 veri işlendi.\n",
      "6700 veri işlendi.\n",
      "6800 veri işlendi.\n",
      "6900 veri işlendi.\n",
      "7000 veri işlendi.\n",
      "7100 veri işlendi.\n",
      "7200 veri işlendi.\n",
      "7300 veri işlendi.\n",
      "7400 veri işlendi.\n",
      "7500 veri işlendi.\n",
      "7600 veri işlendi.\n",
      "7700 veri işlendi.\n",
      "7800 veri işlendi.\n",
      "7900 veri işlendi.\n",
      "8000 veri işlendi.\n",
      "8100 veri işlendi.\n",
      "8200 veri işlendi.\n",
      "8300 veri işlendi.\n",
      "8400 veri işlendi.\n",
      "8500 veri işlendi.\n",
      "8600 veri işlendi.\n",
      "8700 veri işlendi.\n",
      "8800 veri işlendi.\n",
      "8900 veri işlendi.\n",
      "9000 veri işlendi.\n",
      "9100 veri işlendi.\n",
      "9200 veri işlendi.\n",
      "9300 veri işlendi.\n",
      "9400 veri işlendi.\n",
      "9500 veri işlendi.\n",
      "9600 veri işlendi.\n",
      "9700 veri işlendi.\n",
      "9800 veri işlendi.\n",
      "9900 veri işlendi.\n",
      "10000 veri işlendi.\n",
      "10100 veri işlendi.\n",
      "10200 veri işlendi.\n",
      "10300 veri işlendi.\n",
      "10400 veri işlendi.\n",
      "10500 veri işlendi.\n",
      "10600 veri işlendi.\n",
      "10700 veri işlendi.\n",
      "10800 veri işlendi.\n",
      "10900 veri işlendi.\n",
      "11000 veri işlendi.\n",
      "11100 veri işlendi.\n",
      "11200 veri işlendi.\n",
      "11300 veri işlendi.\n",
      "11400 veri işlendi.\n",
      "11500 veri işlendi.\n",
      "11600 veri işlendi.\n",
      "11700 veri işlendi.\n",
      "11800 veri işlendi.\n",
      "11900 veri işlendi.\n",
      "12000 veri işlendi.\n",
      "12100 veri işlendi.\n",
      "12200 veri işlendi.\n",
      "12300 veri işlendi.\n",
      "12400 veri işlendi.\n",
      "12500 veri işlendi.\n",
      "12600 veri işlendi.\n",
      "12700 veri işlendi.\n",
      "Tokenize işlemi tamamlandı ve yeni CSV dosyasına kaydedildi.\n"
     ]
    }
   ],
   "source": [
    "import pandas as pd\n",
    "from transformers import AutoTokenizer\n",
    "\n",
    "# Tokenizer'ı başlatıyoruz\n",
    "tokenizer = AutoTokenizer.from_pretrained(\"alibayram/tr_tokenizer\", use_fast=True)\n",
    "\n",
    "# CSV dosyasını okuyalım\n",
    "df = pd.read_csv(\"data_all_news.csv\")\n",
    "\n",
    "# Başlıkları (Title) ve etiketleri (Label) alıyoruz\n",
    "titles = df['Title'].tolist()  # 'Title' sütununu al\n",
    "labels = df['Label'].tolist()  # 'Label' sütununu al\n",
    "\n",
    "# Tokenize edilmiş başlıklar ve etiketleri saklamak için liste oluşturuyoruz\n",
    "tokenized_titles = []\n",
    "encoded_labels = []\n",
    "\n",
    "# Tokenize işlemine başlıyoruz\n",
    "for i, (title, label) in enumerate(zip(titles, labels)):\n",
    "    tokens = tokenizer.tokenize(title)  # Başlığı tokenize ediyoruz\n",
    "    tokenized_titles.append(tokens)  # Tokenize edilmiş başlıkları listeye ekliyoruz\n",
    "    encoded_labels.append(label)  # Etiketi listeye ekliyoruz\n",
    "\n",
    "    # Her 100. veri işlendiğinde ekrana yazdırıyoruz\n",
    "    if (i + 1) % 100 == 0:\n",
    "        print(f\"{i + 1} veri işlendi.\")\n",
    "\n",
    "# Tokenize edilmiş başlıklar ve etiketlerle DataFrame oluşturuyoruz\n",
    "tokenized_df = pd.DataFrame({\n",
    "    'Title': tokenized_titles,  # Tokenize edilmiş başlıklar\n",
    "    'Label': encoded_labels     # Etiketler\n",
    "})\n",
    "\n",
    "# CSV dosyasına kaydediyoruz\n",
    "tokenized_df.to_csv('data_tokenized.csv', index=False)\n",
    "\n",
    "print(\"Tokenize işlemi tamamlandı ve yeni CSV dosyasına kaydedildi.\")\n"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.10"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}