Aliemree
/

veri_seti

Model card Files Files and versions

veri_seti / README.md

Aliemree's picture

Update README.md

9e7c522 verified over 1 year ago

|

history blame contribute delete

2.05 kB

	---
	license: apache-2.0
	language:
	- aa
	library_name: transformers
	---
	import pandas as pd
	from datasets import Dataset

	# Örnek veri oluşturma
	data = {
	'text': [
	'Bu bir örnek metindir.',
	'Türkçe doğal dil işleme projesi.',
	'Veri bilimi ve makine öğrenmesi.',
	'Python programlama dili.'
	],
	'label': [0, 1, 2, 3]
	}

	# DataFrame'e dönüştürme
	df = pd.DataFrame(data)

	# Hugging Face Dataset'e dönüştürme
	dataset = Dataset.from_pandas(df)
	import unicodedata

	# Aksan kaldırma fonksiyonu
	def remove_accents(text):
	nfkd_form = unicodedata.normalize('NFKD', text)
	return ''.join([c for c in nfkd_form if not unicodedata.combining(c)])

	# Veri ön işleme fonksiyonu
	def preprocess_function(examples):
	examples['text'] = [remove_accents(text) for text in examples['text']]
	return examples

	# Veri setine uygulama
	processed_dataset = dataset.map(preprocess_function)
	from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer

	# Model ve tokenizer yükleme
	model_name = "dbmdz/bert-base-turkish-cased"
	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=4)

	# Veriyi tokenlaştırma
	def tokenize_function(examples):
	return tokenizer(examples['text'], padding="max_length", truncation=True)

	tokenized_datasets = processed_dataset.map(tokenize_function, batched=True)

	# Model eğitimi için ayarlar
	training_args = TrainingArguments(
	output_dir="./results",
	evaluation_strategy="epoch",
	learning_rate=2e-5,
	per_device_train_batch_size=8,
	per_device_eval_batch_size=8,
	num_train_epochs=3,
	weight_decay=0.01,
	)

	# Trainer tanımlama
	trainer = Trainer(
	model=model,
	args=training_args,
	train_dataset=tokenized_datasets,
	eval_dataset=tokenized_datasets,
	)

	# Modeli eğitme
	trainer.train()

	# Eğitim sürecini değerlendirme
	eval_results = trainer.evaluate()

	print(f"Değerlendirme Sonuçları: {eval_results}")