Spaces:

Nurisslam
/

Test_Question_Ai

Runtime error

Nurisslam commited on May 22, 2025

Commit

f5ea7e7

verified ·

1 Parent(s): c930d5c

Rename inference.py to train.py

Files changed (2) hide show

inference.py DELETED Viewed

@@ -1,13 +0,0 @@
-from transformers import MT5ForConditionalGeneration, MT5Tokenizer
-model = MT5ForConditionalGeneration.from_pretrained("./model")
-tokenizer = MT5Tokenizer.from_pretrained("google/mt5-small")
-def ask(question, context):
-    input_text = f"Сұрақ: {question} Контекст: {context}"
-    input_ids = tokenizer(input_text, return_tensors="pt").input_ids
-    output = model.generate(input_ids, max_length=100)
-    return tokenizer.decode(output[0], skip_special_tokens=True)
-context = """Мәліметтер қоры дегеніміз – белгілі бір сипаттамасы бар, өзара байланыса сақталатын ақпараттар жиынтығы."""
-print(ask("Мәліметтер қоры дегеніміз не?", context))

train.py ADDED Viewed

+from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForQuestionAnswering, Trainer, TrainingArguments
+model_name = "ai4bharat/indic-bert"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForQuestionAnswering.from_pretrained(model_name)
+dataset = load_dataset("json", data_files="qa_dataset.json")
+def preprocess(examples):
+    inputs = tokenizer(examples['question'], examples['context'], truncation=True, padding='max_length')
+    return inputs
+dataset = dataset.map(preprocess, batched=True)
+training_args = TrainingArguments(
+    output_dir="./model",
+    evaluation_strategy="no",
+    per_device_train_batch_size=4,
+    num_train_epochs=3
+)
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=dataset['train']
+)
+trainer.train()
+model.save_pretrained("./model")
+tokenizer.save_pretrained("./model")