Spaces:

JSCPPProgrammer
/

gensearcher-firered

Paused

Initial: GenSearcher workflow + FireRed /generate adapter + Gradio

80b7188 verified 2 months ago

1.32 kB

	from datasets import load_dataset

	from rllm.data.dataset import DatasetRegistry


	def prepare_geo3k_data():
	# Load dataset
	dataset = load_dataset("linxy/LaTeX_OCR")["train"]
	dataset = dataset.train_test_split(test_size=500, seed=42)
	train_dataset = dataset["train"]
	test_dataset = dataset["test"]

	def process_fn(example, idx):
	prompt = "<image>Convert the image to LaTeX code."
	answer = example.pop("text")
	image = example.pop("image")

	data = {
	"data_source": "latex_ocr",
	"image": image,
	"question": prompt,
	"ground_truth": answer,
	}
	return data

	# Preprocess datasets
	train_dataset = train_dataset.map(function=process_fn, with_indices=True, num_proc=8)
	test_dataset = test_dataset.map(function=process_fn, with_indices=True, num_proc=8)

	# Register datasets
	train_dataset = DatasetRegistry.register_dataset("latex_ocr", train_dataset, "train")
	test_dataset = DatasetRegistry.register_dataset("latex_ocr", test_dataset, "test")

	return train_dataset, test_dataset


	if __name__ == "__main__":
	train_dataset, test_dataset = prepare_geo3k_data()
	print(train_dataset.get_data_path())
	print(test_dataset.get_data_path())