Spaces:

Prashant26am
/

llava-chat

Sleeping

App Files Files Community

llava-chat / configs /data_config.py

Prashant26am

fix: Update Gradio to 4.44.1 and improve interface

8d272fe 11 months ago

raw

history blame contribute delete

9.47 kB

	"""
	Configuration for data processing in LLaVA.
	"""

	from dataclasses import dataclass, field
	from typing import Optional, List, Dict, Any


	@dataclass
	class DatasetConfig:
	"""Configuration for a dataset."""
	name: str
	path: str
	image_folder: str
	annotation_file: str
	split: str = "train"
	max_samples: int = -1 # -1 means use all samples
	image_key: str = "image"
	caption_key: str = "caption"
	question_key: str = "question"
	answer_key: str = "answer"


	@dataclass
	class PretrainingDataConfig:
	"""Configuration for pretraining data."""
	datasets: List[DatasetConfig] = field(default_factory=list)
	image_size: int = 336
	max_length: int = 2048
	pad_to_max_length: bool = False
	preprocessing_num_workers: int = 4
	overwrite_cache: bool = False

	@classmethod
	def default(cls) -> "PretrainingDataConfig":
	"""Create a default pretraining data configuration."""
	return cls(
	datasets=[
	DatasetConfig(
	name="laion-cc-sbu-558k",
	path="liuhaotian/LLaVA-Pretrain",
	image_folder="",
	annotation_file="blip_laion_cc_sbu_558k.json",
	image_key="image",
	caption_key="caption"
	)
	]
	)


	@dataclass
	class InstructionTuningDataConfig:
	"""Configuration for instruction tuning data."""
	datasets: List[DatasetConfig] = field(default_factory=list)
	image_size: int = 336
	max_length: int = 2048
	pad_to_max_length: bool = False
	preprocessing_num_workers: int = 4
	overwrite_cache: bool = False

	@classmethod
	def default(cls) -> "InstructionTuningDataConfig":
	"""Create a default instruction tuning data configuration."""
	return cls(
	datasets=[
	DatasetConfig(
	name="llava-instruct-150k",
	path="liuhaotian/LLaVA-Instruct-150K",
	image_folder="",
	annotation_file="llava_instruct_150k.json",
	image_key="image",
	question_key="question",
	answer_key="answer"
	)
	]
	)


	@dataclass
	class EvaluationDataConfig:
	"""Configuration for evaluation data."""
	datasets: List[DatasetConfig] = field(default_factory=list)
	image_size: int = 336
	max_length: int = 2048
	pad_to_max_length: bool = False
	preprocessing_num_workers: int = 4

	@classmethod
	def default(cls) -> "EvaluationDataConfig":
	"""Create a default evaluation data configuration."""
	return cls(
	datasets=[
	DatasetConfig(
	name="vqav2",
	path="",
	image_folder="coco/val2014",
	annotation_file="vqav2_val.json",
	split="val",
	question_key="question",
	answer_key="answer"
	),
	DatasetConfig(
	name="gqa",
	path="",
	image_folder="gqa/images",
	annotation_file="gqa_testdev_balanced.json",
	split="testdev",
	question_key="question",
	answer_key="answer"
	),
	DatasetConfig(
	name="textvqa",
	path="",
	image_folder="textvqa/train_images",
	annotation_file="textvqa_val.json",
	split="val",
	question_key="question",
	answer_key="answer"
	)
	]
	)


	@dataclass
	class DataConfig:
	"""Configuration for all data processing."""
	pretraining: PretrainingDataConfig = field(default_factory=PretrainingDataConfig.default)
	instruction_tuning: InstructionTuningDataConfig = field(default_factory=InstructionTuningDataConfig.default)
	evaluation: EvaluationDataConfig = field(default_factory=EvaluationDataConfig.default)

	@classmethod
	def from_dict(cls, config_dict: Dict[str, Any]) -> "DataConfig":
	"""Create a configuration from a dictionary."""
	# Process pretraining config
	pretraining_dict = config_dict.get("pretraining", {})
	pretraining_datasets = []
	for dataset_dict in pretraining_dict.get("datasets", []):
	pretraining_datasets.append(DatasetConfig(**dataset_dict))

	pretraining_config = PretrainingDataConfig(
	datasets=pretraining_datasets,
	**{k: v for k, v in pretraining_dict.items() if k != "datasets"}
	)

	# Process instruction tuning config
	instruction_dict = config_dict.get("instruction_tuning", {})
	instruction_datasets = []
	for dataset_dict in instruction_dict.get("datasets", []):
	instruction_datasets.append(DatasetConfig(**dataset_dict))

	instruction_config = InstructionTuningDataConfig(
	datasets=instruction_datasets,
	**{k: v for k, v in instruction_dict.items() if k != "datasets"}
	)

	# Process evaluation config
	evaluation_dict = config_dict.get("evaluation", {})
	evaluation_datasets = []
	for dataset_dict in evaluation_dict.get("datasets", []):
	evaluation_datasets.append(DatasetConfig(**dataset_dict))

	evaluation_config = EvaluationDataConfig(
	datasets=evaluation_datasets,
	**{k: v for k, v in evaluation_dict.items() if k != "datasets"}
	)

	# Create and return the configuration
	return cls(
	pretraining=pretraining_config,
	instruction_tuning=instruction_config,
	evaluation=evaluation_config
	)

	def to_dict(self) -> Dict[str, Any]:
	"""Convert the configuration to a dictionary."""
	# Process pretraining datasets
	pretraining_datasets = []
	for dataset in self.pretraining.datasets:
	pretraining_datasets.append({
	"name": dataset.name,
	"path": dataset.path,
	"image_folder": dataset.image_folder,
	"annotation_file": dataset.annotation_file,
	"split": dataset.split,
	"max_samples": dataset.max_samples,
	"image_key": dataset.image_key,
	"caption_key": dataset.caption_key,
	"question_key": dataset.question_key,
	"answer_key": dataset.answer_key
	})

	# Process instruction tuning datasets
	instruction_datasets = []
	for dataset in self.instruction_tuning.datasets:
	instruction_datasets.append({
	"name": dataset.name,
	"path": dataset.path,
	"image_folder": dataset.image_folder,
	"annotation_file": dataset.annotation_file,
	"split": dataset.split,
	"max_samples": dataset.max_samples,
	"image_key": dataset.image_key,
	"caption_key": dataset.caption_key,
	"question_key": dataset.question_key,
	"answer_key": dataset.answer_key
	})

	# Process evaluation datasets
	evaluation_datasets = []
	for dataset in self.evaluation.datasets:
	evaluation_datasets.append({
	"name": dataset.name,
	"path": dataset.path,
	"image_folder": dataset.image_folder,
	"annotation_file": dataset.annotation_file,
	"split": dataset.split,
	"max_samples": dataset.max_samples,
	"image_key": dataset.image_key,
	"caption_key": dataset.caption_key,
	"question_key": dataset.question_key,
	"answer_key": dataset.answer_key
	})

	# Create the configuration dictionary
	config_dict = {
	"pretraining": {
	"datasets": pretraining_datasets,
	"image_size": self.pretraining.image_size,
	"max_length": self.pretraining.max_length,
	"pad_to_max_length": self.pretraining.pad_to_max_length,
	"preprocessing_num_workers": self.pretraining.preprocessing_num_workers,
	"overwrite_cache": self.pretraining.overwrite_cache
	},
	"instruction_tuning": {
	"datasets": instruction_datasets,
	"image_size": self.instruction_tuning.image_size,
	"max_length": self.instruction_tuning.max_length,
	"pad_to_max_length": self.instruction_tuning.pad_to_max_length,
	"preprocessing_num_workers": self.instruction_tuning.preprocessing_num_workers,
	"overwrite_cache": self.instruction_tuning.overwrite_cache
	},
	"evaluation": {
	"datasets": evaluation_datasets,
	"image_size": self.evaluation.image_size,
	"max_length": self.evaluation.max_length,
	"pad_to_max_length": self.evaluation.pad_to_max_length,
	"preprocessing_num_workers": self.evaluation.preprocessing_num_workers
	}
	}

	return config_dict