Spaces:

kfoughali
/

serpent

Sleeping

App Files Files Community

kfoughali commited on Jul 29, 2025

Commit

abceea1

verified ·

1 Parent(s): c681cda

Create data/loader.py

Browse files

Files changed (1) hide show

data/loader.py +104 -0

data/loader.py ADDED Viewed

	@@ -0,0 +1,104 @@

+import torch
+from torch_geometric.datasets import Planetoid, TUDataset, Reddit, Flickr
+from torch_geometric.loader import DataLoader
+from torch_geometric.transforms import NormalizeFeatures
+import yaml
+class GraphDataLoader:
+    """
+    Production data loading with real datasets only
+    No synthetic or hardcoded data
+    """
+    def __init__(self, config_path='config.yaml'):
+        with open(config_path, 'r') as f:
+            self.config = yaml.safe_load(f)
+        self.batch_size = self.config['data']['batch_size']
+        self.test_split = self.config['data']['test_split']
+    def load_node_classification_data(self, dataset_name='Cora'):
+        """Load real node classification datasets"""
+        if dataset_name in ['Cora', 'CiteSeer', 'PubMed']:
+            dataset = Planetoid(
+                root=f'./data/{dataset_name}',
+                name=dataset_name,
+                transform=NormalizeFeatures()
+            )
+        elif dataset_name == 'Reddit':
+            dataset = Reddit(
+                root='./data/Reddit',
+                transform=NormalizeFeatures()
+            )
+        elif dataset_name == 'Flickr':
+            dataset = Flickr(
+                root='./data/Flickr',
+                transform=NormalizeFeatures()
+            )
+        else:
+            raise ValueError(f"Unknown dataset: {dataset_name}")
+        return dataset
+    def load_graph_classification_data(self, dataset_name='MUTAG'):
+        """Load real graph classification datasets"""
+        valid_datasets = ['MUTAG', 'ENZYMES', 'PROTEINS', 'COLLAB', 'IMDB-BINARY']
+        if dataset_name not in valid_datasets:
+            raise ValueError(f"Dataset must be one of {valid_datasets}")
+        dataset = TUDataset(
+            root=f'./data/{dataset_name}',
+            name=dataset_name,
+            transform=NormalizeFeatures()
+        )
+        return dataset
+    def create_dataloaders(self, dataset, task_type='node_classification'):
+        """Create train/val/test splits"""
+        if task_type == 'node_classification':
+            # Use predefined splits for node classification
+            data = dataset[0]
+            return data, None, None  # Single graph with masks
+        elif task_type == 'graph_classification':
+            # Random split for graph classification
+            num_graphs = len(dataset)
+            indices = torch.randperm(num_graphs)
+            train_size = int(0.8 * num_graphs)
+            val_size = int(0.1 * num_graphs)
+            train_dataset = dataset[indices[:train_size]]
+            val_dataset = dataset[indices[train_size:train_size+val_size]]
+            test_dataset = dataset[indices[train_size+val_size:]]
+            train_loader = DataLoader(train_dataset, batch_size=self.batch_size, shuffle=True)
+            val_loader = DataLoader(val_dataset, batch_size=self.batch_size, shuffle=False)
+            test_loader = DataLoader(test_dataset, batch_size=self.batch_size, shuffle=False)
+            return train_loader, val_loader, test_loader
+    def get_dataset_info(self, dataset):
+        """Get dynamic dataset information"""
+        if hasattr(dataset, 'num_features'):
+            num_features = dataset.num_features
+        else:
+            num_features = dataset[0].x.size(1)
+        if hasattr(dataset, 'num_classes'):
+            num_classes = dataset.num_classes
+        else:
+            num_classes = len(torch.unique(dataset[0].y))
+        return {
+            'num_features': num_features,
+            'num_classes': num_classes,
+            'num_graphs': len(dataset),
+            'avg_nodes': sum([data.num_nodes for data in dataset]) / len(dataset),
+            'avg_edges': sum([data.num_edges for data in dataset]) / len(dataset)
+        }