File size: 4,999 Bytes
0a6452f |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 |
# 数据预处理模块 (Data Preprocessing Module)
本模块实现了情绪与生理状态变化预测模型的数据预处理功能。
## 功能特性
- **数据集类**: 处理7维输入和5维输出的数据
- **数据加载器**: 支持训练/验证/测试分割
- **数据预处理**: 标准化、清洗和异常值处理
- **合成数据生成**: 生成符合要求的模拟数据
## 数据格式
### 输入特征 (7维)
- User PAD: Pleasure, Arousal, Dominance (3维) [-1, 1]
- Vitality: 生理活力值 (1维) [0, 100]
- Current PAD: 当前状态 Pleasure, Arousal, Dominance (3维) [-1, 1]
### 输出标签 (5维)
- ΔPAD: PAD状态变化量 (3维) [-0.5, 0.5]
- ΔPressure: 压力变化 (1维) [-0.3, 0.3]
- Confidence: 预测置信度 (1维) [0, 1]
## 使用示例
### 1. 生成合成数据
```python
from src.data import generate_synthetic_data, SyntheticDataGenerator
# 便捷函数生成数据
features, labels = generate_synthetic_data(num_samples=1000)
print(f"Features: {features.shape}, Labels: {labels.shape}")
# 使用生成器类
generator = SyntheticDataGenerator(num_samples=1000, seed=42)
features, labels = generator.generate_data()
# 生成特定模式的数据
features, labels = generator.generate_dataset_with_patterns(
patterns=['stress', 'relaxation', 'excitement'],
pattern_weights=[0.3, 0.4, 0.3]
)
```
### 2. 数据预处理
```python
from src.data import create_preprocessor
# 创建预处理器
preprocessor = create_preprocessor()
# 拟合并转换数据
features_scaled, labels_scaled = preprocessor.fit_transform(features, labels)
# 获取统计信息
feature_stats = preprocessor.get_feature_statistics()
label_stats = preprocessor.get_label_statistics()
# 保存预处理器
preprocessor.save_preprocessor('preprocessor.pkl')
# 加载预处理器
preprocessor = DataPreprocessor.load_preprocessor('preprocessor.pkl')
```
### 3. 创建数据集
```python
from src.data import EmotionDataset
# 从numpy数组创建
dataset = EmotionDataset(features, labels)
# 从文件创建
dataset = EmotionDataset('data.csv')
# 获取单个样本
sample_features, sample_labels = dataset[0]
# 获取统计信息
stats = dataset.get_feature_statistics()
```
### 4. 数据加载器
```python
from src.data import create_data_loader
# 创建数据加载器
loader = create_data_loader(batch_size=32, shuffle=True)
# 获取所有数据加载器
train_loader, val_loader, test_loader = loader.get_all_loaders(
data=features, labels=labels
)
# 获取单个加载器
train_loader = loader.get_train_loader(data=features, labels=labels)
val_loader = loader.get_val_loader(data=features, labels=labels)
# 使用合成数据
train_loader, val_loader, test_loader = loader.get_synthetic_loaders(
num_samples=1000
)
```
### 5. 从配置文件加载
```python
from src.data import load_data_from_config
# 从配置文件加载数据
train_loader, val_loader, test_loader = load_data_from_config(
'configs/training_config.yaml'
)
```
## 配置选项
### 数据预处理配置
```python
config = {
'feature_scaling': {
'method': 'standard', # standard, min_max, robust, none
'pad_features': 'standard',
'vitality_feature': 'min_max'
},
'missing_values': {
'strategy': 'mean', # mean, median, most_frequent, constant, knn
'knn_neighbors': 5
},
'outliers': {
'method': 'isolation_forest', # isolation_forest, z_score, iqr
'contamination': 0.1
}
}
preprocessor = create_preprocessor(config)
```
### 数据加载器配置
```python
config = {
'batch_size': 32,
'num_workers': 4,
'train_split': 0.7,
'val_split': 0.15,
'test_split': 0.15,
'normalize_features': True,
'normalize_labels': False
}
loader = create_data_loader(config)
```
## 数据验证
模块包含完整的数据验证功能:
- **范围检查**: 验证PAD值、Vitality值和置信度在合理范围内
- **缺失值检测**: 自动检测和处理NaN值
- **异常值检测**: 使用多种方法检测异常值
- **维度验证**: 确保数据维度正确
## 文件结构
```
src/data/
├── __init__.py # 模块导出
├── dataset.py # EmotionDataset类
├── data_loader.py # 数据加载器工厂
├── preprocessor.py # 数据预处理类
├── synthetic_generator.py # 合成数据生成器
└── README.md # 使用说明
```
## 依赖要求
- torch >= 1.12.0
- numpy >= 1.21.0
- pandas >= 1.3.0
- scikit-learn >= 1.0.0
- scipy >= 1.7.0
- loguru >= 0.6.0
## 测试
运行测试脚本验证功能:
```bash
# 在虚拟环境中运行
python simple_test.py
# 完整测试(需要torch)
python test_data_module.py
```
## 注意事项
1. 确保在虚拟环境中安装所有依赖
2. PAD值范围应在[-1, 1]内
3. Vitality值范围应在[0, 100]内
4. 置信度范围应在[0, 1]内
5. 数据预处理时应先拟合预处理器再转换数据 |