Riverise
/

FINBERT2_finetune

Model card Files Files and versions

FINBERT2_finetune / data_process_task2.py

Riverise's picture

Upload folder using huggingface_hub

fc9ae4e verified about 2 months ago

history blame contribute delete

3.74 kB

	import pandas as pd
	from sklearn.model_selection import train_test_split
	import os

	# --- 配置参数 ---
	EXCEL_FILE_PATH = "/home/hsichen/part_time/BERT_finetune/标注数据_更正后.xlsx"
	OUTPUT_DIR = "./processed_data_task2_fixed"
	# 划分数据集的比例 (训练集:测试集)
	TEST_SIZE = 0.2
	# 随机种子，用于确保每次划分结果一致
	RANDOM_SEED = 42

	def preprocess_data(excel_path: str, output_dir: str, test_size: float, random_seed: int):
	"""
	读取Excel数据，进行清洗和格式转换，并划分为训练集、验证集和测试集。
	使用标签数量 (Label Count) 进行分层抽样。
	"""
	print(f"--- 1. 读取数据: {excel_path} ---")
	try:
	df = pd.read_excel(excel_path)
	except FileNotFoundError:
	print(f"错误：文件未找到在路径: {excel_path}")
	return
	except Exception as e:
	print(f"读取Excel文件时发生错误: {e}")
	return

	# --- 2. 数据清洗与格式转换 ---

	# 1. 筛选数据：只保留 Envir=1 的行
	df = df[df['Envir'] == 1].copy()
	print(f"筛选 Envir=1 后数据条数: {len(df)}")

	# 2. 整合标签
	TAG_COLS = ['Data', 'Action', 'Gain', 'Regu', 'Vague']

	# 将标签列转换为列表
	df['labels'] = df[TAG_COLS].values.tolist()

	df = df.rename(columns={'sentence': 'text'})

	# 3. 统计标签组合及其个数 (用于分析，保留逻辑)
	print("--- 3. 标签组合类型统计 ---")

	# 将标签列表转换为元组
	df['label_tuple'] = df['labels'].apply(tuple)

	# 将元组转换为字符串，作为 train_test_split 的 stratify 参数
	# 【新增/修改】：创建用于分层的字符串列
	df['stratify_col'] = df['label_tuple'].astype(str)

	print("-" * 30)

	# 仅保留 'text', 'labels', 'stratify_col' 列用于划分 (注意不再需要 'label_count')
	df = df[['text', 'labels', 'stratify_col']].copy()

	# --- 4. 划分数据集 (使用 stratify_col 进行分层) ---
	print(f"--- 划分数据集 (训练集:{1-test_size}, 测试集:{test_size}) ---")

	# 第一次划分：训练集+验证集 vs 测试集
	train_val_df, test_df = train_test_split(
	df,
	test_size=test_size,
	random_state=random_seed,
	# 【关键修改】：使用 'stratify_col' 进行分层
	stratify=df['stratify_col']
	)

	# 第二次划分：训练集 vs 验证集
	val_size_from_train = 0.1 / (1 - test_size)

	train_df, val_df = train_test_split(
	train_val_df,
	test_size=val_size_from_train,
	random_state=random_seed,
	# 【关键修改】：使用 'stratify_col' 进行分层
	stratify=train_val_df['stratify_col']
	)

	# --- 5. 保存为CSV文件 ---
	os.makedirs(output_dir, exist_ok=True)

	# 保存时仅保留 BERT 需要的 'text' 和 'labels' 列
	train_df[['text', 'labels']].to_csv(os.path.join(output_dir, 'train.csv'), index=False)
	val_df[['text', 'labels']].to_csv(os.path.join(output_dir, 'validation.csv'), index=False)
	test_df[['text', 'labels']].to_csv(os.path.join(output_dir, 'test.csv'), index=False)

	print("--- 结果保存成功 ---")
	print(f"训练集条数: {len(train_df)}. 保存至: {os.path.join(output_dir, 'train.csv')}")
	print(f"验证集条数: {len(val_df)}. 保存至: {os.path.join(output_dir, 'validation.csv')}")
	print(f"测试集条数: {len(test_df)}. 保存至: {os.path.join(output_dir, 'test.csv')}")

	if __name__ == "__main__":
	# 请确保您已安装必要的库: pip install pandas openpyxl scikit-learn
	preprocess_data(EXCEL_FILE_PATH, OUTPUT_DIR, TEST_SIZE, RANDOM_SEED)