File size: 58,484 Bytes

46b244e

# Copyright 2025 the LlamaFactory team.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import json
import os
import signal
import sys
import time
from concurrent.futures import ThreadPoolExecutor
from datetime import timedelta
from typing import TYPE_CHECKING, Any, Optional

import torch
import transformers
from peft import PeftModel
from transformers import PreTrainedModel, ProcessorMixin, TrainerCallback
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR, has_length
from transformers.utils import (
    SAFE_WEIGHTS_NAME,
    WEIGHTS_NAME,
    is_safetensors_available,
)
from typing_extensions import override

from ..extras import logging
from ..extras.constants import TRAINER_LOG, V_HEAD_SAFE_WEIGHTS_NAME, V_HEAD_WEIGHTS_NAME
from ..extras.misc import get_peak_memory, is_env_enabled, use_ray


if is_safetensors_available():
    from safetensors import safe_open
    from safetensors.torch import save_file


if TYPE_CHECKING:
    from transformers import TrainerControl, TrainerState, TrainingArguments
    from trl import AutoModelForCausalLMWithValueHead

    from ..hparams import DataArguments, FinetuningArguments, GeneratingArguments, ModelArguments


logger = logging.get_logger(__name__)


def fix_valuehead_checkpoint(
    model: "AutoModelForCausalLMWithValueHead", output_dir: str, safe_serialization: bool
) -> None:
    r"""Fix the valuehead checkpoint files.

    The model is already unwrapped.

    There are three cases:
    1. full tuning without ds_zero3: state_dict = {"model.layers.*": ..., "v_head.summary.*": ...}
    2. lora tuning without ds_zero3: state_dict = {"v_head.summary.*": ...}
    3. under deepspeed zero3: state_dict = {"pretrained_model.model.layers.*": ..., "v_head.summary.*": ...}

    We assume `stage3_gather_16bit_weights_on_model_save=true`.
    """
    if not isinstance(model.pretrained_model, (PreTrainedModel, PeftModel)):
        return

    if safe_serialization:
        path_to_checkpoint = os.path.join(output_dir, SAFE_WEIGHTS_NAME)
        with safe_open(path_to_checkpoint, framework="pt", device="cpu") as f:
            state_dict: dict[str, torch.Tensor] = {key: f.get_tensor(key) for key in f.keys()}
    else:
        path_to_checkpoint = os.path.join(output_dir, WEIGHTS_NAME)
        state_dict: dict[str, torch.Tensor] = torch.load(path_to_checkpoint, map_location="cpu", weights_only=True)

    os.remove(path_to_checkpoint)
    decoder_state_dict, v_head_state_dict = {}, {}
    for name, param in state_dict.items():
        if name.startswith("v_head."):
            v_head_state_dict[name] = param
        else:
            decoder_state_dict[name.replace("pretrained_model.", "", 1)] = param

    model.pretrained_model.save_pretrained(
        output_dir, state_dict=decoder_state_dict or None, safe_serialization=safe_serialization
    )

    if safe_serialization:
        save_file(v_head_state_dict, os.path.join(output_dir, V_HEAD_SAFE_WEIGHTS_NAME), metadata={"format": "pt"})
    else:
        torch.save(v_head_state_dict, os.path.join(output_dir, V_HEAD_WEIGHTS_NAME))

    logger.info_rank0(f"Value head model saved at: {output_dir}")


class FixValueHeadModelCallback(TrainerCallback):
    r"""A callback for fixing the checkpoint for valuehead models."""

    @override
    def on_save(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if args.should_save:
            output_dir = os.path.join(args.output_dir, f"{PREFIX_CHECKPOINT_DIR}-{state.global_step}")
            fix_valuehead_checkpoint(
                model=kwargs.pop("model"), output_dir=output_dir, safe_serialization=args.save_safetensors
            )


class SaveProcessorCallback(TrainerCallback):
    r"""A callback for saving the processor."""

    def __init__(self, processor: "ProcessorMixin") -> None:
        self.processor = processor

    @override
    def on_save(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if args.should_save:
            output_dir = os.path.join(args.output_dir, f"{PREFIX_CHECKPOINT_DIR}-{state.global_step}")
            self.processor.save_pretrained(output_dir)

    @override
    def on_train_end(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if args.should_save:
            self.processor.save_pretrained(args.output_dir)


class PissaConvertCallback(TrainerCallback):
    r"""A callback for converting the PiSSA adapter to a normal one."""

    @override
    def on_train_begin(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if args.should_save:
            model = kwargs.pop("model")
            pissa_init_dir = os.path.join(args.output_dir, "pissa_init")
            logger.info_rank0(f"Initial PiSSA adapter will be saved at: {pissa_init_dir}.")
            if isinstance(model, PeftModel):
                init_lora_weights = getattr(model.peft_config["default"], "init_lora_weights")
                setattr(model.peft_config["default"], "init_lora_weights", True)
                model.save_pretrained(pissa_init_dir, safe_serialization=args.save_safetensors)
                setattr(model.peft_config["default"], "init_lora_weights", init_lora_weights)

    @override
    def on_train_end(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if args.should_save:
            model = kwargs.pop("model")
            pissa_init_dir = os.path.join(args.output_dir, "pissa_init")
            pissa_backup_dir = os.path.join(args.output_dir, "pissa_backup")
            pissa_convert_dir = os.path.join(args.output_dir, "pissa_converted")
            logger.info_rank0(f"Converted PiSSA adapter will be saved at: {pissa_convert_dir}.")
            # 1. save a pissa backup with init_lora_weights: True
            # 2. save a converted lora with init_lora_weights: pissa
            # 3. load the pissa backup with init_lora_weights: True
            # 4. delete the initial adapter and change init_lora_weights to pissa
            if isinstance(model, PeftModel):
                init_lora_weights = getattr(model.peft_config["default"], "init_lora_weights")
                setattr(model.peft_config["default"], "init_lora_weights", True)
                model.save_pretrained(pissa_backup_dir, safe_serialization=args.save_safetensors)
                setattr(model.peft_config["default"], "init_lora_weights", init_lora_weights)
                model.save_pretrained(
                    pissa_convert_dir,
                    safe_serialization=args.save_safetensors,
                    path_initial_model_for_weight_conversion=pissa_init_dir,
                )
                model.load_adapter(pissa_backup_dir, "default", is_trainable=True)
                model.set_adapter("default")
                setattr(model.peft_config["default"], "init_lora_weights", init_lora_weights)


class LogCallback(TrainerCallback):
    r"""A callback for logging training and evaluation status."""

    def __init__(self) -> None:
        # Progress
        self.start_time = 0
        self.cur_steps = 0
        self.max_steps = 0
        self.elapsed_time = ""
        self.remaining_time = ""
        self.thread_pool: Optional[ThreadPoolExecutor] = None
        # Status
        self.aborted = False
        self.do_train = False
        # Web UI
        self.webui_mode = is_env_enabled("LLAMABOARD_ENABLED")
        if self.webui_mode and not use_ray():
            signal.signal(signal.SIGABRT, self._set_abort)
            self.logger_handler = logging.LoggerHandler(os.getenv("LLAMABOARD_WORKDIR"))
            logging.add_handler(self.logger_handler)
            transformers.logging.add_handler(self.logger_handler)

    def _set_abort(self, signum, frame) -> None:
        self.aborted = True

    def _reset(self, max_steps: int = 0) -> None:
        self.start_time = time.time()
        self.cur_steps = 0
        self.max_steps = max_steps
        self.elapsed_time = ""
        self.remaining_time = ""

    def _timing(self, cur_steps: int) -> None:
        cur_time = time.time()
        elapsed_time = cur_time - self.start_time
        avg_time_per_step = elapsed_time / cur_steps if cur_steps != 0 else 0
        remaining_time = (self.max_steps - cur_steps) * avg_time_per_step
        self.cur_steps = cur_steps
        self.elapsed_time = str(timedelta(seconds=int(elapsed_time)))
        self.remaining_time = str(timedelta(seconds=int(remaining_time)))

    def _write_log(self, output_dir: str, logs: dict[str, Any]) -> None:
        with open(os.path.join(output_dir, TRAINER_LOG), "a", encoding="utf-8") as f:
            f.write(json.dumps(logs) + "\n")

    def _create_thread_pool(self, output_dir: str) -> None:
        os.makedirs(output_dir, exist_ok=True)
        self.thread_pool = ThreadPoolExecutor(max_workers=1)

    def _close_thread_pool(self) -> None:
        if self.thread_pool is not None:
            self.thread_pool.shutdown(wait=True)
            self.thread_pool = None

    @override
    def on_init_end(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if (
            args.should_save
            and os.path.exists(os.path.join(args.output_dir, TRAINER_LOG))
            and args.overwrite_output_dir
        ):
            logger.warning_rank0_once("Previous trainer log in this folder will be deleted.")
            os.remove(os.path.join(args.output_dir, TRAINER_LOG))

    @override
    def on_train_begin(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if args.should_save:
            self.do_train = True
            self._reset(max_steps=state.max_steps)
            self._create_thread_pool(output_dir=args.output_dir)

    @override
    def on_train_end(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        self._close_thread_pool()

    @override
    def on_substep_end(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if self.aborted:
            control.should_epoch_stop = True
            control.should_training_stop = True

    @override
    def on_step_end(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if self.aborted:
            control.should_epoch_stop = True
            control.should_training_stop = True

    @override
    def on_evaluate(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if not self.do_train:
            self._close_thread_pool()

    @override
    def on_predict(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if not self.do_train:
            self._close_thread_pool()

    @override
    def on_log(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if not args.should_save:
            return

        self._timing(cur_steps=state.global_step)
        logs = dict(
            current_steps=self.cur_steps,
            total_steps=self.max_steps,
            loss=state.log_history[-1].get("loss"),
            eval_loss=state.log_history[-1].get("eval_loss"),
            predict_loss=state.log_history[-1].get("predict_loss"),
            reward=state.log_history[-1].get("reward"),
            accuracy=state.log_history[-1].get("rewards/accuracies"),
            lr=state.log_history[-1].get("learning_rate"),
            epoch=state.log_history[-1].get("epoch"),
            percentage=round(self.cur_steps / self.max_steps * 100, 2) if self.max_steps != 0 else 100,
            elapsed_time=self.elapsed_time,
            remaining_time=self.remaining_time,
        )
        if state.num_input_tokens_seen:
            logs["throughput"] = round(state.num_input_tokens_seen / (time.time() - self.start_time), 2)
            logs["total_tokens"] = state.num_input_tokens_seen

        if is_env_enabled("RECORD_VRAM"):
            vram_allocated, vram_reserved = get_peak_memory()
            logs["vram_allocated"] = round(vram_allocated / (1024**3), 2)
            logs["vram_reserved"] = round(vram_reserved / (1024**3), 2)

        logs = {k: v for k, v in logs.items() if v is not None}
        if self.webui_mode and all(key in logs for key in ("loss", "lr", "epoch")):
            log_str = f"'loss': {logs['loss']:.4f}, 'learning_rate': {logs['lr']:2.4e}, 'epoch': {logs['epoch']:.2f}"
            for extra_key in ("reward", "accuracy", "throughput"):
                if logs.get(extra_key):
                    log_str += f", '{extra_key}': {logs[extra_key]:.2f}"

            logger.info_rank0("{" + log_str + "}")

        if self.thread_pool is not None:
            self.thread_pool.submit(self._write_log, args.output_dir, logs)

    @override
    def on_prediction_step(
        self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs
    ):
        if self.do_train:
            return

        if self.aborted:
            sys.exit(0)

        if not args.should_save:
            return

        eval_dataloader = kwargs.pop("eval_dataloader", None)
        if has_length(eval_dataloader):
            if self.max_steps == 0:
                self._reset(max_steps=len(eval_dataloader))
                self._create_thread_pool(output_dir=args.output_dir)

            self._timing(cur_steps=self.cur_steps + 1)
            if self.cur_steps % 5 == 0 and self.thread_pool is not None:
                logs = dict(
                    current_steps=self.cur_steps,
                    total_steps=self.max_steps,
                    percentage=round(self.cur_steps / self.max_steps * 100, 2) if self.max_steps != 0 else 100,
                    elapsed_time=self.elapsed_time,
                    remaining_time=self.remaining_time,
                )
                self.thread_pool.submit(self._write_log, args.output_dir, logs)


class ReporterCallback(TrainerCallback):
    r"""A callback for reporting training status to external logger."""

    def __init__(
        self,
        model_args: "ModelArguments",
        data_args: "DataArguments",
        finetuning_args: "FinetuningArguments",
        generating_args: "GeneratingArguments",
    ) -> None:
        self.model_args = model_args
        self.data_args = data_args
        self.finetuning_args = finetuning_args
        self.generating_args = generating_args
        os.environ["WANDB_PROJECT"] = os.getenv("WANDB_PROJECT", "llamafactory")

    @override
    def on_train_begin(self, args: "TrainingArguments", state: "TrainerState", control: "TrainerControl", **kwargs):
        if not state.is_world_process_zero:
            return

        if "wandb" in args.report_to:
            import wandb

            wandb.config.update(
                {
                    "model_args": self.model_args.to_dict(),
                    "data_args": self.data_args.to_dict(),
                    "finetuning_args": self.finetuning_args.to_dict(),
                    "generating_args": self.generating_args.to_dict(),
                }
            )

        if self.finetuning_args.use_swanlab:
            import swanlab  # type: ignore

            swanlab.config.update(
                {
                    "model_args": self.model_args.to_dict(),
                    "data_args": self.data_args.to_dict(),
                    "finetuning_args": self.finetuning_args.to_dict(),
                    "generating_args": self.generating_args.to_dict(),
                }
            )

class LabelPredictionMonitorCallback(TrainerCallback):
    """训练过程中的标签和预测监控回调"""
    
    def __init__(self, 
                 output_dir: str,
                 log_interval: int = 10,
                 save_detailed_logs: bool = True):
        """
        初始化监控回调
        
        Args:
            output_dir: 输出目录
            log_interval: 日志记录间隔（每N步记录一次）
            save_detailed_logs: 是否保存详细日志
        """
        self.output_dir = output_dir
        self.log_interval = log_interval
        self.save_detailed_logs = save_detailed_logs
        
        # 创建日志目录
        self.log_dir = os.path.join(output_dir, "monitoring_logs")
        os.makedirs(self.log_dir, exist_ok=True)
        
        # 设置日志文件
        from datetime import datetime
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        self.log_files = {
            "labels": os.path.join(self.log_dir, f"label_analysis_{timestamp}.log"),
            "predictions": os.path.join(self.log_dir, f"prediction_monitor_{timestamp}.log"),
            "alignment": os.path.join(self.log_dir, f"alignment_analysis_{timestamp}.log"),
            "summary": os.path.join(self.log_dir, f"training_summary_{timestamp}.json")
        }
        
        # 设置日志记录器
        self.loggers = self._setup_loggers()
        
        # 存储历史数据
        self.training_history = []
        self.prediction_history = []
        self.step_count = 0
        self.previous_tokens = {}
        self.previous_predictions = {}  # 存储之前的预测结果
        self.previous_prediction_texts = {}  # 存储之前的预测文本
        self.tokenizer = None  # 稍后从训练器获取
        
        # 记录初始化
        self.loggers["labels"].info("🔧 标签预测监控回调初始化完成")
        self.loggers["labels"].info(f"📁 输出目录: {output_dir}")
        self.loggers["labels"].info(f"📝 日志文件: {self.log_files['labels']}")
        self.loggers["labels"].info(f"📊 记录间隔: {log_interval}步")
    
    def _setup_loggers(self):
        """设置日志记录器"""
        import logging
        loggers = {}
        
        for log_type, log_file in self.log_files.items():
            if log_type == "summary":
                continue  # summary是JSON文件，不需要logger
                
            logger = logging.getLogger(f"monitor_{log_type}")
            logger.setLevel(logging.INFO)
            
            # 清除现有处理器
            logger.handlers.clear()
            
            # 文件处理器
            file_handler = logging.FileHandler(log_file, encoding='utf-8')
            file_handler.setLevel(logging.INFO)
            
            # 控制台处理器
            console_handler = logging.StreamHandler()
            console_handler.setLevel(logging.INFO)
            
            # 格式化器
            formatter = logging.Formatter(
                '%(asctime)s | %(levelname)s | %(message)s',
                datefmt='%Y-%m-%d %H:%M:%S'
            )
            file_handler.setFormatter(formatter)
            console_handler.setFormatter(formatter)
            
            logger.addHandler(file_handler)
            logger.addHandler(console_handler)
            
            loggers[log_type] = logger
        
        return loggers
    
    def set_tokenizer(self, tokenizer):
        """设置tokenizer用于Token解码"""
        self.tokenizer = tokenizer
        self.loggers["labels"].info(f"🔤 Tokenizer已设置: {type(tokenizer).__name__}")
    
    def _decode_tokens(self, token_ids):
        """解码Token ID为文本"""
        if self.tokenizer is None:
            return [f"<token_{tid}>" for tid in token_ids]
        
        try:
            # 解码Token
            decoded_text = self.tokenizer.decode(token_ids, skip_special_tokens=False)
            return decoded_text
        except Exception as e:
            return [f"<decode_error_{tid}>" for tid in token_ids]
    
    def analyze_model_predictions(self, model, inputs, labels):
        """分析模型的预测输出"""
        import torch
        import numpy as np
        
        # 只在特定步骤记录详细信息
        if self.step_count % self.log_interval == 0:
            self.loggers["labels"].info(f"\n🔮 模型预测分析 - 步骤 {self.step_count}")
            self.loggers["labels"].info(f"{'='*80}")
        
        try:
            # 获取input_ids
            if isinstance(inputs, dict):
                input_ids = inputs.get('input_ids')
            else:
                input_ids = inputs
            
            # 处理BatchEncoding对象
            if hasattr(input_ids, 'input_ids'):
                actual_input_ids = input_ids.input_ids
            else:
                actual_input_ids = input_ids
            
            if actual_input_ids is not None and labels is not None:
                # 设置模型为评估模式以获取预测
                model.eval()
                
                with torch.no_grad():
                    # 获取模型输出
                    outputs = model(actual_input_ids)
                    logits = outputs.logits
                    
                    # 获取预测的Token ID
                    predicted_token_ids = torch.argmax(logits, dim=-1)
                    
                    # 分析每个样本
                    batch_size = len(actual_input_ids)
                    
                    for i in range(min(batch_size, 1)):  # 只分析第一个样本
                        try:
                            # 获取样本数据
                            if isinstance(actual_input_ids, torch.Tensor):
                                sample_input = actual_input_ids[i].cpu().numpy()
                            else:
                                sample_input = actual_input_ids[i]
                            
                            if isinstance(labels, torch.Tensor):
                                sample_labels = labels[i].cpu().numpy()
                            else:
                                sample_labels = labels[i]
                            
                            if isinstance(predicted_token_ids, torch.Tensor):
                                sample_predictions = predicted_token_ids[i].cpu().numpy()
                            else:
                                sample_predictions = predicted_token_ids[i]
                            
                            # 找到要训练的部分
                            trainable_mask = sample_labels != -100
                            trainable_positions = np.where(trainable_mask)[0]
                            
                            if len(trainable_positions) > 0:
                                # 获取预测的Token（在可训练位置）
                                predicted_tokens = sample_predictions[trainable_mask]
                                target_tokens = sample_labels[trainable_mask]
                                
                                # 只在特定步骤记录详细信息
                                if self.step_count % self.log_interval == 0:
                                    self.loggers["labels"].info(f"\n🎯 样本 {i+1} 预测分析:")
                                    self.loggers["labels"].info(f"  📏 可训练位置数: {len(trainable_positions)}")
                                    
                                    # 显示预测的Token ID
                                    self.loggers["labels"].info(f"  🔮 模型预测Token ID: {predicted_tokens.tolist()}")
                                    self.loggers["labels"].info(f"  🎯 目标Token ID: {target_tokens.tolist()}")
                                    
                                    # 解码预测的Token
                                    predicted_text = self._decode_tokens(predicted_tokens.tolist())
                                    target_text = self._decode_tokens(target_tokens.tolist())
                                    
                                    self.loggers["labels"].info(f"  🔮 模型预测文本: {predicted_text}")
                                    self.loggers["labels"].info(f"  🎯 目标文本: {target_text}")
                                    
                                    # 分析预测文本的变化
                                    self._analyze_prediction_text_changes(predicted_text, i)
                                    
                                    # 计算预测准确率
                                    correct_predictions = np.sum(predicted_tokens == target_tokens)
                                    accuracy = correct_predictions / len(target_tokens) * 100
                                    self.loggers["labels"].info(f"  📊 预测准确率: {accuracy:.2f}% ({correct_predictions}/{len(target_tokens)})")
                                    
                                    # 调试信息：检查Token长度和类型
                                    self.loggers["labels"].info(f"  🔍 调试信息:")
                                    self.loggers["labels"].info(f"    预测Token长度: {len(predicted_tokens)}")
                                    self.loggers["labels"].info(f"    目标Token长度: {len(target_tokens)}")
                                    self.loggers["labels"].info(f"    预测Token类型: {type(predicted_tokens)}")
                                    self.loggers["labels"].info(f"    目标Token类型: {type(target_tokens)}")
                                    
                                    # 检查是否有任何匹配
                                    if correct_predictions == 0:
                                        self.loggers["labels"].info(f"  ⚠️ 警告: 预测准确率为0%，可能的原因:")
                                        self.loggers["labels"].info(f"    1. 模型在训练初期，还未学会正确预测")
                                        self.loggers["labels"].info(f"    2. 预测位置可能不正确")
                                        self.loggers["labels"].info(f"    3. Token对齐可能有问题")
                                        
                                        # 显示前5个Token的详细对比
                                        self.loggers["labels"].info(f"  🔍 前5个Token详细对比:")
                                        for j in range(min(5, len(predicted_tokens))):
                                            pred_token = predicted_tokens[j]
                                            target_token = target_tokens[j]
                                            pred_text = self._decode_tokens([pred_token])
                                            target_text_single = self._decode_tokens([target_token])
                                            self.loggers["labels"].info(f"    位置{j}: 预测:{pred_token}({pred_text}) vs 目标:{target_token}({target_text_single})")
                                    
                                    # 显示前10个位置的详细对比
                                    self.loggers["labels"].info(f"  🔍 前10个位置详细对比:")
                                    for j in range(min(10, len(predicted_tokens))):
                                        pred_token = predicted_tokens[j]
                                        target_token = target_tokens[j]
                                        pred_text = self._decode_tokens([pred_token])
                                        target_text_single = self._decode_tokens([target_token])
                                        match_symbol = "✅" if pred_token == target_token else "❌"
                                        self.loggers["labels"].info(f"    位置{j}: {match_symbol} 预测:{pred_token}({pred_text}) vs 目标:{target_token}({target_text_single})")
                                    
                                    # 分析-100部分（忽略的Token）
                                    ignore_mask = sample_labels == -100
                                    ignore_positions = np.where(ignore_mask)[0]
                                    ignore_tokens = sample_input[ignore_mask]
                                    
                                    if len(ignore_positions) > 0:
                                        self.loggers["labels"].info(f"\n🚫 忽略的Token分析 (-100部分):")
                                        self.loggers["labels"].info(f"  📏 忽略位置数: {len(ignore_positions)}")
                                        self.loggers["labels"].info(f"  📍 忽略位置: {ignore_positions.tolist()}")
                                        self.loggers["labels"].info(f"  🔤 忽略Token ID: {ignore_tokens.tolist()}")
                                        
                                        # 解码忽略的Token
                                        ignore_text = self._decode_tokens(ignore_tokens.tolist())
                                        self.loggers["labels"].info(f"  🔤 忽略Token文本: {ignore_text}")
                                        
                                        # 分析多轮对话结构
                                        self.loggers["labels"].info(f"\n💬 多轮对话结构分析:")
                                        self.loggers["labels"].info(f"  📊 总长度: {len(sample_input)}")
                                        self.loggers["labels"].info(f"  🎯 训练部分: {len(trainable_positions)} ({len(trainable_positions)/len(sample_input)*100:.1f}%)")
                                        self.loggers["labels"].info(f"  🚫 忽略部分: {len(ignore_positions)} ({len(ignore_positions)/len(sample_input)*100:.1f}%)")
                                        
                                        # 分析对话分段
                                        self._analyze_conversation_segments(sample_input, sample_labels, i)
                                
                                # 分析预测变化
                                if hasattr(self, 'previous_predictions') and i in self.previous_predictions:
                                    prev_predictions = self.previous_predictions[i]
                                    if len(prev_predictions) == len(predicted_tokens):
                                        changes = np.sum(prev_predictions != predicted_tokens)
                                        
                                        if changes > 0:
                                            change_positions = np.where(prev_predictions != predicted_tokens)[0]
                                            self.loggers["labels"].info(f"\n🔄 步骤 {self.step_count} 预测变化:")
                                            self.loggers["labels"].info(f"  📊 变化数量: {changes}/{len(predicted_tokens)}")
                                            self.loggers["labels"].info(f"  📍 变化位置: {change_positions.tolist()}")
                                            
                                            # 显示具体的变化
                                            for pos in change_positions:
                                                prev_token = prev_predictions[pos]
                                                curr_token = predicted_tokens[pos]
                                                target_token = target_tokens[pos]
                                                prev_text = self._decode_tokens([prev_token])
                                                curr_text = self._decode_tokens([curr_token])
                                                target_text = self._decode_tokens([target_token])
                                                self.loggers["labels"].info(f"    位置{pos}: {prev_token}({prev_text}) -> {curr_token}({curr_text}) [目标: {target_token}({target_text})]")
                                
                                # 保存当前预测用于下次比较
                                if not hasattr(self, 'previous_predictions'):
                                    self.previous_predictions = {}
                                self.previous_predictions[i] = predicted_tokens.copy()
                        
                        except Exception as e:
                            self.loggers["labels"].error(f"❌ 分析样本 {i} 预测失败: {e}")
                
                # 恢复训练模式
                model.train()
                
        except Exception as e:
            self.loggers["labels"].error(f"❌ 预测分析失败: {e}")
    
    def _analyze_conversation_segments(self, sample_input, sample_labels, sample_idx):
        """分析多轮对话的分段结构"""
        import numpy as np
        
        try:
            # 找到训练和忽略的分段
            trainable_mask = sample_labels != -100
            ignore_mask = sample_labels == -100
            
            # 找到分段的边界
            segments = []
            current_segment = []
            current_type = None
            
            for i, (is_trainable, token_id) in enumerate(zip(trainable_mask, sample_input)):
                segment_type = "trainable" if is_trainable else "ignore"
                
                if current_type != segment_type:
                    if current_segment:
                        segments.append({
                            'type': current_type,
                            'start': current_segment[0]['pos'],
                            'end': current_segment[-1]['pos'],
                            'length': len(current_segment),
                            'tokens': [item['token'] for item in current_segment]
                        })
                    current_segment = []
                    current_type = segment_type
                
                current_segment.append({
                    'pos': i,
                    'token': token_id
                })
            
            # 添加最后一个分段
            if current_segment:
                segments.append({
                    'type': current_type,
                    'start': current_segment[0]['pos'],
                    'end': current_segment[-1]['pos'],
                    'length': len(current_segment),
                    'tokens': [item['token'] for item in current_segment]
                })
            
            # 记录分段信息
            self.loggers["labels"].info(f"  📝 对话分段详情:")
            for seg_idx, segment in enumerate(segments):
                segment_text = self._decode_tokens(segment['tokens'])
                segment_type_emoji = "🎯" if segment['type'] == 'trainable' else "🚫"
                self.loggers["labels"].info(f"    分段{seg_idx+1}: {segment_type_emoji} {segment['type']} 位置{segment['start']}-{segment['end']} 长度{segment['length']}")
                self.loggers["labels"].info(f"      文本: {segment_text}")
            
            # 分析对话模式
            trainable_segments = [s for s in segments if s['type'] == 'trainable']
            ignore_segments = [s for s in segments if s['type'] == 'ignore']
            
            self.loggers["labels"].info(f"  📊 对话模式分析:")
            self.loggers["labels"].info(f"    训练分段数: {len(trainable_segments)}")
            self.loggers["labels"].info(f"    忽略分段数: {len(ignore_segments)}")
            
            if len(trainable_segments) > 1:
                self.loggers["labels"].info(f"    💬 多轮对话检测: 发现{len(trainable_segments)}个训练分段")
                for i, seg in enumerate(trainable_segments):
                    self.loggers["labels"].info(f"      轮次{i+1}: 位置{seg['start']}-{seg['end']} 长度{seg['length']}")
            
        except Exception as e:
            self.loggers["labels"].error(f"❌ 对话分段分析失败: {e}")
    
    def _analyze_prediction_text_changes(self, current_text, sample_idx):
        """分析预测文本的变化"""
        try:
            if hasattr(self, 'previous_prediction_texts') and sample_idx in self.previous_prediction_texts:
                previous_text = self.previous_prediction_texts[sample_idx]
                
                if previous_text != current_text:
                    self.loggers["labels"].info(f"\n📝 步骤 {self.step_count} 预测文本变化:")
                    self.loggers["labels"].info(f"  🔄 文本发生变化!")
                    
                    # 计算文本相似度
                    similarity = self._calculate_text_similarity(previous_text, current_text)
                    self.loggers["labels"].info(f"  📊 文本相似度: {similarity:.2f}%")
                    
                    # 显示变化的部分
                    self._show_text_differences(previous_text, current_text)
                else:
                    self.loggers["labels"].info(f"\n📝 步骤 {self.step_count} 预测文本变化:")
                    self.loggers["labels"].info(f"  ✅ 文本未发生变化")
            
            # 保存当前预测文本
            if not hasattr(self, 'previous_prediction_texts'):
                self.previous_prediction_texts = {}
            self.previous_prediction_texts[sample_idx] = current_text
            
        except Exception as e:
            self.loggers["labels"].error(f"❌ 预测文本变化分析失败: {e}")
    
    def _calculate_text_similarity(self, text1, text2):
        """计算两个文本的相似度"""
        try:
            # 简单的字符级相似度计算
            if len(text1) == 0 and len(text2) == 0:
                return 100.0
            if len(text1) == 0 or len(text2) == 0:
                return 0.0
            
            # 使用编辑距离计算相似度
            from difflib import SequenceMatcher
            similarity = SequenceMatcher(None, text1, text2).ratio()
            return similarity * 100
        except Exception:
            return 0.0
    
    def _show_text_differences(self, old_text, new_text):
        """显示文本差异"""
        try:
            from difflib import unified_diff
            
            self.loggers["labels"].info(f"  📋 文本变化详情:")
            self.loggers["labels"].info(f"    之前: {old_text}")
            self.loggers["labels"].info(f"    现在: {new_text}")
            
            # 使用unified_diff显示差异
            diff_lines = list(unified_diff(
                old_text.splitlines(keepends=True),
                new_text.splitlines(keepends=True),
                fromfile='之前',
                tofile='现在',
                lineterm=''
            ))
            
            if diff_lines:
                self.loggers["labels"].info(f"  🔍 差异分析:")
                for line in diff_lines[:10]:  # 只显示前10行差异
                    if line.startswith('+'):
                        self.loggers["labels"].info(f"    ➕ 新增: {line[1:].strip()}")
                    elif line.startswith('-'):
                        self.loggers["labels"].info(f"    ➖ 删除: {line[1:].strip()}")
                    elif line.startswith('@@'):
                        self.loggers["labels"].info(f"    📍 {line.strip()}")
            
            # 分析变化类型
            self._analyze_change_types(old_text, new_text)
            
        except Exception as e:
            self.loggers["labels"].error(f"❌ 文本差异分析失败: {e}")
    
    def _analyze_change_types(self, old_text, new_text):
        """分析变化类型"""
        try:
            changes = {
                'added_chars': 0,
                'removed_chars': 0,
                'modified_chars': 0
            }
            
            # 简单的变化分析
            if len(new_text) > len(old_text):
                changes['added_chars'] = len(new_text) - len(old_text)
            elif len(new_text) < len(old_text):
                changes['removed_chars'] = len(old_text) - len(new_text)
            
            # 计算修改的字符数
            min_len = min(len(old_text), len(new_text))
            for i in range(min_len):
                if old_text[i] != new_text[i]:
                    changes['modified_chars'] += 1
            
            self.loggers["labels"].info(f"  📈 变化统计:")
            self.loggers["labels"].info(f"    新增字符: {changes['added_chars']}")
            self.loggers["labels"].info(f"    删除字符: {changes['removed_chars']}")
            self.loggers["labels"].info(f"    修改字符: {changes['modified_chars']}")
            
        except Exception as e:
            self.loggers["labels"].error(f"❌ 变化类型分析失败: {e}")
    
    @override
    def on_step_end(self, args, state, control, **kwargs):
        """在每个训练步骤结束时调用"""
        self.step_count += 1
        
        if self.step_count % self.log_interval == 0:
            self.loggers["labels"].info(f"\n{'='*80}")
            self.loggers["labels"].info(f"🔄 训练步骤 {state.global_step} 监控")
            self.loggers["labels"].info(f"{'='*80}")
            
            # 记录训练状态
            if state.log_history:
                latest_log = state.log_history[-1]
                self.loggers["labels"].info(f"📈 当前Loss: {latest_log.get('loss', 'N/A')}")
            
            # 记录步骤信息
            from datetime import datetime
            step_info = {
                "step": state.global_step,
                "timestamp": datetime.now().isoformat(),
                "loss": state.log_history[-1].get('loss') if state.log_history else None,
                "training_time": getattr(state, 'training_time', None)
            }
            
            self.training_history.append(step_info)
    
    @override
    def on_log(self, args, state, control, **kwargs):
        """在日志记录时调用，可以获取到训练数据"""
        if self.step_count % self.log_interval == 0:
            # 尝试获取当前批次的数据
            if hasattr(kwargs, 'logs') and kwargs['logs']:
                logs = kwargs['logs']
                self.loggers["labels"].info(f"📊 训练日志: {logs}")
    
    def analyze_training_tokens(self, model, inputs, labels):
        """分析训练过程中的token变化"""
        import numpy as np
        from datetime import datetime
        
        # 只在特定步骤记录详细信息
        if self.step_count % self.log_interval == 0:
            self.loggers["labels"].info(f"\n🔍 训练Token分析 - 步骤 {self.step_count}")
            self.loggers["labels"].info(f"{'='*80}")
        
        # 获取input_ids和labels
        if isinstance(inputs, dict):
            input_ids = inputs.get('input_ids')
            attention_mask = inputs.get('attention_mask')
        else:
            input_ids = inputs
            attention_mask = None
        
        # 处理BatchEncoding对象
        if hasattr(input_ids, 'input_ids'):
            # 如果是BatchEncoding，获取实际的input_ids tensor
            actual_input_ids = input_ids.input_ids
        else:
            actual_input_ids = input_ids
        
        # 详细调试信息
        if self.step_count % self.log_interval == 0:
            self.loggers["labels"].info(f"🔍 详细调试信息:")
            self.loggers["labels"].info(f"  inputs类型: {type(inputs)}")
            if isinstance(inputs, dict):
                self.loggers["labels"].info(f"  inputs键: {list(inputs.keys())}")
                for key, value in inputs.items():
                    self.loggers["labels"].info(f"    {key}: 类型={type(value)}, 形状={getattr(value, 'shape', 'N/A')}")
            
            self.loggers["labels"].info(f"  input_ids类型: {type(input_ids)}")
            self.loggers["labels"].info(f"  actual_input_ids类型: {type(actual_input_ids)}")
            self.loggers["labels"].info(f"  labels类型: {type(labels)}")
            
            if actual_input_ids is not None:
                self.loggers["labels"].info(f"  actual_input_ids详细信息:")
                self.loggers["labels"].info(f"    类型: {type(actual_input_ids)}")
                self.loggers["labels"].info(f"    形状: {getattr(actual_input_ids, 'shape', 'N/A')}")
                self.loggers["labels"].info(f"    设备: {getattr(actual_input_ids, 'device', 'N/A')}")
                self.loggers["labels"].info(f"    数据类型: {getattr(actual_input_ids, 'dtype', 'N/A')}")
                
            if labels is not None:
                self.loggers["labels"].info(f"  labels详细信息:")
                self.loggers["labels"].info(f"    类型: {type(labels)}")
                self.loggers["labels"].info(f"    形状: {getattr(labels, 'shape', 'N/A')}")
                self.loggers["labels"].info(f"    设备: {getattr(labels, 'device', 'N/A')}")
                self.loggers["labels"].info(f"    数据类型: {getattr(labels, 'dtype', 'N/A')}")
                
            # 尝试不同的访问方式
            self.loggers["labels"].info(f"🔍 尝试访问方式:")
            try:
                if actual_input_ids is not None:
                    self.loggers["labels"].info(f"  actual_input_ids[0] 类型: {type(actual_input_ids[0])}")
                    if hasattr(actual_input_ids[0], 'shape'):
                        self.loggers["labels"].info(f"  actual_input_ids[0] 形状: {actual_input_ids[0].shape}")
            except Exception as e:
                self.loggers["labels"].error(f"  ❌ actual_input_ids[0] 访问失败: {e}")
                
            try:
                if labels is not None:
                    self.loggers["labels"].info(f"  labels[0] 类型: {type(labels[0])}")
                    if hasattr(labels[0], 'shape'):
                        self.loggers["labels"].info(f"  labels[0] 形状: {labels[0].shape}")
            except Exception as e:
                self.loggers["labels"].error(f"  ❌ labels[0] 访问失败: {e}")
        
        if actual_input_ids is not None and labels is not None:
            # 分析每个样本
            batch_size = len(actual_input_ids)
            
            for i in range(min(batch_size, 1)):  # 只分析第一个样本
                try:
                    # 使用正确的tensor索引方式
                    if isinstance(actual_input_ids, torch.Tensor):
                        sample_input = actual_input_ids[i].cpu().numpy()
                    else:
                        sample_input = actual_input_ids[i]
                    
                    if isinstance(labels, torch.Tensor):
                        sample_labels = labels[i].cpu().numpy()
                    else:
                        sample_labels = labels[i]
                except Exception as e:
                    self.loggers["labels"].error(f"❌ 访问样本 {i} 失败: {e}")
                    continue
                
                # 找到要训练的部分（labels != -100的部分）
                trainable_mask = sample_labels != -100
                trainable_positions = np.where(trainable_mask)[0]
                trainable_tokens = sample_labels[trainable_mask]
                
                # 只在特定步骤记录详细信息
                if self.step_count % self.log_interval == 0:
                    self.loggers["labels"].info(f"\n📝 样本 {i+1} 训练Token详情:")
                    self.loggers["labels"].info(f"  📏 总长度: {len(sample_input)}")
                    self.loggers["labels"].info(f"  🎯 可训练长度: {len(trainable_positions)}")
                    self.loggers["labels"].info(f"  📍 可训练位置: {trainable_positions.tolist()}")
                    self.loggers["labels"].info(f"  🔤 要训练的Token ID: {trainable_tokens.tolist()}")
                    
                    # 解码Token为中文
                    trainable_text = self._decode_tokens(trainable_tokens.tolist())
                    self.loggers["labels"].info(f"  🔤 要训练的Token文本: {trainable_text}")
                    
                    # 显示对应的input tokens
                    trainable_input_tokens = sample_input[trainable_mask]
                    self.loggers["labels"].info(f"  📥 对应的Input Token ID: {trainable_input_tokens.tolist()}")
                    
                    # 解码Input Token为中文
                    input_text = self._decode_tokens(trainable_input_tokens.tolist())
                    self.loggers["labels"].info(f"  📥 对应的Input Token文本: {input_text}")
                    
                    # 显示完整的input_ids和labels（只显示前100个和后100个，避免日志过长）
                    if len(sample_input) > 200:
                        input_preview = sample_input[:100].tolist() + ["..."] + sample_input[-100:].tolist()
                        labels_preview = sample_labels[:100].tolist() + ["..."] + sample_labels[-100:].tolist()
                    else:
                        input_preview = sample_input.tolist()
                        labels_preview = sample_labels.tolist()
                    
                    self.loggers["labels"].info(f"  📋 完整Input IDs (预览): {input_preview}")
                    self.loggers["labels"].info(f"  🏷️ 完整Labels (预览): {labels_preview}")
                
                # 分析token变化（每次都检查）
                if hasattr(self, 'previous_tokens') and i in self.previous_tokens:
                    prev_tokens = self.previous_tokens[i]
                    if len(prev_tokens) == len(trainable_tokens):
                        changes = np.sum(prev_tokens != trainable_tokens)
                        
                        if changes > 0:
                            change_positions = np.where(prev_tokens != trainable_tokens)[0]
                            self.loggers["labels"].info(f"\n🔄 步骤 {self.step_count} Token变化:")
                            self.loggers["labels"].info(f"  📊 变化数量: {changes}/{len(trainable_tokens)}")
                            self.loggers["labels"].info(f"  📍 变化位置: {change_positions.tolist()}")
                            
                            # 显示具体的变化（包含解码文本）
                            for pos in change_positions:
                                prev_token = prev_tokens[pos]
                                curr_token = trainable_tokens[pos]
                                prev_text = self._decode_tokens([prev_token])
                                curr_text = self._decode_tokens([curr_token])
                                self.loggers["labels"].info(f"    位置{pos}: {prev_token}({prev_text}) -> {curr_token}({curr_text})")
                
                # 保存当前tokens用于下次比较
                if not hasattr(self, 'previous_tokens'):
                    self.previous_tokens = {}
                self.previous_tokens[i] = trainable_tokens.copy()
    
    @override
    def on_evaluate(self, args, state, control, **kwargs):
        """在评估时调用"""
        self.loggers["predictions"].info(f"\n{'='*80}")
        self.loggers["predictions"].info(f"📊 评估阶段监控 - 步骤 {state.global_step}")
        self.loggers["predictions"].info(f"{'='*80}")
        
        # 如果有预测结果，进行分析
        if hasattr(kwargs, 'predict_results') and kwargs['predict_results'] is not None:
            self._analyze_predictions(kwargs['predict_results'], state.global_step)
    
    @override
    def on_predict(self, args, state, control, **kwargs):
        """在预测时调用"""
        self.loggers["predictions"].info(f"\n{'='*80}")
        self.loggers["predictions"].info(f"🔮 预测阶段监控 - 步骤 {state.global_step}")
        self.loggers["predictions"].info(f"{'='*80}")
        
        # 获取预测结果
        predict_results = kwargs.get('predict_results')
        if predict_results is not None:
            self._analyze_predictions(predict_results, state.global_step)
    
    def _analyze_predictions(self, predict_results, step: int):
        """分析预测结果"""
        import numpy as np
        from datetime import datetime
        
        self.loggers["predictions"].info(f"📊 预测结果分析 - 步骤 {step}")
        
        # 获取预测和标签
        predictions = predict_results.predictions
        labels = predict_results.label_ids
        
        if predictions is None or labels is None:
            self.loggers["predictions"].warning("⚠️ 预测结果或标签为空")
            return
        
        # 转换为numpy数组（如果是tensor）
        if isinstance(predictions, torch.Tensor):
            predictions = predictions.cpu().numpy()
        if isinstance(labels, torch.Tensor):
            labels = labels.cpu().numpy()
        
        # 分析每个样本
        batch_size = len(predictions)
        self.loggers["predictions"].info(f"📦 批次大小: {batch_size}")
        
        for i in range(min(batch_size, 3)):  # 只分析前3个样本
            self.loggers["predictions"].info(f"\n🔍 样本 {i+1} 分析:")
            
            pred_sample = predictions[i]
            label_sample = labels[i]
            
            # 移除padding
            pred_sample = self._remove_padding(pred_sample)
            label_sample = self._remove_padding(label_sample)
            
            # 记录标签信息
            self.loggers["labels"].info(f"\n📝 样本 {i+1} 标签分析:")
            self.loggers["labels"].info(f"  🎯 标签长度: {len(label_sample)}")
            self.loggers["labels"].info(f"  🔮 预测长度: {len(pred_sample)}")
            
            # 对齐分析
            alignment_analysis = self._analyze_alignment(pred_sample, label_sample)
            self.loggers["alignment"].info(f"\n🎯 样本 {i+1} 对齐分析:")
            self.loggers["alignment"].info(f"  📏 长度差异: {alignment_analysis['length_difference']}")
            self.loggers["alignment"].info(f"  🎯 精确匹配: {alignment_analysis['exact_match_percentage']:.1f}%")
            self.loggers["alignment"].info(f"  ✅ 有效匹配: {alignment_analysis['valid_match_percentage']:.1f}%")
            
            # 存储分析结果
            analysis = {
                "step": step,
                "sample_idx": i,
                "timestamp": datetime.now().isoformat(),
                "predictions": pred_sample.tolist(),
                "labels": label_sample.tolist(),
                "alignment_analysis": alignment_analysis
            }
            
            self.prediction_history.append(analysis)
    
    def _remove_padding(self, tokens, pad_token_id: int = -100):
        """移除padding tokens"""
        import numpy as np
        # 找到非padding的位置
        non_pad_mask = tokens != pad_token_id
        if np.any(non_pad_mask):
            # 找到第一个和最后一个非padding位置
            first_non_pad = np.argmax(non_pad_mask)
            last_non_pad = len(tokens) - 1 - np.argmax(non_pad_mask[::-1])
            return tokens[first_non_pad:last_non_pad+1]
        else:
            return tokens
    
    def _analyze_alignment(self, predictions, labels):
        """分析预测和标签的对齐情况"""
        # 基本统计
        min_len = min(len(predictions), len(labels))
        max_len = max(len(predictions), len(labels))
        
        # 计算匹配
        exact_matches = 0
        valid_matches = 0
        
        for i in range(min_len):
            if predictions[i] == labels[i]:
                exact_matches += 1
            if predictions[i] != -100 and labels[i] != -100:
                valid_matches += 1
        
        # 计算匹配率
        exact_match_percentage = (exact_matches / min_len * 100) if min_len > 0 else 0
        valid_match_percentage = (exact_matches / valid_matches * 100) if valid_matches > 0 else 0
        
        return {
            "min_length": min_len,
            "max_length": max_len,
            "exact_matches": exact_matches,
            "valid_matches": valid_matches,
            "exact_match_percentage": exact_match_percentage,
            "valid_match_percentage": valid_match_percentage,
            "length_difference": abs(len(predictions) - len(labels))
        }
    
    @override
    def on_train_end(self, args, state, control, **kwargs):
        """训练结束时调用"""
        from datetime import datetime
        
        self.loggers["labels"].info(f"\n{'='*80}")
        self.loggers["labels"].info(f"🏁 训练结束监控")
        self.loggers["labels"].info(f"{'='*80}")
        
        # 保存最终分析摘要
        summary_data = {
            "training_info": {
                "total_steps": len(self.training_history),
                "total_predictions": len(self.prediction_history),
                "completion_time": datetime.now().isoformat(),
                "output_dir": self.output_dir
            },
            "training_history": self.training_history,
            "prediction_history": self.prediction_history,
            "log_files": self.log_files
        }
        
        with open(self.log_files["summary"], "w", encoding="utf-8") as f:
            json.dump(summary_data, f, ensure_ascii=False, indent=2)
        
        self.loggers["labels"].info(f"📊 训练摘要已保存: {self.log_files['summary']}")
        self.loggers["labels"].info(f"📝 标签分析日志: {self.log_files['labels']}")
        self.loggers["labels"].info(f"🔮 预测监控日志: {self.log_files['predictions']}")
        self.loggers["labels"].info(f"🎯 对齐分析日志: {self.log_files['alignment']}")