onlyoneplease commited on Jan 17

Commit

d9593ff

verified ·

1 Parent(s): 522c6a0

Upload folder using huggingface_hub

Browse files

Files changed (43) hide show

output/training/v1-20260117-010840-10e/args.json +353 -0
output/training/v1-20260117-010840-10e/checkpoint-400/README.md +207 -0
output/training/v1-20260117-010840-10e/checkpoint-400/adapter_config.json +38 -0
output/training/v1-20260117-010840-10e/checkpoint-400/adapter_model.safetensors +3 -0
output/training/v1-20260117-010840-10e/checkpoint-400/additional_config.json +1 -0
output/training/v1-20260117-010840-10e/checkpoint-400/args.json +353 -0
output/training/v1-20260117-010840-10e/checkpoint-400/optimizer.pt +3 -0
output/training/v1-20260117-010840-10e/checkpoint-400/rng_state.pth +3 -0
output/training/v1-20260117-010840-10e/checkpoint-400/scheduler.pt +3 -0
output/training/v1-20260117-010840-10e/checkpoint-400/trainer_state.json +362 -0
output/training/v1-20260117-010840-10e/checkpoint-400/training_args.bin +3 -0
output/training/v1-20260117-010840-10e/checkpoint-500/README.md +207 -0
output/training/v1-20260117-010840-10e/checkpoint-500/adapter_config.json +38 -0
output/training/v1-20260117-010840-10e/checkpoint-500/adapter_model.safetensors +3 -0
output/training/v1-20260117-010840-10e/checkpoint-500/additional_config.json +1 -0
output/training/v1-20260117-010840-10e/checkpoint-500/args.json +353 -0
output/training/v1-20260117-010840-10e/checkpoint-500/optimizer.pt +3 -0
output/training/v1-20260117-010840-10e/checkpoint-500/rng_state.pth +3 -0
output/training/v1-20260117-010840-10e/checkpoint-500/scheduler.pt +3 -0
output/training/v1-20260117-010840-10e/checkpoint-500/trainer_state.json +442 -0
output/training/v1-20260117-010840-10e/checkpoint-500/training_args.bin +3 -0
output/training/v1-20260117-010840-10e/checkpoint-580/README.md +207 -0
output/training/v1-20260117-010840-10e/checkpoint-580/adapter_config.json +38 -0
output/training/v1-20260117-010840-10e/checkpoint-580/adapter_model.safetensors +3 -0
output/training/v1-20260117-010840-10e/checkpoint-580/additional_config.json +1 -0
output/training/v1-20260117-010840-10e/checkpoint-580/args.json +353 -0
output/training/v1-20260117-010840-10e/checkpoint-580/optimizer.pt +3 -0
output/training/v1-20260117-010840-10e/checkpoint-580/rng_state.pth +3 -0
output/training/v1-20260117-010840-10e/checkpoint-580/scheduler.pt +3 -0
output/training/v1-20260117-010840-10e/checkpoint-580/trainer_state.json +506 -0
output/training/v1-20260117-010840-10e/checkpoint-580/training_args.bin +3 -0
output/training/v1-20260117-010840-10e/images/train_epoch.png +0 -0
output/training/v1-20260117-010840-10e/images/train_grad_norm.png +0 -0
output/training/v1-20260117-010840-10e/images/train_learning_rate.png +0 -0
output/training/v1-20260117-010840-10e/images/train_loss.png +0 -0
output/training/v1-20260117-010840-10e/images/train_token_acc.png +0 -0
output/training/v1-20260117-010840-10e/images/train_total_flos.png +0 -0
output/training/v1-20260117-010840-10e/images/train_train_loss.png +0 -0
output/training/v1-20260117-010840-10e/images/train_train_runtime.png +0 -0
output/training/v1-20260117-010840-10e/images/train_train_samples_per_second.png +0 -0
output/training/v1-20260117-010840-10e/images/train_train_steps_per_second.png +0 -0
output/training/v1-20260117-010840-10e/logging.jsonl +61 -0
output/training/v1-20260117-010840-10e/runs/events.out.tfevents.1768612131.5090.2113421.0 +3 -0

output/training/v1-20260117-010840-10e/args.json ADDED Viewed

	@@ -0,0 +1,353 @@

+{
+  "output_dir": "/home/ab/document-parsing/output/training/v1-20260117-010840",
+  "overwrite_output_dir": false,
+  "do_train": false,
+  "do_eval": false,
+  "do_predict": false,
+  "eval_strategy": "no",
+  "prediction_loss_only": false,
+  "per_device_train_batch_size": 1,
+  "per_device_eval_batch_size": 1,
+  "per_gpu_train_batch_size": null,
+  "per_gpu_eval_batch_size": null,
+  "gradient_accumulation_steps": 8,
+  "eval_accumulation_steps": null,
+  "eval_delay": 0,
+  "torch_empty_cache_steps": null,
+  "learning_rate": 0.0001,
+  "weight_decay": 0.1,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.95,
+  "adam_epsilon": 1e-08,
+  "max_grad_norm": 1.0,
+  "num_train_epochs": 10.0,
+  "max_steps": -1,
+  "lr_scheduler_type": "cosine",
+  "lr_scheduler_kwargs": null,
+  "warmup_ratio": 0.05,
+  "warmup_steps": 0,
+  "log_level": "passive",
+  "log_level_replica": "warning",
+  "log_on_each_node": true,
+  "logging_dir": "/home/ab/document-parsing/output/training/v1-20260117-010840/runs",
+  "logging_strategy": "steps",
+  "logging_first_step": true,
+  "logging_steps": 10,
+  "logging_nan_inf_filter": true,
+  "save_strategy": "steps",
+  "save_steps": 100.0,
+  "save_total_limit": 3,
+  "save_safetensors": true,
+  "save_on_each_node": false,
+  "save_only_model": false,
+  "restore_callback_states_from_checkpoint": false,
+  "no_cuda": false,
+  "use_cpu": false,
+  "use_mps_device": false,
+  "seed": 42,
+  "data_seed": 42,
+  "jit_mode_eval": false,
+  "bf16": true,
+  "fp16": false,
+  "fp16_opt_level": "O1",
+  "half_precision_backend": "auto",
+  "bf16_full_eval": false,
+  "fp16_full_eval": false,
+  "tf32": null,
+  "local_rank": -1,
+  "ddp_backend": null,
+  "tpu_num_cores": null,
+  "tpu_metrics_debug": false,
+  "debug": null,
+  "dataloader_drop_last": false,
+  "eval_steps": 100.0,
+  "dataloader_num_workers": 4,
+  "dataloader_prefetch_factor": null,
+  "past_index": -1,
+  "run_name": "/home/ab/document-parsing/output/training/v1-20260117-010840",
+  "disable_tqdm": null,
+  "remove_unused_columns": true,
+  "label_names": null,
+  "load_best_model_at_end": false,
+  "metric_for_best_model": "loss",
+  "greater_is_better": false,
+  "ignore_data_skip": false,
+  "fsdp": [],
+  "fsdp_min_num_params": 0,
+  "fsdp_config": null,
+  "fsdp_transformer_layer_cls_to_wrap": null,
+  "accelerator_config": {
+    "dispatch_batches": false
+  },
+  "parallelism_config": null,
+  "deepspeed": null,
+  "label_smoothing_factor": 0.0,
+  "optim": "adamw_torch_fused",
+  "optim_args": null,
+  "adafactor": false,
+  "group_by_length": false,
+  "length_column_name": "length",
+  "report_to": [
+    "tensorboard"
+  ],
+  "project": "huggingface",
+  "trackio_space_id": "trackio",
+  "ddp_find_unused_parameters": null,
+  "ddp_bucket_cap_mb": null,
+  "ddp_broadcast_buffers": null,
+  "dataloader_pin_memory": true,
+  "dataloader_persistent_workers": false,
+  "skip_memory_metrics": true,
+  "use_legacy_prediction_loop": false,
+  "push_to_hub": false,
+  "resume_from_checkpoint": null,
+  "hub_model_id": null,
+  "hub_strategy": "every_save",
+  "hub_token": null,
+  "hub_private_repo": null,
+  "hub_always_push": false,
+  "hub_revision": null,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": null,
+  "include_inputs_for_metrics": false,
+  "include_for_metrics": [],
+  "eval_do_concat_batches": true,
+  "fp16_backend": "auto",
+  "push_to_hub_model_id": null,
+  "push_to_hub_organization": null,
+  "push_to_hub_token": null,
+  "mp_parameters": "",
+  "auto_find_batch_size": false,
+  "full_determinism": false,
+  "torchdynamo": null,
+  "ray_scope": "last",
+  "ddp_timeout": 18000000,
+  "torch_compile": false,
+  "torch_compile_backend": null,
+  "torch_compile_mode": null,
+  "include_tokens_per_second": false,
+  "include_num_input_tokens_seen": false,
+  "neftune_noise_alpha": null,
+  "optim_target_modules": null,
+  "batch_eval_metrics": false,
+  "eval_on_start": false,
+  "use_liger_kernel": false,
+  "liger_kernel_config": null,
+  "eval_use_gather_object": false,
+  "average_tokens_across_devices": true,
+  "sortish_sampler": false,
+  "predict_with_generate": false,
+  "generation_max_length": null,
+  "generation_num_beams": null,
+  "generation_config": null,
+  "tuner_backend": "peft",
+  "vit_gradient_checkpointing": null,
+  "router_aux_loss_coef": 0.0,
+  "enable_dft_loss": false,
+  "enable_channel_loss": false,
+  "check_model": true,
+  "acc_strategy": "token",
+  "train_dataloader_shuffle": true,
+  "max_epochs": null,
+  "aligner_lr": null,
+  "vit_lr": null,
+  "use_logits_to_keep": null,
+  "ds3_gather_for_generation": true,
+  "resume_only_model": false,
+  "optimizer": null,
+  "loss_type": null,
+  "metric": null,
+  "eval_use_evalscope": false,
+  "eval_dataset": [],
+  "eval_dataset_args": null,
+  "eval_limit": null,
+  "eval_generation_config": null,
+  "extra_eval_args": null,
+  "use_flash_ckpt": false,
+  "use_ray": false,
+  "ray_exp_name": null,
+  "device_groups": null,
+  "model": "nanonets/Nanonets-OCR2-3B",
+  "model_type": "qwen2_5_vl",
+  "model_revision": null,
+  "task_type": "causal_lm",
+  "torch_dtype": "bfloat16",
+  "attn_impl": null,
+  "new_special_tokens": [],
+  "num_labels": null,
+  "problem_type": null,
+  "rope_scaling": null,
+  "device_map": null,
+  "max_memory": {},
+  "max_model_len": null,
+  "local_repo_path": null,
+  "init_strategy": null,
+  "template": "qwen2_5_vl",
+  "system": null,
+  "max_length": 8192,
+  "truncation_strategy": "delete",
+  "max_pixels": null,
+  "agent_template": null,
+  "norm_bbox": null,
+  "use_chat_template": true,
+  "padding_side": "right",
+  "padding_free": false,
+  "loss_scale": "default",
+  "sequence_parallel_size": 1,
+  "template_backend": "swift",
+  "response_prefix": null,
+  "enable_thinking": null,
+  "add_non_thinking_prefix": true,
+  "dataset": [
+    "/home/ab/document-parsing/output/datasets/train.jsonl"
+  ],
+  "val_dataset": [],
+  "cached_dataset": [],
+  "cached_val_dataset": [],
+  "split_dataset_ratio": 0.0,
+  "dataset_num_proc": 1,
+  "load_from_cache_file": false,
+  "dataset_shuffle": true,
+  "val_dataset_shuffle": false,
+  "streaming": false,
+  "interleave_prob": null,
+  "stopping_strategy": "first_exhausted",
+  "shuffle_buffer_size": 1000,
+  "download_mode": "reuse_dataset_if_exists",
+  "columns": {},
+  "strict": false,
+  "model_name": null,
+  "model_author": null,
+  "custom_dataset_info": [],
+  "quant_method": null,
+  "quant_bits": null,
+  "hqq_axis": null,
+  "bnb_4bit_compute_dtype": "bfloat16",
+  "bnb_4bit_quant_type": "nf4",
+  "bnb_4bit_use_double_quant": true,
+  "bnb_4bit_quant_storage": null,
+  "max_new_tokens": 64,
+  "temperature": 0.0,
+  "top_k": null,
+  "top_p": null,
+  "repetition_penalty": null,
+  "num_beams": 1,
+  "stream": false,
+  "stop_words": [],
+  "logprobs": false,
+  "top_logprobs": null,
+  "structured_outputs_regex": null,
+  "ckpt_dir": null,
+  "lora_modules": [],
+  "train_type": "lora",
+  "adapters": [],
+  "external_plugins": [],
+  "model_kwargs": {},
+  "load_args": false,
+  "load_data_args": false,
+  "packing": false,
+  "packing_length": null,
+  "packing_num_proc": 1,
+  "lazy_tokenize": true,
+  "custom_register_path": [],
+  "use_hf": false,
+  "ignore_args_error": false,
+  "use_swift_lora": false,
+  "freeze_parameters": [],
+  "freeze_parameters_regex": null,
+  "freeze_parameters_ratio": 0.0,
+  "trainable_parameters": [],
+  "trainable_parameters_regex": null,
+  "freeze_llm": false,
+  "freeze_vit": false,
+  "freeze_aligner": true,
+  "target_modules": [
+    "all-linear"
+  ],
+  "target_regex": null,
+  "target_parameters": null,
+  "modules_to_save": [],
+  "lora_rank": 64,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "lora_bias": "none",
+  "lora_dtype": null,
+  "lorap_lr_ratio": null,
+  "use_rslora": false,
+  "use_dora": false,
+  "lora_ga_batch_size": 2,
+  "lora_ga_iters": 2,
+  "lora_ga_max_length": 1024,
+  "lora_ga_direction": "ArB2r",
+  "lora_ga_scale": "stable",
+  "lora_ga_stable_gamma": 16,
+  "init_weights": true,
+  "fourier_n_frequency": 2000,
+  "fourier_scaling": 300.0,
+  "boft_block_size": 4,
+  "boft_block_num": 0,
+  "boft_n_butterfly_factor": 1,
+  "boft_dropout": 0.0,
+  "vera_rank": 256,
+  "vera_projection_prng_key": 0,
+  "vera_dropout": 0.0,
+  "vera_d_initial": 0.1,
+  "adapter_act": "gelu",
+  "adapter_length": 128,
+  "use_galore": false,
+  "galore_target_modules": null,
+  "galore_rank": 128,
+  "galore_update_proj_gap": 50,
+  "galore_scale": 1.0,
+  "galore_proj_type": "std",
+  "galore_optim_per_parameter": false,
+  "galore_with_embedding": false,
+  "galore_quantization": false,
+  "galore_proj_quant": false,
+  "galore_proj_bits": 4,
+  "galore_proj_group_size": 256,
+  "galore_cos_threshold": 0.4,
+  "galore_gamma_proj": 2,
+  "galore_queue_size": 5,
+  "adalora_target_r": 8,
+  "adalora_init_r": 12,
+  "adalora_tinit": 0,
+  "adalora_tfinal": 0,
+  "adalora_deltaT": 1,
+  "adalora_beta1": 0.85,
+  "adalora_beta2": 0.85,
+  "adalora_orth_reg_weight": 0.5,
+  "llamapro_num_new_blocks": 4,
+  "llamapro_num_groups": null,
+  "lisa_activated_layers": 0,
+  "lisa_step_interval": 20,
+  "reft_layer_key": null,
+  "reft_layers": null,
+  "reft_rank": 4,
+  "reft_intervention_type": "LoreftIntervention",
+  "reft_args": null,
+  "swanlab_token": null,
+  "swanlab_project": "ms-swift",
+  "swanlab_workspace": null,
+  "swanlab_exp_name": null,
+  "swanlab_notification_method": null,
+  "swanlab_webhook_url": null,
+  "swanlab_secret": null,
+  "swanlab_mode": "cloud",
+  "add_version": true,
+  "create_checkpoint_symlink": false,
+  "zero_hpz_partition_size": null,
+  "deepspeed_autotp_size": null,
+  "early_stop_interval": null,
+  "rank": -1,
+  "global_world_size": 1,
+  "local_world_size": 1,
+  "model_suffix": "Nanonets-OCR2-3B",
+  "model_info": "ModelInfo(model_type='qwen2_5_vl', model_dir='/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B', torch_dtype=torch.bfloat16, max_model_len=128000, quant_method=None, quant_bits=None, rope_scaling={'mrope_section': [16, 24, 24], 'rope_type': 'default', 'type': 'default'}, is_moe_model=False, is_multimodal=True, config=None, task_type='causal_lm', num_labels=None)",
+  "model_meta": "ModelMeta(model_type='qwen2_5_vl', model_groups=[ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='qwen2_5_vl', get_function=<function get_model_tokenizer_qwen2_5_vl at 0x7c76215fac00>, model_arch=MultiModelKeys(arch_name='qwen2_vl', embedding=None, module_list=None, lm_head=None, q_proj=None, k_proj=None, v_proj=None, o_proj=None, attention=None, mlp=None, down_proj=None, qkv_proj=None, qk_proj=None, qa_proj=None, qb_proj=None, kv_proj=None, kva_proj=None, kvb_proj=None, language_model=['model.language_model', 'lm_head'], aligner=['model.visual.merger'], vision_tower=['model.visual'], generator=[]), architectures=['Qwen2_5_VLForConditionalGeneration'], additional_saved_files=[], torch_dtype=None, is_multimodal=True, is_reward=False, is_reranker=False, task_type=None, ignore_patterns=None, requires=['transformers>=4.49', 'qwen_vl_utils>=0.0.6', 'decord'], tags=['vision', 'video'])",
+  "model_dir": "/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B",
+  "_val_dataset_exists": [],
+  "hub": "<class 'swift.hub.hub.MSHub'>",
+  "evaluation_strategy": "steps",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/home/ab/document-parsing/output/training/v1-20260117-010840', overwrite_output_dir=False, do_train=False, do_eval=False, do_predict=False, eval_strategy=<IntervalStrategy.NO: 'no'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=8, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=0.0001, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=10.0, max_steps=-1, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs=None, warmup_ratio=0.05, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/home/ab/document-parsing/output/training/v1-20260117-010840/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=10, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=100, save_total_limit=3, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=100.0, dataloader_num_workers=4, dataloader_prefetch_factor=2, past_index=-1, run_name='/home/ab/document-parsing/output/training/v1-20260117-010840', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), parallelism_config=None, deepspeed=None, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH_FUSED: 'adamw_torch_fused'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['tensorboard'], project='huggingface', trackio_space_id='trackio', ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=False, resume_from_checkpoint=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=None, hub_always_push=False, hub_revision=None, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=18000000, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, liger_kernel_config=None, eval_use_gather_object=False, average_tokens_across_devices=None, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, tuner_backend='peft', vit_gradient_checkpointing=True, router_aux_loss_coef=0.0, enable_dft_loss=False, enable_channel_loss=False, check_model=True, acc_strategy='token', train_dataloader_shuffle=True, max_epochs=None, aligner_lr=None, vit_lr=None, use_logits_to_keep=None, ds3_gather_for_generation=True, resume_only_model=False, optimizer=None, loss_type=None, metric=None, eval_use_evalscope=False, eval_dataset=[], eval_dataset_args=None, eval_limit=None, eval_generation_config=None, extra_eval_args=None, use_flash_ckpt=False, sft_alpha=0, chord_sft_dataset=[], chord_sft_per_device_train_batch_size=None, chord_enable_phi_function=False, chord_mu_warmup_steps=None, chord_mu_decay_steps=None, chord_mu_peak=None, chord_mu_valley=None, train_type='lora', local_repo_path=None, galore_config=None, task_type='causal_lm', problem_type=None)"
+}

output/training/v1-20260117-010840-10e/checkpoint-400/README.md ADDED Viewed

	@@ -0,0 +1,207 @@

+---
+base_model: ''
+library_name: peft
+pipeline_tag: text-generation
+tags:
+- base_model:adapter:/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B
+- lora
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.1

output/training/v1-20260117-010840-10e/checkpoint-400/adapter_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [],
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "^(model.language_model.*\\.(down_proj|up_proj|gate_proj|v_proj|k_proj|q_proj|o_proj)|(?!(model.visual.merger))model.visual.*\\.(mlp.0|down_proj|up_proj|gate_proj|mlp.2|qkv|attn.proj))$",
+  "target_parameters": null,
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

output/training/v1-20260117-010840-10e/checkpoint-400/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2b5ba0bce8b712e8f48caae7682b785de24c5632eb5b9ada4c276878e3e846c
+size 657478696

output/training/v1-20260117-010840-10e/checkpoint-400/additional_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lora_dtype": null, "lorap_lr_ratio": null, "lorap_emb_lr": 1e-06}

output/training/v1-20260117-010840-10e/checkpoint-400/args.json ADDED Viewed

	@@ -0,0 +1,353 @@

+{
+  "output_dir": "/home/ab/document-parsing/output/training/v1-20260117-010840",
+  "overwrite_output_dir": false,
+  "do_train": false,
+  "do_eval": false,
+  "do_predict": false,
+  "eval_strategy": "no",
+  "prediction_loss_only": false,
+  "per_device_train_batch_size": 1,
+  "per_device_eval_batch_size": 1,
+  "per_gpu_train_batch_size": null,
+  "per_gpu_eval_batch_size": null,
+  "gradient_accumulation_steps": 8,
+  "eval_accumulation_steps": null,
+  "eval_delay": 0,
+  "torch_empty_cache_steps": null,
+  "learning_rate": 0.0001,
+  "weight_decay": 0.1,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.95,
+  "adam_epsilon": 1e-08,
+  "max_grad_norm": 1.0,
+  "num_train_epochs": 10.0,
+  "max_steps": -1,
+  "lr_scheduler_type": "cosine",
+  "lr_scheduler_kwargs": null,
+  "warmup_ratio": 0.05,
+  "warmup_steps": 0,
+  "log_level": "passive",
+  "log_level_replica": "warning",
+  "log_on_each_node": true,
+  "logging_dir": "/home/ab/document-parsing/output/training/v1-20260117-010840/runs",
+  "logging_strategy": "steps",
+  "logging_first_step": true,
+  "logging_steps": 10,
+  "logging_nan_inf_filter": true,
+  "save_strategy": "steps",
+  "save_steps": 100.0,
+  "save_total_limit": 3,
+  "save_safetensors": true,
+  "save_on_each_node": false,
+  "save_only_model": false,
+  "restore_callback_states_from_checkpoint": false,
+  "no_cuda": false,
+  "use_cpu": false,
+  "use_mps_device": false,
+  "seed": 42,
+  "data_seed": 42,
+  "jit_mode_eval": false,
+  "bf16": true,
+  "fp16": false,
+  "fp16_opt_level": "O1",
+  "half_precision_backend": "auto",
+  "bf16_full_eval": false,
+  "fp16_full_eval": false,
+  "tf32": null,
+  "local_rank": -1,
+  "ddp_backend": null,
+  "tpu_num_cores": null,
+  "tpu_metrics_debug": false,
+  "debug": null,
+  "dataloader_drop_last": false,
+  "eval_steps": 100.0,
+  "dataloader_num_workers": 4,
+  "dataloader_prefetch_factor": null,
+  "past_index": -1,
+  "run_name": "/home/ab/document-parsing/output/training/v1-20260117-010840",
+  "disable_tqdm": null,
+  "remove_unused_columns": true,
+  "label_names": null,
+  "load_best_model_at_end": false,
+  "metric_for_best_model": "loss",
+  "greater_is_better": false,
+  "ignore_data_skip": false,
+  "fsdp": [],
+  "fsdp_min_num_params": 0,
+  "fsdp_config": null,
+  "fsdp_transformer_layer_cls_to_wrap": null,
+  "accelerator_config": {
+    "dispatch_batches": false
+  },
+  "parallelism_config": null,
+  "deepspeed": null,
+  "label_smoothing_factor": 0.0,
+  "optim": "adamw_torch_fused",
+  "optim_args": null,
+  "adafactor": false,
+  "group_by_length": false,
+  "length_column_name": "length",
+  "report_to": [
+    "tensorboard"
+  ],
+  "project": "huggingface",
+  "trackio_space_id": "trackio",
+  "ddp_find_unused_parameters": null,
+  "ddp_bucket_cap_mb": null,
+  "ddp_broadcast_buffers": null,
+  "dataloader_pin_memory": true,
+  "dataloader_persistent_workers": false,
+  "skip_memory_metrics": true,
+  "use_legacy_prediction_loop": false,
+  "push_to_hub": false,
+  "resume_from_checkpoint": null,
+  "hub_model_id": null,
+  "hub_strategy": "every_save",
+  "hub_token": null,
+  "hub_private_repo": null,
+  "hub_always_push": false,
+  "hub_revision": null,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": null,
+  "include_inputs_for_metrics": false,
+  "include_for_metrics": [],
+  "eval_do_concat_batches": true,
+  "fp16_backend": "auto",
+  "push_to_hub_model_id": null,
+  "push_to_hub_organization": null,
+  "push_to_hub_token": null,
+  "mp_parameters": "",
+  "auto_find_batch_size": false,
+  "full_determinism": false,
+  "torchdynamo": null,
+  "ray_scope": "last",
+  "ddp_timeout": 18000000,
+  "torch_compile": false,
+  "torch_compile_backend": null,
+  "torch_compile_mode": null,
+  "include_tokens_per_second": false,
+  "include_num_input_tokens_seen": false,
+  "neftune_noise_alpha": null,
+  "optim_target_modules": null,
+  "batch_eval_metrics": false,
+  "eval_on_start": false,
+  "use_liger_kernel": false,
+  "liger_kernel_config": null,
+  "eval_use_gather_object": false,
+  "average_tokens_across_devices": true,
+  "sortish_sampler": false,
+  "predict_with_generate": false,
+  "generation_max_length": null,
+  "generation_num_beams": null,
+  "generation_config": null,
+  "tuner_backend": "peft",
+  "vit_gradient_checkpointing": null,
+  "router_aux_loss_coef": 0.0,
+  "enable_dft_loss": false,
+  "enable_channel_loss": false,
+  "check_model": true,
+  "acc_strategy": "token",
+  "train_dataloader_shuffle": true,
+  "max_epochs": null,
+  "aligner_lr": null,
+  "vit_lr": null,
+  "use_logits_to_keep": null,
+  "ds3_gather_for_generation": true,
+  "resume_only_model": false,
+  "optimizer": null,
+  "loss_type": null,
+  "metric": null,
+  "eval_use_evalscope": false,
+  "eval_dataset": [],
+  "eval_dataset_args": null,
+  "eval_limit": null,
+  "eval_generation_config": null,
+  "extra_eval_args": null,
+  "use_flash_ckpt": false,
+  "use_ray": false,
+  "ray_exp_name": null,
+  "device_groups": null,
+  "model": "nanonets/Nanonets-OCR2-3B",
+  "model_type": "qwen2_5_vl",
+  "model_revision": null,
+  "task_type": "causal_lm",
+  "torch_dtype": "bfloat16",
+  "attn_impl": null,
+  "new_special_tokens": [],
+  "num_labels": null,
+  "problem_type": null,
+  "rope_scaling": null,
+  "device_map": null,
+  "max_memory": {},
+  "max_model_len": null,
+  "local_repo_path": null,
+  "init_strategy": null,
+  "template": "qwen2_5_vl",
+  "system": null,
+  "max_length": 8192,
+  "truncation_strategy": "delete",
+  "max_pixels": null,
+  "agent_template": null,
+  "norm_bbox": null,
+  "use_chat_template": true,
+  "padding_side": "right",
+  "padding_free": false,
+  "loss_scale": "default",
+  "sequence_parallel_size": 1,
+  "template_backend": "swift",
+  "response_prefix": null,
+  "enable_thinking": null,
+  "add_non_thinking_prefix": true,
+  "dataset": [
+    "/home/ab/document-parsing/output/datasets/train.jsonl"
+  ],
+  "val_dataset": [],
+  "cached_dataset": [],
+  "cached_val_dataset": [],
+  "split_dataset_ratio": 0.0,
+  "dataset_num_proc": 1,
+  "load_from_cache_file": false,
+  "dataset_shuffle": true,
+  "val_dataset_shuffle": false,
+  "streaming": false,
+  "interleave_prob": null,
+  "stopping_strategy": "first_exhausted",
+  "shuffle_buffer_size": 1000,
+  "download_mode": "reuse_dataset_if_exists",
+  "columns": {},
+  "strict": false,
+  "model_name": null,
+  "model_author": null,
+  "custom_dataset_info": [],
+  "quant_method": null,
+  "quant_bits": null,
+  "hqq_axis": null,
+  "bnb_4bit_compute_dtype": "bfloat16",
+  "bnb_4bit_quant_type": "nf4",
+  "bnb_4bit_use_double_quant": true,
+  "bnb_4bit_quant_storage": null,
+  "max_new_tokens": 64,
+  "temperature": 0.0,
+  "top_k": null,
+  "top_p": null,
+  "repetition_penalty": null,
+  "num_beams": 1,
+  "stream": false,
+  "stop_words": [],
+  "logprobs": false,
+  "top_logprobs": null,
+  "structured_outputs_regex": null,
+  "ckpt_dir": null,
+  "lora_modules": [],
+  "train_type": "lora",
+  "adapters": [],
+  "external_plugins": [],
+  "model_kwargs": {},
+  "load_args": false,
+  "load_data_args": false,
+  "packing": false,
+  "packing_length": null,
+  "packing_num_proc": 1,
+  "lazy_tokenize": true,
+  "custom_register_path": [],
+  "use_hf": false,
+  "ignore_args_error": false,
+  "use_swift_lora": false,
+  "freeze_parameters": [],
+  "freeze_parameters_regex": null,
+  "freeze_parameters_ratio": 0.0,
+  "trainable_parameters": [],
+  "trainable_parameters_regex": null,
+  "freeze_llm": false,
+  "freeze_vit": false,
+  "freeze_aligner": true,
+  "target_modules": [
+    "all-linear"
+  ],
+  "target_regex": null,
+  "target_parameters": null,
+  "modules_to_save": [],
+  "lora_rank": 64,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "lora_bias": "none",
+  "lora_dtype": null,
+  "lorap_lr_ratio": null,
+  "use_rslora": false,
+  "use_dora": false,
+  "lora_ga_batch_size": 2,
+  "lora_ga_iters": 2,
+  "lora_ga_max_length": 1024,
+  "lora_ga_direction": "ArB2r",
+  "lora_ga_scale": "stable",
+  "lora_ga_stable_gamma": 16,
+  "init_weights": true,
+  "fourier_n_frequency": 2000,
+  "fourier_scaling": 300.0,
+  "boft_block_size": 4,
+  "boft_block_num": 0,
+  "boft_n_butterfly_factor": 1,
+  "boft_dropout": 0.0,
+  "vera_rank": 256,
+  "vera_projection_prng_key": 0,
+  "vera_dropout": 0.0,
+  "vera_d_initial": 0.1,
+  "adapter_act": "gelu",
+  "adapter_length": 128,
+  "use_galore": false,
+  "galore_target_modules": null,
+  "galore_rank": 128,
+  "galore_update_proj_gap": 50,
+  "galore_scale": 1.0,
+  "galore_proj_type": "std",
+  "galore_optim_per_parameter": false,
+  "galore_with_embedding": false,
+  "galore_quantization": false,
+  "galore_proj_quant": false,
+  "galore_proj_bits": 4,
+  "galore_proj_group_size": 256,
+  "galore_cos_threshold": 0.4,
+  "galore_gamma_proj": 2,
+  "galore_queue_size": 5,
+  "adalora_target_r": 8,
+  "adalora_init_r": 12,
+  "adalora_tinit": 0,
+  "adalora_tfinal": 0,
+  "adalora_deltaT": 1,
+  "adalora_beta1": 0.85,
+  "adalora_beta2": 0.85,
+  "adalora_orth_reg_weight": 0.5,
+  "llamapro_num_new_blocks": 4,
+  "llamapro_num_groups": null,
+  "lisa_activated_layers": 0,
+  "lisa_step_interval": 20,
+  "reft_layer_key": null,
+  "reft_layers": null,
+  "reft_rank": 4,
+  "reft_intervention_type": "LoreftIntervention",
+  "reft_args": null,
+  "swanlab_token": null,
+  "swanlab_project": "ms-swift",
+  "swanlab_workspace": null,
+  "swanlab_exp_name": null,
+  "swanlab_notification_method": null,
+  "swanlab_webhook_url": null,
+  "swanlab_secret": null,
+  "swanlab_mode": "cloud",
+  "add_version": true,
+  "create_checkpoint_symlink": false,
+  "zero_hpz_partition_size": null,
+  "deepspeed_autotp_size": null,
+  "early_stop_interval": null,
+  "rank": -1,
+  "global_world_size": 1,
+  "local_world_size": 1,
+  "model_suffix": "Nanonets-OCR2-3B",
+  "model_info": "ModelInfo(model_type='qwen2_5_vl', model_dir='/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B', torch_dtype=torch.bfloat16, max_model_len=128000, quant_method=None, quant_bits=None, rope_scaling={'mrope_section': [16, 24, 24], 'rope_type': 'default', 'type': 'default'}, is_moe_model=False, is_multimodal=True, config=None, task_type='causal_lm', num_labels=None)",
+  "model_meta": "ModelMeta(model_type='qwen2_5_vl', model_groups=[ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='qwen2_5_vl', get_function=<function get_model_tokenizer_qwen2_5_vl at 0x7c76215fac00>, model_arch=MultiModelKeys(arch_name='qwen2_vl', embedding=None, module_list=None, lm_head=None, q_proj=None, k_proj=None, v_proj=None, o_proj=None, attention=None, mlp=None, down_proj=None, qkv_proj=None, qk_proj=None, qa_proj=None, qb_proj=None, kv_proj=None, kva_proj=None, kvb_proj=None, language_model=['model.language_model', 'lm_head'], aligner=['model.visual.merger'], vision_tower=['model.visual'], generator=[]), architectures=['Qwen2_5_VLForConditionalGeneration'], additional_saved_files=[], torch_dtype=None, is_multimodal=True, is_reward=False, is_reranker=False, task_type=None, ignore_patterns=None, requires=['transformers>=4.49', 'qwen_vl_utils>=0.0.6', 'decord'], tags=['vision', 'video'])",
+  "model_dir": "/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B",
+  "_val_dataset_exists": [],
+  "hub": "<class 'swift.hub.hub.MSHub'>",
+  "evaluation_strategy": "steps",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/home/ab/document-parsing/output/training/v1-20260117-010840', overwrite_output_dir=False, do_train=False, do_eval=False, do_predict=False, eval_strategy=<IntervalStrategy.NO: 'no'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=8, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=0.0001, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=10.0, max_steps=-1, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs=None, warmup_ratio=0.05, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/home/ab/document-parsing/output/training/v1-20260117-010840/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=10, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=100, save_total_limit=3, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=100.0, dataloader_num_workers=4, dataloader_prefetch_factor=2, past_index=-1, run_name='/home/ab/document-parsing/output/training/v1-20260117-010840', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), parallelism_config=None, deepspeed=None, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH_FUSED: 'adamw_torch_fused'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['tensorboard'], project='huggingface', trackio_space_id='trackio', ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=False, resume_from_checkpoint=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=None, hub_always_push=False, hub_revision=None, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=18000000, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, liger_kernel_config=None, eval_use_gather_object=False, average_tokens_across_devices=None, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, tuner_backend='peft', vit_gradient_checkpointing=True, router_aux_loss_coef=0.0, enable_dft_loss=False, enable_channel_loss=False, check_model=True, acc_strategy='token', train_dataloader_shuffle=True, max_epochs=None, aligner_lr=None, vit_lr=None, use_logits_to_keep=None, ds3_gather_for_generation=True, resume_only_model=False, optimizer=None, loss_type=None, metric=None, eval_use_evalscope=False, eval_dataset=[], eval_dataset_args=None, eval_limit=None, eval_generation_config=None, extra_eval_args=None, use_flash_ckpt=False, sft_alpha=0, chord_sft_dataset=[], chord_sft_per_device_train_batch_size=None, chord_enable_phi_function=False, chord_mu_warmup_steps=None, chord_mu_decay_steps=None, chord_mu_peak=None, chord_mu_valley=None, train_type='lora', local_repo_path=None, galore_config=None, task_type='causal_lm', problem_type=None)"
+}

output/training/v1-20260117-010840-10e/checkpoint-400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0afd7d8505ae4933e4e78ce4c55d839caaabc686b92aa786281b243459ae37b4
+size 1315426955

output/training/v1-20260117-010840-10e/checkpoint-400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc4a4100c327fe3f0fcd1d4d8851acffbbca0e1e3e5eb0db757b527d667f5693
+size 14645

output/training/v1-20260117-010840-10e/checkpoint-400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d691cf1f75a0b30db18024d2926eda7b28204001f31010c4675f4b4a4df90aaa
+size 1465

output/training/v1-20260117-010840-10e/checkpoint-400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,362 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.9004329004329,
+  "eval_steps": 100.0,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.017316017316017316,
+      "grad_norm": 0.4092565178871155,
+      "learning_rate": 3.448275862068966e-06,
+      "loss": 1.4861114025115967,
+      "step": 1,
+      "token_acc": 0.6811960725974412
+    },
+    {
+      "epoch": 0.17316017316017315,
+      "grad_norm": 0.3977337181568146,
+      "learning_rate": 3.4482758620689657e-05,
+      "loss": 1.4343115488688152,
+      "step": 10,
+      "token_acc": 0.6920024476626676
+    },
+    {
+      "epoch": 0.3463203463203463,
+      "grad_norm": 0.2495131641626358,
+      "learning_rate": 6.896551724137931e-05,
+      "loss": 1.3693717956542968,
+      "step": 20,
+      "token_acc": 0.7011260365349897
+    },
+    {
+      "epoch": 0.5194805194805194,
+      "grad_norm": 0.24984458088874817,
+      "learning_rate": 9.999918729041868e-05,
+      "loss": 1.1922229766845702,
+      "step": 30,
+      "token_acc": 0.726987948088823
+    },
+    {
+      "epoch": 0.6926406926406926,
+      "grad_norm": 0.3221384584903717,
+      "learning_rate": 9.990169410465536e-05,
+      "loss": 1.0192347526550294,
+      "step": 40,
+      "token_acc": 0.7609010955099522
+    },
+    {
+      "epoch": 0.8658008658008658,
+      "grad_norm": 0.40206295251846313,
+      "learning_rate": 9.964202208175834e-05,
+      "loss": 0.9150349617004394,
+      "step": 50,
+      "token_acc": 0.7773335965518376
+    },
+    {
+      "epoch": 1.0346320346320346,
+      "grad_norm": 0.20406530797481537,
+      "learning_rate": 9.922101514711866e-05,
+      "loss": 0.7742667198181152,
+      "step": 60,
+      "token_acc": 0.8123942631570925
+    },
+    {
+      "epoch": 1.2077922077922079,
+      "grad_norm": 1.4768069982528687,
+      "learning_rate": 9.864004155919543e-05,
+      "loss": 0.6983946800231934,
+      "step": 70,
+      "token_acc": 0.8248333138378757
+    },
+    {
+      "epoch": 1.380952380952381,
+      "grad_norm": 0.611409604549408,
+      "learning_rate": 9.790098946272177e-05,
+      "loss": 0.6138243198394775,
+      "step": 80,
+      "token_acc": 0.8442561143531572
+    },
+    {
+      "epoch": 1.554112554112554,
+      "grad_norm": 0.3051394820213318,
+      "learning_rate": 9.700626075229738e-05,
+      "loss": 0.5975491523742675,
+      "step": 90,
+      "token_acc": 0.8483123092893768
+    },
+    {
+      "epoch": 1.7272727272727273,
+      "grad_norm": 0.3783220648765564,
+      "learning_rate": 9.595876326631154e-05,
+      "loss": 0.5410520553588867,
+      "step": 100,
+      "token_acc": 0.8605094145609629
+    },
+    {
+      "epoch": 1.9004329004329006,
+      "grad_norm": 0.6039865612983704,
+      "learning_rate": 9.476190133656548e-05,
+      "loss": 0.5531170845031739,
+      "step": 110,
+      "token_acc": 0.8547892544963617
+    },
+    {
+      "epoch": 2.069264069264069,
+      "grad_norm": 0.5374985337257385,
+      "learning_rate": 9.341956472430801e-05,
+      "loss": 0.5079349040985107,
+      "step": 120,
+      "token_acc": 0.864488826645558
+    },
+    {
+      "epoch": 2.242424242424242,
+      "grad_norm": 0.364619642496109,
+      "learning_rate": 9.193611597864139e-05,
+      "loss": 0.44995865821838377,
+      "step": 130,
+      "token_acc": 0.8797397710240138
+    },
+    {
+      "epoch": 2.4155844155844157,
+      "grad_norm": 1.59947669506073,
+      "learning_rate": 9.031637625838265e-05,
+      "loss": 0.429323148727417,
+      "step": 140,
+      "token_acc": 0.8858490566037736
+    },
+    {
+      "epoch": 2.588744588744589,
+      "grad_norm": 0.46518200635910034,
+      "learning_rate": 8.856560966345877e-05,
+      "loss": 0.4315037727355957,
+      "step": 150,
+      "token_acc": 0.8819307344821817
+    },
+    {
+      "epoch": 2.761904761904762,
+      "grad_norm": 0.691148579120636,
+      "learning_rate": 8.668950612675785e-05,
+      "loss": 0.40119166374206544,
+      "step": 160,
+      "token_acc": 0.8896224924972358
+    },
+    {
+      "epoch": 2.935064935064935,
+      "grad_norm": 0.3540444076061249,
+      "learning_rate": 8.469416292203747e-05,
+      "loss": 0.40500435829162595,
+      "step": 170,
+      "token_acc": 0.8917646715924161
+    },
+    {
+      "epoch": 3.103896103896104,
+      "grad_norm": 0.3412817418575287,
+      "learning_rate": 8.258606484798897e-05,
+      "loss": 0.37092483043670654,
+      "step": 180,
+      "token_acc": 0.8977291233149371
+    },
+    {
+      "epoch": 3.277056277056277,
+      "grad_norm": 0.34155094623565674,
+      "learning_rate": 8.037206315285843e-05,
+      "loss": 0.344103741645813,
+      "step": 190,
+      "token_acc": 0.9065206570433051
+    },
+    {
+      "epoch": 3.45021645021645,
+      "grad_norm": 0.3627335727214813,
+      "learning_rate": 7.805935326811912e-05,
+      "loss": 0.3504387140274048,
+      "step": 200,
+      "token_acc": 0.9002762340096682
+    },
+    {
+      "epoch": 3.6233766233766236,
+      "grad_norm": 0.8141089677810669,
+      "learning_rate": 7.565545142355971e-05,
+      "loss": 0.3558197498321533,
+      "step": 210,
+      "token_acc": 0.8999160043936163
+    },
+    {
+      "epoch": 3.7965367965367967,
+      "grad_norm": 0.6176502108573914,
+      "learning_rate": 7.316817021978884e-05,
+      "loss": 0.33676347732543943,
+      "step": 220,
+      "token_acc": 0.904816147992892
+    },
+    {
+      "epoch": 3.9696969696969697,
+      "grad_norm": 0.49287620186805725,
+      "learning_rate": 7.060559323754435e-05,
+      "loss": 0.35226542949676515,
+      "step": 230,
+      "token_acc": 0.9020813028578615
+    },
+    {
+      "epoch": 4.138528138528138,
+      "grad_norm": 0.6057422161102295,
+      "learning_rate": 6.797604876632633e-05,
+      "loss": 0.3057840585708618,
+      "step": 240,
+      "token_acc": 0.9123896645803242
+    },
+    {
+      "epoch": 4.311688311688312,
+      "grad_norm": 12.585014343261719,
+      "learning_rate": 6.528808273773461e-05,
+      "loss": 0.301344108581543,
+      "step": 250,
+      "token_acc": 0.9142363149996737
+    },
+    {
+      "epoch": 4.484848484848484,
+      "grad_norm": 0.32902830839157104,
+      "learning_rate": 6.255043095147679e-05,
+      "loss": 0.2898148775100708,
+      "step": 260,
+      "token_acc": 0.9177889157552563
+    },
+    {
+      "epoch": 4.658008658008658,
+      "grad_norm": 0.39732787013053894,
+      "learning_rate": 5.9771990684311544e-05,
+      "loss": 0.29072208404541017,
+      "step": 270,
+      "token_acc": 0.917258875717698
+    },
+    {
+      "epoch": 4.8311688311688314,
+      "grad_norm": 0.44461533427238464,
+      "learning_rate": 5.6961791774196424e-05,
+      "loss": 0.2852530241012573,
+      "step": 280,
+      "token_acc": 0.9166775180675826
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.35245048999786377,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 0.3020582675933838,
+      "step": 290,
+      "token_acc": 0.9138208862720794
+    },
+    {
+      "epoch": 5.1731601731601735,
+      "grad_norm": 0.36154425144195557,
+      "learning_rate": 5.128272376746972e-05,
+      "loss": 0.23758175373077392,
+      "step": 300,
+      "token_acc": 0.9282945419454031
+    },
+    {
+      "epoch": 5.346320346320346,
+      "grad_norm": 0.40296199917793274,
+      "learning_rate": 4.8432311451972665e-05,
+      "loss": 0.27498042583465576,
+      "step": 310,
+      "token_acc": 0.9217681765679143
+    },
+    {
+      "epoch": 5.51948051948052,
+      "grad_norm": 0.9700812697410583,
+      "learning_rate": 4.558699407183338e-05,
+      "loss": 0.2576076745986938,
+      "step": 320,
+      "token_acc": 0.9252093233763294
+    },
+    {
+      "epoch": 5.692640692640692,
+      "grad_norm": 0.4304976761341095,
+      "learning_rate": 4.2756018813390274e-05,
+      "loss": 0.2424612522125244,
+      "step": 330,
+      "token_acc": 0.9276378041152792
+    },
+    {
+      "epoch": 5.865800865800866,
+      "grad_norm": 0.4652138650417328,
+      "learning_rate": 3.9948586251565825e-05,
+      "loss": 0.259202766418457,
+      "step": 340,
+      "token_acc": 0.9240967292621122
+    },
+    {
+      "epoch": 6.034632034632034,
+      "grad_norm": 0.37480419874191284,
+      "learning_rate": 3.7173820448305755e-05,
+      "loss": 0.2334808111190796,
+      "step": 350,
+      "token_acc": 0.9299400823867182
+    },
+    {
+      "epoch": 6.207792207792208,
+      "grad_norm": 0.5389286279678345,
+      "learning_rate": 3.444073929968284e-05,
+      "loss": 0.23487865924835205,
+      "step": 360,
+      "token_acc": 0.9300512852684243
+    },
+    {
+      "epoch": 6.380952380952381,
+      "grad_norm": 0.4614177942276001,
+      "learning_rate": 3.175822522803623e-05,
+      "loss": 0.21724979877471923,
+      "step": 370,
+      "token_acc": 0.9360088365243004
+    },
+    {
+      "epoch": 6.554112554112554,
+      "grad_norm": 0.3773002326488495,
+      "learning_rate": 2.9134996314395818e-05,
+      "loss": 0.20992758274078369,
+      "step": 380,
+      "token_acc": 0.9362415581566618
+    },
+    {
+      "epoch": 6.7272727272727275,
+      "grad_norm": 1.1898497343063354,
+      "learning_rate": 2.65795779650105e-05,
+      "loss": 0.2153007745742798,
+      "step": 390,
+      "token_acc": 0.9367496189220204
+    },
+    {
+      "epoch": 6.9004329004329,
+      "grad_norm": 0.8586929440498352,
+      "learning_rate": 2.41002752040629e-05,
+      "loss": 0.22280852794647216,
+      "step": 400,
+      "token_acc": 0.9341588229918669
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 580,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.5383232587218944e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

output/training/v1-20260117-010840-10e/checkpoint-400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e5274be8af993948bcfc3f1251ec27de22bce224d71e604e5b270f182b3aac2
+size 6993

output/training/v1-20260117-010840-10e/checkpoint-500/README.md ADDED Viewed

	@@ -0,0 +1,207 @@

+---
+base_model: ''
+library_name: peft
+pipeline_tag: text-generation
+tags:
+- base_model:adapter:/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B
+- lora
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.1

output/training/v1-20260117-010840-10e/checkpoint-500/adapter_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [],
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "^(model.language_model.*\\.(down_proj|up_proj|gate_proj|v_proj|k_proj|q_proj|o_proj)|(?!(model.visual.merger))model.visual.*\\.(mlp.0|down_proj|up_proj|gate_proj|mlp.2|qkv|attn.proj))$",
+  "target_parameters": null,
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

output/training/v1-20260117-010840-10e/checkpoint-500/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:144e3e85649e1f95c3bb79452fc4d9c71cadc539fa8e343f61d82c3f80d5b711
+size 657478696

output/training/v1-20260117-010840-10e/checkpoint-500/additional_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lora_dtype": null, "lorap_lr_ratio": null, "lorap_emb_lr": 1e-06}

output/training/v1-20260117-010840-10e/checkpoint-500/args.json ADDED Viewed

	@@ -0,0 +1,353 @@

+{
+  "output_dir": "/home/ab/document-parsing/output/training/v1-20260117-010840",
+  "overwrite_output_dir": false,
+  "do_train": false,
+  "do_eval": false,
+  "do_predict": false,
+  "eval_strategy": "no",
+  "prediction_loss_only": false,
+  "per_device_train_batch_size": 1,
+  "per_device_eval_batch_size": 1,
+  "per_gpu_train_batch_size": null,
+  "per_gpu_eval_batch_size": null,
+  "gradient_accumulation_steps": 8,
+  "eval_accumulation_steps": null,
+  "eval_delay": 0,
+  "torch_empty_cache_steps": null,
+  "learning_rate": 0.0001,
+  "weight_decay": 0.1,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.95,
+  "adam_epsilon": 1e-08,
+  "max_grad_norm": 1.0,
+  "num_train_epochs": 10.0,
+  "max_steps": -1,
+  "lr_scheduler_type": "cosine",
+  "lr_scheduler_kwargs": null,
+  "warmup_ratio": 0.05,
+  "warmup_steps": 0,
+  "log_level": "passive",
+  "log_level_replica": "warning",
+  "log_on_each_node": true,
+  "logging_dir": "/home/ab/document-parsing/output/training/v1-20260117-010840/runs",
+  "logging_strategy": "steps",
+  "logging_first_step": true,
+  "logging_steps": 10,
+  "logging_nan_inf_filter": true,
+  "save_strategy": "steps",
+  "save_steps": 100.0,
+  "save_total_limit": 3,
+  "save_safetensors": true,
+  "save_on_each_node": false,
+  "save_only_model": false,
+  "restore_callback_states_from_checkpoint": false,
+  "no_cuda": false,
+  "use_cpu": false,
+  "use_mps_device": false,
+  "seed": 42,
+  "data_seed": 42,
+  "jit_mode_eval": false,
+  "bf16": true,
+  "fp16": false,
+  "fp16_opt_level": "O1",
+  "half_precision_backend": "auto",
+  "bf16_full_eval": false,
+  "fp16_full_eval": false,
+  "tf32": null,
+  "local_rank": -1,
+  "ddp_backend": null,
+  "tpu_num_cores": null,
+  "tpu_metrics_debug": false,
+  "debug": null,
+  "dataloader_drop_last": false,
+  "eval_steps": 100.0,
+  "dataloader_num_workers": 4,
+  "dataloader_prefetch_factor": null,
+  "past_index": -1,
+  "run_name": "/home/ab/document-parsing/output/training/v1-20260117-010840",
+  "disable_tqdm": null,
+  "remove_unused_columns": true,
+  "label_names": null,
+  "load_best_model_at_end": false,
+  "metric_for_best_model": "loss",
+  "greater_is_better": false,
+  "ignore_data_skip": false,
+  "fsdp": [],
+  "fsdp_min_num_params": 0,
+  "fsdp_config": null,
+  "fsdp_transformer_layer_cls_to_wrap": null,
+  "accelerator_config": {
+    "dispatch_batches": false
+  },
+  "parallelism_config": null,
+  "deepspeed": null,
+  "label_smoothing_factor": 0.0,
+  "optim": "adamw_torch_fused",
+  "optim_args": null,
+  "adafactor": false,
+  "group_by_length": false,
+  "length_column_name": "length",
+  "report_to": [
+    "tensorboard"
+  ],
+  "project": "huggingface",
+  "trackio_space_id": "trackio",
+  "ddp_find_unused_parameters": null,
+  "ddp_bucket_cap_mb": null,
+  "ddp_broadcast_buffers": null,
+  "dataloader_pin_memory": true,
+  "dataloader_persistent_workers": false,
+  "skip_memory_metrics": true,
+  "use_legacy_prediction_loop": false,
+  "push_to_hub": false,
+  "resume_from_checkpoint": null,
+  "hub_model_id": null,
+  "hub_strategy": "every_save",
+  "hub_token": null,
+  "hub_private_repo": null,
+  "hub_always_push": false,
+  "hub_revision": null,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": null,
+  "include_inputs_for_metrics": false,
+  "include_for_metrics": [],
+  "eval_do_concat_batches": true,
+  "fp16_backend": "auto",
+  "push_to_hub_model_id": null,
+  "push_to_hub_organization": null,
+  "push_to_hub_token": null,
+  "mp_parameters": "",
+  "auto_find_batch_size": false,
+  "full_determinism": false,
+  "torchdynamo": null,
+  "ray_scope": "last",
+  "ddp_timeout": 18000000,
+  "torch_compile": false,
+  "torch_compile_backend": null,
+  "torch_compile_mode": null,
+  "include_tokens_per_second": false,
+  "include_num_input_tokens_seen": false,
+  "neftune_noise_alpha": null,
+  "optim_target_modules": null,
+  "batch_eval_metrics": false,
+  "eval_on_start": false,
+  "use_liger_kernel": false,
+  "liger_kernel_config": null,
+  "eval_use_gather_object": false,
+  "average_tokens_across_devices": true,
+  "sortish_sampler": false,
+  "predict_with_generate": false,
+  "generation_max_length": null,
+  "generation_num_beams": null,
+  "generation_config": null,
+  "tuner_backend": "peft",
+  "vit_gradient_checkpointing": null,
+  "router_aux_loss_coef": 0.0,
+  "enable_dft_loss": false,
+  "enable_channel_loss": false,
+  "check_model": true,
+  "acc_strategy": "token",
+  "train_dataloader_shuffle": true,
+  "max_epochs": null,
+  "aligner_lr": null,
+  "vit_lr": null,
+  "use_logits_to_keep": null,
+  "ds3_gather_for_generation": true,
+  "resume_only_model": false,
+  "optimizer": null,
+  "loss_type": null,
+  "metric": null,
+  "eval_use_evalscope": false,
+  "eval_dataset": [],
+  "eval_dataset_args": null,
+  "eval_limit": null,
+  "eval_generation_config": null,
+  "extra_eval_args": null,
+  "use_flash_ckpt": false,
+  "use_ray": false,
+  "ray_exp_name": null,
+  "device_groups": null,
+  "model": "nanonets/Nanonets-OCR2-3B",
+  "model_type": "qwen2_5_vl",
+  "model_revision": null,
+  "task_type": "causal_lm",
+  "torch_dtype": "bfloat16",
+  "attn_impl": null,
+  "new_special_tokens": [],
+  "num_labels": null,
+  "problem_type": null,
+  "rope_scaling": null,
+  "device_map": null,
+  "max_memory": {},
+  "max_model_len": null,
+  "local_repo_path": null,
+  "init_strategy": null,
+  "template": "qwen2_5_vl",
+  "system": null,
+  "max_length": 8192,
+  "truncation_strategy": "delete",
+  "max_pixels": null,
+  "agent_template": null,
+  "norm_bbox": null,
+  "use_chat_template": true,
+  "padding_side": "right",
+  "padding_free": false,
+  "loss_scale": "default",
+  "sequence_parallel_size": 1,
+  "template_backend": "swift",
+  "response_prefix": null,
+  "enable_thinking": null,
+  "add_non_thinking_prefix": true,
+  "dataset": [
+    "/home/ab/document-parsing/output/datasets/train.jsonl"
+  ],
+  "val_dataset": [],
+  "cached_dataset": [],
+  "cached_val_dataset": [],
+  "split_dataset_ratio": 0.0,
+  "dataset_num_proc": 1,
+  "load_from_cache_file": false,
+  "dataset_shuffle": true,
+  "val_dataset_shuffle": false,
+  "streaming": false,
+  "interleave_prob": null,
+  "stopping_strategy": "first_exhausted",
+  "shuffle_buffer_size": 1000,
+  "download_mode": "reuse_dataset_if_exists",
+  "columns": {},
+  "strict": false,
+  "model_name": null,
+  "model_author": null,
+  "custom_dataset_info": [],
+  "quant_method": null,
+  "quant_bits": null,
+  "hqq_axis": null,
+  "bnb_4bit_compute_dtype": "bfloat16",
+  "bnb_4bit_quant_type": "nf4",
+  "bnb_4bit_use_double_quant": true,
+  "bnb_4bit_quant_storage": null,
+  "max_new_tokens": 64,
+  "temperature": 0.0,
+  "top_k": null,
+  "top_p": null,
+  "repetition_penalty": null,
+  "num_beams": 1,
+  "stream": false,
+  "stop_words": [],
+  "logprobs": false,
+  "top_logprobs": null,
+  "structured_outputs_regex": null,
+  "ckpt_dir": null,
+  "lora_modules": [],
+  "train_type": "lora",
+  "adapters": [],
+  "external_plugins": [],
+  "model_kwargs": {},
+  "load_args": false,
+  "load_data_args": false,
+  "packing": false,
+  "packing_length": null,
+  "packing_num_proc": 1,
+  "lazy_tokenize": true,
+  "custom_register_path": [],
+  "use_hf": false,
+  "ignore_args_error": false,
+  "use_swift_lora": false,
+  "freeze_parameters": [],
+  "freeze_parameters_regex": null,
+  "freeze_parameters_ratio": 0.0,
+  "trainable_parameters": [],
+  "trainable_parameters_regex": null,
+  "freeze_llm": false,
+  "freeze_vit": false,
+  "freeze_aligner": true,
+  "target_modules": [
+    "all-linear"
+  ],
+  "target_regex": null,
+  "target_parameters": null,
+  "modules_to_save": [],
+  "lora_rank": 64,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "lora_bias": "none",
+  "lora_dtype": null,
+  "lorap_lr_ratio": null,
+  "use_rslora": false,
+  "use_dora": false,
+  "lora_ga_batch_size": 2,
+  "lora_ga_iters": 2,
+  "lora_ga_max_length": 1024,
+  "lora_ga_direction": "ArB2r",
+  "lora_ga_scale": "stable",
+  "lora_ga_stable_gamma": 16,
+  "init_weights": true,
+  "fourier_n_frequency": 2000,
+  "fourier_scaling": 300.0,
+  "boft_block_size": 4,
+  "boft_block_num": 0,
+  "boft_n_butterfly_factor": 1,
+  "boft_dropout": 0.0,
+  "vera_rank": 256,
+  "vera_projection_prng_key": 0,
+  "vera_dropout": 0.0,
+  "vera_d_initial": 0.1,
+  "adapter_act": "gelu",
+  "adapter_length": 128,
+  "use_galore": false,
+  "galore_target_modules": null,
+  "galore_rank": 128,
+  "galore_update_proj_gap": 50,
+  "galore_scale": 1.0,
+  "galore_proj_type": "std",
+  "galore_optim_per_parameter": false,
+  "galore_with_embedding": false,
+  "galore_quantization": false,
+  "galore_proj_quant": false,
+  "galore_proj_bits": 4,
+  "galore_proj_group_size": 256,
+  "galore_cos_threshold": 0.4,
+  "galore_gamma_proj": 2,
+  "galore_queue_size": 5,
+  "adalora_target_r": 8,
+  "adalora_init_r": 12,
+  "adalora_tinit": 0,
+  "adalora_tfinal": 0,
+  "adalora_deltaT": 1,
+  "adalora_beta1": 0.85,
+  "adalora_beta2": 0.85,
+  "adalora_orth_reg_weight": 0.5,
+  "llamapro_num_new_blocks": 4,
+  "llamapro_num_groups": null,
+  "lisa_activated_layers": 0,
+  "lisa_step_interval": 20,
+  "reft_layer_key": null,
+  "reft_layers": null,
+  "reft_rank": 4,
+  "reft_intervention_type": "LoreftIntervention",
+  "reft_args": null,
+  "swanlab_token": null,
+  "swanlab_project": "ms-swift",
+  "swanlab_workspace": null,
+  "swanlab_exp_name": null,
+  "swanlab_notification_method": null,
+  "swanlab_webhook_url": null,
+  "swanlab_secret": null,
+  "swanlab_mode": "cloud",
+  "add_version": true,
+  "create_checkpoint_symlink": false,
+  "zero_hpz_partition_size": null,
+  "deepspeed_autotp_size": null,
+  "early_stop_interval": null,
+  "rank": -1,
+  "global_world_size": 1,
+  "local_world_size": 1,
+  "model_suffix": "Nanonets-OCR2-3B",
+  "model_info": "ModelInfo(model_type='qwen2_5_vl', model_dir='/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B', torch_dtype=torch.bfloat16, max_model_len=128000, quant_method=None, quant_bits=None, rope_scaling={'mrope_section': [16, 24, 24], 'rope_type': 'default', 'type': 'default'}, is_moe_model=False, is_multimodal=True, config=None, task_type='causal_lm', num_labels=None)",
+  "model_meta": "ModelMeta(model_type='qwen2_5_vl', model_groups=[ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='qwen2_5_vl', get_function=<function get_model_tokenizer_qwen2_5_vl at 0x7c76215fac00>, model_arch=MultiModelKeys(arch_name='qwen2_vl', embedding=None, module_list=None, lm_head=None, q_proj=None, k_proj=None, v_proj=None, o_proj=None, attention=None, mlp=None, down_proj=None, qkv_proj=None, qk_proj=None, qa_proj=None, qb_proj=None, kv_proj=None, kva_proj=None, kvb_proj=None, language_model=['model.language_model', 'lm_head'], aligner=['model.visual.merger'], vision_tower=['model.visual'], generator=[]), architectures=['Qwen2_5_VLForConditionalGeneration'], additional_saved_files=[], torch_dtype=None, is_multimodal=True, is_reward=False, is_reranker=False, task_type=None, ignore_patterns=None, requires=['transformers>=4.49', 'qwen_vl_utils>=0.0.6', 'decord'], tags=['vision', 'video'])",
+  "model_dir": "/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B",
+  "_val_dataset_exists": [],
+  "hub": "<class 'swift.hub.hub.MSHub'>",
+  "evaluation_strategy": "steps",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/home/ab/document-parsing/output/training/v1-20260117-010840', overwrite_output_dir=False, do_train=False, do_eval=False, do_predict=False, eval_strategy=<IntervalStrategy.NO: 'no'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=8, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=0.0001, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=10.0, max_steps=-1, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs=None, warmup_ratio=0.05, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/home/ab/document-parsing/output/training/v1-20260117-010840/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=10, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=100, save_total_limit=3, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=100.0, dataloader_num_workers=4, dataloader_prefetch_factor=2, past_index=-1, run_name='/home/ab/document-parsing/output/training/v1-20260117-010840', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), parallelism_config=None, deepspeed=None, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH_FUSED: 'adamw_torch_fused'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['tensorboard'], project='huggingface', trackio_space_id='trackio', ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=False, resume_from_checkpoint=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=None, hub_always_push=False, hub_revision=None, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=18000000, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, liger_kernel_config=None, eval_use_gather_object=False, average_tokens_across_devices=None, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, tuner_backend='peft', vit_gradient_checkpointing=True, router_aux_loss_coef=0.0, enable_dft_loss=False, enable_channel_loss=False, check_model=True, acc_strategy='token', train_dataloader_shuffle=True, max_epochs=None, aligner_lr=None, vit_lr=None, use_logits_to_keep=None, ds3_gather_for_generation=True, resume_only_model=False, optimizer=None, loss_type=None, metric=None, eval_use_evalscope=False, eval_dataset=[], eval_dataset_args=None, eval_limit=None, eval_generation_config=None, extra_eval_args=None, use_flash_ckpt=False, sft_alpha=0, chord_sft_dataset=[], chord_sft_per_device_train_batch_size=None, chord_enable_phi_function=False, chord_mu_warmup_steps=None, chord_mu_decay_steps=None, chord_mu_peak=None, chord_mu_valley=None, train_type='lora', local_repo_path=None, galore_config=None, task_type='causal_lm', problem_type=None)"
+}

output/training/v1-20260117-010840-10e/checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35902d5d1198fb62622da98a4840274c8a8331dc3e77a6e5e7b95a3d8231fac5
+size 1315426955

output/training/v1-20260117-010840-10e/checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9dea05ecba7432f5405ea0b1af074f578def0664083423526d4ab725022c5bdc
+size 14645

output/training/v1-20260117-010840-10e/checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94c11ced83f5ac31b306f251ad9a334516c5d69155e85aa8d0a2db0dc5539a56
+size 1465

output/training/v1-20260117-010840-10e/checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,442 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 8.623376623376624,
+  "eval_steps": 100.0,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.017316017316017316,
+      "grad_norm": 0.4092565178871155,
+      "learning_rate": 3.448275862068966e-06,
+      "loss": 1.4861114025115967,
+      "step": 1,
+      "token_acc": 0.6811960725974412
+    },
+    {
+      "epoch": 0.17316017316017315,
+      "grad_norm": 0.3977337181568146,
+      "learning_rate": 3.4482758620689657e-05,
+      "loss": 1.4343115488688152,
+      "step": 10,
+      "token_acc": 0.6920024476626676
+    },
+    {
+      "epoch": 0.3463203463203463,
+      "grad_norm": 0.2495131641626358,
+      "learning_rate": 6.896551724137931e-05,
+      "loss": 1.3693717956542968,
+      "step": 20,
+      "token_acc": 0.7011260365349897
+    },
+    {
+      "epoch": 0.5194805194805194,
+      "grad_norm": 0.24984458088874817,
+      "learning_rate": 9.999918729041868e-05,
+      "loss": 1.1922229766845702,
+      "step": 30,
+      "token_acc": 0.726987948088823
+    },
+    {
+      "epoch": 0.6926406926406926,
+      "grad_norm": 0.3221384584903717,
+      "learning_rate": 9.990169410465536e-05,
+      "loss": 1.0192347526550294,
+      "step": 40,
+      "token_acc": 0.7609010955099522
+    },
+    {
+      "epoch": 0.8658008658008658,
+      "grad_norm": 0.40206295251846313,
+      "learning_rate": 9.964202208175834e-05,
+      "loss": 0.9150349617004394,
+      "step": 50,
+      "token_acc": 0.7773335965518376
+    },
+    {
+      "epoch": 1.0346320346320346,
+      "grad_norm": 0.20406530797481537,
+      "learning_rate": 9.922101514711866e-05,
+      "loss": 0.7742667198181152,
+      "step": 60,
+      "token_acc": 0.8123942631570925
+    },
+    {
+      "epoch": 1.2077922077922079,
+      "grad_norm": 1.4768069982528687,
+      "learning_rate": 9.864004155919543e-05,
+      "loss": 0.6983946800231934,
+      "step": 70,
+      "token_acc": 0.8248333138378757
+    },
+    {
+      "epoch": 1.380952380952381,
+      "grad_norm": 0.611409604549408,
+      "learning_rate": 9.790098946272177e-05,
+      "loss": 0.6138243198394775,
+      "step": 80,
+      "token_acc": 0.8442561143531572
+    },
+    {
+      "epoch": 1.554112554112554,
+      "grad_norm": 0.3051394820213318,
+      "learning_rate": 9.700626075229738e-05,
+      "loss": 0.5975491523742675,
+      "step": 90,
+      "token_acc": 0.8483123092893768
+    },
+    {
+      "epoch": 1.7272727272727273,
+      "grad_norm": 0.3783220648765564,
+      "learning_rate": 9.595876326631154e-05,
+      "loss": 0.5410520553588867,
+      "step": 100,
+      "token_acc": 0.8605094145609629
+    },
+    {
+      "epoch": 1.9004329004329006,
+      "grad_norm": 0.6039865612983704,
+      "learning_rate": 9.476190133656548e-05,
+      "loss": 0.5531170845031739,
+      "step": 110,
+      "token_acc": 0.8547892544963617
+    },
+    {
+      "epoch": 2.069264069264069,
+      "grad_norm": 0.5374985337257385,
+      "learning_rate": 9.341956472430801e-05,
+      "loss": 0.5079349040985107,
+      "step": 120,
+      "token_acc": 0.864488826645558
+    },
+    {
+      "epoch": 2.242424242424242,
+      "grad_norm": 0.364619642496109,
+      "learning_rate": 9.193611597864139e-05,
+      "loss": 0.44995865821838377,
+      "step": 130,
+      "token_acc": 0.8797397710240138
+    },
+    {
+      "epoch": 2.4155844155844157,
+      "grad_norm": 1.59947669506073,
+      "learning_rate": 9.031637625838265e-05,
+      "loss": 0.429323148727417,
+      "step": 140,
+      "token_acc": 0.8858490566037736
+    },
+    {
+      "epoch": 2.588744588744589,
+      "grad_norm": 0.46518200635910034,
+      "learning_rate": 8.856560966345877e-05,
+      "loss": 0.4315037727355957,
+      "step": 150,
+      "token_acc": 0.8819307344821817
+    },
+    {
+      "epoch": 2.761904761904762,
+      "grad_norm": 0.691148579120636,
+      "learning_rate": 8.668950612675785e-05,
+      "loss": 0.40119166374206544,
+      "step": 160,
+      "token_acc": 0.8896224924972358
+    },
+    {
+      "epoch": 2.935064935064935,
+      "grad_norm": 0.3540444076061249,
+      "learning_rate": 8.469416292203747e-05,
+      "loss": 0.40500435829162595,
+      "step": 170,
+      "token_acc": 0.8917646715924161
+    },
+    {
+      "epoch": 3.103896103896104,
+      "grad_norm": 0.3412817418575287,
+      "learning_rate": 8.258606484798897e-05,
+      "loss": 0.37092483043670654,
+      "step": 180,
+      "token_acc": 0.8977291233149371
+    },
+    {
+      "epoch": 3.277056277056277,
+      "grad_norm": 0.34155094623565674,
+      "learning_rate": 8.037206315285843e-05,
+      "loss": 0.344103741645813,
+      "step": 190,
+      "token_acc": 0.9065206570433051
+    },
+    {
+      "epoch": 3.45021645021645,
+      "grad_norm": 0.3627335727214813,
+      "learning_rate": 7.805935326811912e-05,
+      "loss": 0.3504387140274048,
+      "step": 200,
+      "token_acc": 0.9002762340096682
+    },
+    {
+      "epoch": 3.6233766233766236,
+      "grad_norm": 0.8141089677810669,
+      "learning_rate": 7.565545142355971e-05,
+      "loss": 0.3558197498321533,
+      "step": 210,
+      "token_acc": 0.8999160043936163
+    },
+    {
+      "epoch": 3.7965367965367967,
+      "grad_norm": 0.6176502108573914,
+      "learning_rate": 7.316817021978884e-05,
+      "loss": 0.33676347732543943,
+      "step": 220,
+      "token_acc": 0.904816147992892
+    },
+    {
+      "epoch": 3.9696969696969697,
+      "grad_norm": 0.49287620186805725,
+      "learning_rate": 7.060559323754435e-05,
+      "loss": 0.35226542949676515,
+      "step": 230,
+      "token_acc": 0.9020813028578615
+    },
+    {
+      "epoch": 4.138528138528138,
+      "grad_norm": 0.6057422161102295,
+      "learning_rate": 6.797604876632633e-05,
+      "loss": 0.3057840585708618,
+      "step": 240,
+      "token_acc": 0.9123896645803242
+    },
+    {
+      "epoch": 4.311688311688312,
+      "grad_norm": 12.585014343261719,
+      "learning_rate": 6.528808273773461e-05,
+      "loss": 0.301344108581543,
+      "step": 250,
+      "token_acc": 0.9142363149996737
+    },
+    {
+      "epoch": 4.484848484848484,
+      "grad_norm": 0.32902830839157104,
+      "learning_rate": 6.255043095147679e-05,
+      "loss": 0.2898148775100708,
+      "step": 260,
+      "token_acc": 0.9177889157552563
+    },
+    {
+      "epoch": 4.658008658008658,
+      "grad_norm": 0.39732787013053894,
+      "learning_rate": 5.9771990684311544e-05,
+      "loss": 0.29072208404541017,
+      "step": 270,
+      "token_acc": 0.917258875717698
+    },
+    {
+      "epoch": 4.8311688311688314,
+      "grad_norm": 0.44461533427238464,
+      "learning_rate": 5.6961791774196424e-05,
+      "loss": 0.2852530241012573,
+      "step": 280,
+      "token_acc": 0.9166775180675826
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.35245048999786377,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 0.3020582675933838,
+      "step": 290,
+      "token_acc": 0.9138208862720794
+    },
+    {
+      "epoch": 5.1731601731601735,
+      "grad_norm": 0.36154425144195557,
+      "learning_rate": 5.128272376746972e-05,
+      "loss": 0.23758175373077392,
+      "step": 300,
+      "token_acc": 0.9282945419454031
+    },
+    {
+      "epoch": 5.346320346320346,
+      "grad_norm": 0.40296199917793274,
+      "learning_rate": 4.8432311451972665e-05,
+      "loss": 0.27498042583465576,
+      "step": 310,
+      "token_acc": 0.9217681765679143
+    },
+    {
+      "epoch": 5.51948051948052,
+      "grad_norm": 0.9700812697410583,
+      "learning_rate": 4.558699407183338e-05,
+      "loss": 0.2576076745986938,
+      "step": 320,
+      "token_acc": 0.9252093233763294
+    },
+    {
+      "epoch": 5.692640692640692,
+      "grad_norm": 0.4304976761341095,
+      "learning_rate": 4.2756018813390274e-05,
+      "loss": 0.2424612522125244,
+      "step": 330,
+      "token_acc": 0.9276378041152792
+    },
+    {
+      "epoch": 5.865800865800866,
+      "grad_norm": 0.4652138650417328,
+      "learning_rate": 3.9948586251565825e-05,
+      "loss": 0.259202766418457,
+      "step": 340,
+      "token_acc": 0.9240967292621122
+    },
+    {
+      "epoch": 6.034632034632034,
+      "grad_norm": 0.37480419874191284,
+      "learning_rate": 3.7173820448305755e-05,
+      "loss": 0.2334808111190796,
+      "step": 350,
+      "token_acc": 0.9299400823867182
+    },
+    {
+      "epoch": 6.207792207792208,
+      "grad_norm": 0.5389286279678345,
+      "learning_rate": 3.444073929968284e-05,
+      "loss": 0.23487865924835205,
+      "step": 360,
+      "token_acc": 0.9300512852684243
+    },
+    {
+      "epoch": 6.380952380952381,
+      "grad_norm": 0.4614177942276001,
+      "learning_rate": 3.175822522803623e-05,
+      "loss": 0.21724979877471923,
+      "step": 370,
+      "token_acc": 0.9360088365243004
+    },
+    {
+      "epoch": 6.554112554112554,
+      "grad_norm": 0.3773002326488495,
+      "learning_rate": 2.9134996314395818e-05,
+      "loss": 0.20992758274078369,
+      "step": 380,
+      "token_acc": 0.9362415581566618
+    },
+    {
+      "epoch": 6.7272727272727275,
+      "grad_norm": 1.1898497343063354,
+      "learning_rate": 2.65795779650105e-05,
+      "loss": 0.2153007745742798,
+      "step": 390,
+      "token_acc": 0.9367496189220204
+    },
+    {
+      "epoch": 6.9004329004329,
+      "grad_norm": 0.8586929440498352,
+      "learning_rate": 2.41002752040629e-05,
+      "loss": 0.22280852794647216,
+      "step": 400,
+      "token_acc": 0.9341588229918669
+    },
+    {
+      "epoch": 7.06926406926407,
+      "grad_norm": 0.5149306058883667,
+      "learning_rate": 2.1705145682618505e-05,
+      "loss": 0.21320977210998535,
+      "step": 410,
+      "token_acc": 0.9383294431477159
+    },
+    {
+      "epoch": 7.242424242424242,
+      "grad_norm": 0.4976541996002197,
+      "learning_rate": 1.940197349152923e-05,
+      "loss": 0.1985553979873657,
+      "step": 420,
+      "token_acc": 0.9401391309809833
+    },
+    {
+      "epoch": 7.415584415584416,
+      "grad_norm": 0.4779481589794159,
+      "learning_rate": 1.7198243863398273e-05,
+      "loss": 0.20875980854034423,
+      "step": 430,
+      "token_acc": 0.9373778262148182
+    },
+    {
+      "epoch": 7.588744588744589,
+      "grad_norm": 0.6022359132766724,
+      "learning_rate": 1.510111884582463e-05,
+      "loss": 0.19188997745513917,
+      "step": 440,
+      "token_acc": 0.942989444333798
+    },
+    {
+      "epoch": 7.761904761904762,
+      "grad_norm": 0.497090607881546,
+      "learning_rate": 1.3117414024987823e-05,
+      "loss": 0.1933382511138916,
+      "step": 450,
+      "token_acc": 0.9423271204556436
+    },
+    {
+      "epoch": 7.935064935064935,
+      "grad_norm": 0.488971084356308,
+      "learning_rate": 1.125357637522072e-05,
+      "loss": 0.1843361496925354,
+      "step": 460,
+      "token_acc": 0.9436703366987985
+    },
+    {
+      "epoch": 8.103896103896103,
+      "grad_norm": 0.767144501209259,
+      "learning_rate": 9.51566330655857e-06,
+      "loss": 0.19610201120376586,
+      "step": 470,
+      "token_acc": 0.9421800227876946
+    },
+    {
+      "epoch": 8.277056277056277,
+      "grad_norm": 0.4893112778663635,
+      "learning_rate": 7.909322978358913e-06,
+      "loss": 0.170158052444458,
+      "step": 480,
+      "token_acc": 0.9497098970386021
+    },
+    {
+      "epoch": 8.45021645021645,
+      "grad_norm": 0.5407018661499023,
+      "learning_rate": 6.439775942972609e-06,
+      "loss": 0.1650066614151001,
+      "step": 490,
+      "token_acc": 0.9508892299359032
+    },
+    {
+      "epoch": 8.623376623376624,
+      "grad_norm": 0.41522547602653503,
+      "learning_rate": 5.111798179123173e-06,
+      "loss": 0.1943192720413208,
+      "step": 500,
+      "token_acc": 0.9430037937960277
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 580,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.9231358022524928e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

output/training/v1-20260117-010840-10e/checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e5274be8af993948bcfc3f1251ec27de22bce224d71e604e5b270f182b3aac2
+size 6993

output/training/v1-20260117-010840-10e/checkpoint-580/README.md ADDED Viewed

	@@ -0,0 +1,207 @@

+---
+base_model: ''
+library_name: peft
+pipeline_tag: text-generation
+tags:
+- base_model:adapter:/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B
+- lora
+- transformers
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.18.1

output/training/v1-20260117-010840-10e/checkpoint-580/adapter_config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [],
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "^(model.language_model.*\\.(down_proj|up_proj|gate_proj|v_proj|k_proj|q_proj|o_proj)|(?!(model.visual.merger))model.visual.*\\.(mlp.0|down_proj|up_proj|gate_proj|mlp.2|qkv|attn.proj))$",
+  "target_parameters": null,
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

output/training/v1-20260117-010840-10e/checkpoint-580/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fbac9ce4144065f68ad19a5930a57921a1aad93aaa5d6ed500b386e5584010c
+size 657478696

output/training/v1-20260117-010840-10e/checkpoint-580/additional_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lora_dtype": null, "lorap_lr_ratio": null, "lorap_emb_lr": 1e-06}

output/training/v1-20260117-010840-10e/checkpoint-580/args.json ADDED Viewed

	@@ -0,0 +1,353 @@

+{
+  "output_dir": "/home/ab/document-parsing/output/training/v1-20260117-010840",
+  "overwrite_output_dir": false,
+  "do_train": false,
+  "do_eval": false,
+  "do_predict": false,
+  "eval_strategy": "no",
+  "prediction_loss_only": false,
+  "per_device_train_batch_size": 1,
+  "per_device_eval_batch_size": 1,
+  "per_gpu_train_batch_size": null,
+  "per_gpu_eval_batch_size": null,
+  "gradient_accumulation_steps": 8,
+  "eval_accumulation_steps": null,
+  "eval_delay": 0,
+  "torch_empty_cache_steps": null,
+  "learning_rate": 0.0001,
+  "weight_decay": 0.1,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.95,
+  "adam_epsilon": 1e-08,
+  "max_grad_norm": 1.0,
+  "num_train_epochs": 10.0,
+  "max_steps": -1,
+  "lr_scheduler_type": "cosine",
+  "lr_scheduler_kwargs": null,
+  "warmup_ratio": 0.05,
+  "warmup_steps": 0,
+  "log_level": "passive",
+  "log_level_replica": "warning",
+  "log_on_each_node": true,
+  "logging_dir": "/home/ab/document-parsing/output/training/v1-20260117-010840/runs",
+  "logging_strategy": "steps",
+  "logging_first_step": true,
+  "logging_steps": 10,
+  "logging_nan_inf_filter": true,
+  "save_strategy": "steps",
+  "save_steps": 100.0,
+  "save_total_limit": 3,
+  "save_safetensors": true,
+  "save_on_each_node": false,
+  "save_only_model": false,
+  "restore_callback_states_from_checkpoint": false,
+  "no_cuda": false,
+  "use_cpu": false,
+  "use_mps_device": false,
+  "seed": 42,
+  "data_seed": 42,
+  "jit_mode_eval": false,
+  "bf16": true,
+  "fp16": false,
+  "fp16_opt_level": "O1",
+  "half_precision_backend": "auto",
+  "bf16_full_eval": false,
+  "fp16_full_eval": false,
+  "tf32": null,
+  "local_rank": -1,
+  "ddp_backend": null,
+  "tpu_num_cores": null,
+  "tpu_metrics_debug": false,
+  "debug": null,
+  "dataloader_drop_last": false,
+  "eval_steps": 100.0,
+  "dataloader_num_workers": 4,
+  "dataloader_prefetch_factor": null,
+  "past_index": -1,
+  "run_name": "/home/ab/document-parsing/output/training/v1-20260117-010840",
+  "disable_tqdm": null,
+  "remove_unused_columns": true,
+  "label_names": null,
+  "load_best_model_at_end": false,
+  "metric_for_best_model": "loss",
+  "greater_is_better": false,
+  "ignore_data_skip": false,
+  "fsdp": [],
+  "fsdp_min_num_params": 0,
+  "fsdp_config": null,
+  "fsdp_transformer_layer_cls_to_wrap": null,
+  "accelerator_config": {
+    "dispatch_batches": false
+  },
+  "parallelism_config": null,
+  "deepspeed": null,
+  "label_smoothing_factor": 0.0,
+  "optim": "adamw_torch_fused",
+  "optim_args": null,
+  "adafactor": false,
+  "group_by_length": false,
+  "length_column_name": "length",
+  "report_to": [
+    "tensorboard"
+  ],
+  "project": "huggingface",
+  "trackio_space_id": "trackio",
+  "ddp_find_unused_parameters": null,
+  "ddp_bucket_cap_mb": null,
+  "ddp_broadcast_buffers": null,
+  "dataloader_pin_memory": true,
+  "dataloader_persistent_workers": false,
+  "skip_memory_metrics": true,
+  "use_legacy_prediction_loop": false,
+  "push_to_hub": false,
+  "resume_from_checkpoint": null,
+  "hub_model_id": null,
+  "hub_strategy": "every_save",
+  "hub_token": null,
+  "hub_private_repo": null,
+  "hub_always_push": false,
+  "hub_revision": null,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": null,
+  "include_inputs_for_metrics": false,
+  "include_for_metrics": [],
+  "eval_do_concat_batches": true,
+  "fp16_backend": "auto",
+  "push_to_hub_model_id": null,
+  "push_to_hub_organization": null,
+  "push_to_hub_token": null,
+  "mp_parameters": "",
+  "auto_find_batch_size": false,
+  "full_determinism": false,
+  "torchdynamo": null,
+  "ray_scope": "last",
+  "ddp_timeout": 18000000,
+  "torch_compile": false,
+  "torch_compile_backend": null,
+  "torch_compile_mode": null,
+  "include_tokens_per_second": false,
+  "include_num_input_tokens_seen": false,
+  "neftune_noise_alpha": null,
+  "optim_target_modules": null,
+  "batch_eval_metrics": false,
+  "eval_on_start": false,
+  "use_liger_kernel": false,
+  "liger_kernel_config": null,
+  "eval_use_gather_object": false,
+  "average_tokens_across_devices": true,
+  "sortish_sampler": false,
+  "predict_with_generate": false,
+  "generation_max_length": null,
+  "generation_num_beams": null,
+  "generation_config": null,
+  "tuner_backend": "peft",
+  "vit_gradient_checkpointing": null,
+  "router_aux_loss_coef": 0.0,
+  "enable_dft_loss": false,
+  "enable_channel_loss": false,
+  "check_model": true,
+  "acc_strategy": "token",
+  "train_dataloader_shuffle": true,
+  "max_epochs": null,
+  "aligner_lr": null,
+  "vit_lr": null,
+  "use_logits_to_keep": null,
+  "ds3_gather_for_generation": true,
+  "resume_only_model": false,
+  "optimizer": null,
+  "loss_type": null,
+  "metric": null,
+  "eval_use_evalscope": false,
+  "eval_dataset": [],
+  "eval_dataset_args": null,
+  "eval_limit": null,
+  "eval_generation_config": null,
+  "extra_eval_args": null,
+  "use_flash_ckpt": false,
+  "use_ray": false,
+  "ray_exp_name": null,
+  "device_groups": null,
+  "model": "nanonets/Nanonets-OCR2-3B",
+  "model_type": "qwen2_5_vl",
+  "model_revision": null,
+  "task_type": "causal_lm",
+  "torch_dtype": "bfloat16",
+  "attn_impl": null,
+  "new_special_tokens": [],
+  "num_labels": null,
+  "problem_type": null,
+  "rope_scaling": null,
+  "device_map": null,
+  "max_memory": {},
+  "max_model_len": null,
+  "local_repo_path": null,
+  "init_strategy": null,
+  "template": "qwen2_5_vl",
+  "system": null,
+  "max_length": 8192,
+  "truncation_strategy": "delete",
+  "max_pixels": null,
+  "agent_template": null,
+  "norm_bbox": null,
+  "use_chat_template": true,
+  "padding_side": "right",
+  "padding_free": false,
+  "loss_scale": "default",
+  "sequence_parallel_size": 1,
+  "template_backend": "swift",
+  "response_prefix": null,
+  "enable_thinking": null,
+  "add_non_thinking_prefix": true,
+  "dataset": [
+    "/home/ab/document-parsing/output/datasets/train.jsonl"
+  ],
+  "val_dataset": [],
+  "cached_dataset": [],
+  "cached_val_dataset": [],
+  "split_dataset_ratio": 0.0,
+  "dataset_num_proc": 1,
+  "load_from_cache_file": false,
+  "dataset_shuffle": true,
+  "val_dataset_shuffle": false,
+  "streaming": false,
+  "interleave_prob": null,
+  "stopping_strategy": "first_exhausted",
+  "shuffle_buffer_size": 1000,
+  "download_mode": "reuse_dataset_if_exists",
+  "columns": {},
+  "strict": false,
+  "model_name": null,
+  "model_author": null,
+  "custom_dataset_info": [],
+  "quant_method": null,
+  "quant_bits": null,
+  "hqq_axis": null,
+  "bnb_4bit_compute_dtype": "bfloat16",
+  "bnb_4bit_quant_type": "nf4",
+  "bnb_4bit_use_double_quant": true,
+  "bnb_4bit_quant_storage": null,
+  "max_new_tokens": 64,
+  "temperature": 0.0,
+  "top_k": null,
+  "top_p": null,
+  "repetition_penalty": null,
+  "num_beams": 1,
+  "stream": false,
+  "stop_words": [],
+  "logprobs": false,
+  "top_logprobs": null,
+  "structured_outputs_regex": null,
+  "ckpt_dir": null,
+  "lora_modules": [],
+  "train_type": "lora",
+  "adapters": [],
+  "external_plugins": [],
+  "model_kwargs": {},
+  "load_args": false,
+  "load_data_args": false,
+  "packing": false,
+  "packing_length": null,
+  "packing_num_proc": 1,
+  "lazy_tokenize": true,
+  "custom_register_path": [],
+  "use_hf": false,
+  "ignore_args_error": false,
+  "use_swift_lora": false,
+  "freeze_parameters": [],
+  "freeze_parameters_regex": null,
+  "freeze_parameters_ratio": 0.0,
+  "trainable_parameters": [],
+  "trainable_parameters_regex": null,
+  "freeze_llm": false,
+  "freeze_vit": false,
+  "freeze_aligner": true,
+  "target_modules": [
+    "all-linear"
+  ],
+  "target_regex": null,
+  "target_parameters": null,
+  "modules_to_save": [],
+  "lora_rank": 64,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "lora_bias": "none",
+  "lora_dtype": null,
+  "lorap_lr_ratio": null,
+  "use_rslora": false,
+  "use_dora": false,
+  "lora_ga_batch_size": 2,
+  "lora_ga_iters": 2,
+  "lora_ga_max_length": 1024,
+  "lora_ga_direction": "ArB2r",
+  "lora_ga_scale": "stable",
+  "lora_ga_stable_gamma": 16,
+  "init_weights": true,
+  "fourier_n_frequency": 2000,
+  "fourier_scaling": 300.0,
+  "boft_block_size": 4,
+  "boft_block_num": 0,
+  "boft_n_butterfly_factor": 1,
+  "boft_dropout": 0.0,
+  "vera_rank": 256,
+  "vera_projection_prng_key": 0,
+  "vera_dropout": 0.0,
+  "vera_d_initial": 0.1,
+  "adapter_act": "gelu",
+  "adapter_length": 128,
+  "use_galore": false,
+  "galore_target_modules": null,
+  "galore_rank": 128,
+  "galore_update_proj_gap": 50,
+  "galore_scale": 1.0,
+  "galore_proj_type": "std",
+  "galore_optim_per_parameter": false,
+  "galore_with_embedding": false,
+  "galore_quantization": false,
+  "galore_proj_quant": false,
+  "galore_proj_bits": 4,
+  "galore_proj_group_size": 256,
+  "galore_cos_threshold": 0.4,
+  "galore_gamma_proj": 2,
+  "galore_queue_size": 5,
+  "adalora_target_r": 8,
+  "adalora_init_r": 12,
+  "adalora_tinit": 0,
+  "adalora_tfinal": 0,
+  "adalora_deltaT": 1,
+  "adalora_beta1": 0.85,
+  "adalora_beta2": 0.85,
+  "adalora_orth_reg_weight": 0.5,
+  "llamapro_num_new_blocks": 4,
+  "llamapro_num_groups": null,
+  "lisa_activated_layers": 0,
+  "lisa_step_interval": 20,
+  "reft_layer_key": null,
+  "reft_layers": null,
+  "reft_rank": 4,
+  "reft_intervention_type": "LoreftIntervention",
+  "reft_args": null,
+  "swanlab_token": null,
+  "swanlab_project": "ms-swift",
+  "swanlab_workspace": null,
+  "swanlab_exp_name": null,
+  "swanlab_notification_method": null,
+  "swanlab_webhook_url": null,
+  "swanlab_secret": null,
+  "swanlab_mode": "cloud",
+  "add_version": true,
+  "create_checkpoint_symlink": false,
+  "zero_hpz_partition_size": null,
+  "deepspeed_autotp_size": null,
+  "early_stop_interval": null,
+  "rank": -1,
+  "global_world_size": 1,
+  "local_world_size": 1,
+  "model_suffix": "Nanonets-OCR2-3B",
+  "model_info": "ModelInfo(model_type='qwen2_5_vl', model_dir='/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B', torch_dtype=torch.bfloat16, max_model_len=128000, quant_method=None, quant_bits=None, rope_scaling={'mrope_section': [16, 24, 24], 'rope_type': 'default', 'type': 'default'}, is_moe_model=False, is_multimodal=True, config=None, task_type='causal_lm', num_labels=None)",
+  "model_meta": "ModelMeta(model_type='qwen2_5_vl', model_groups=[ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='qwen2_5_vl', get_function=<function get_model_tokenizer_qwen2_5_vl at 0x7c76215fac00>, model_arch=MultiModelKeys(arch_name='qwen2_vl', embedding=None, module_list=None, lm_head=None, q_proj=None, k_proj=None, v_proj=None, o_proj=None, attention=None, mlp=None, down_proj=None, qkv_proj=None, qk_proj=None, qa_proj=None, qb_proj=None, kv_proj=None, kva_proj=None, kvb_proj=None, language_model=['model.language_model', 'lm_head'], aligner=['model.visual.merger'], vision_tower=['model.visual'], generator=[]), architectures=['Qwen2_5_VLForConditionalGeneration'], additional_saved_files=[], torch_dtype=None, is_multimodal=True, is_reward=False, is_reranker=False, task_type=None, ignore_patterns=None, requires=['transformers>=4.49', 'qwen_vl_utils>=0.0.6', 'decord'], tags=['vision', 'video'])",
+  "model_dir": "/home/ab/.cache/modelscope/hub/models/nanonets/Nanonets-OCR2-3B",
+  "_val_dataset_exists": [],
+  "hub": "<class 'swift.hub.hub.MSHub'>",
+  "evaluation_strategy": "steps",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/home/ab/document-parsing/output/training/v1-20260117-010840', overwrite_output_dir=False, do_train=False, do_eval=False, do_predict=False, eval_strategy=<IntervalStrategy.NO: 'no'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=8, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=0.0001, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=10.0, max_steps=-1, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs=None, warmup_ratio=0.05, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/home/ab/document-parsing/output/training/v1-20260117-010840/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=10, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=100, save_total_limit=3, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=100.0, dataloader_num_workers=4, dataloader_prefetch_factor=2, past_index=-1, run_name='/home/ab/document-parsing/output/training/v1-20260117-010840', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), parallelism_config=None, deepspeed=None, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH_FUSED: 'adamw_torch_fused'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['tensorboard'], project='huggingface', trackio_space_id='trackio', ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=False, resume_from_checkpoint=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=None, hub_always_push=False, hub_revision=None, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=18000000, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, liger_kernel_config=None, eval_use_gather_object=False, average_tokens_across_devices=None, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, tuner_backend='peft', vit_gradient_checkpointing=True, router_aux_loss_coef=0.0, enable_dft_loss=False, enable_channel_loss=False, check_model=True, acc_strategy='token', train_dataloader_shuffle=True, max_epochs=None, aligner_lr=None, vit_lr=None, use_logits_to_keep=None, ds3_gather_for_generation=True, resume_only_model=False, optimizer=None, loss_type=None, metric=None, eval_use_evalscope=False, eval_dataset=[], eval_dataset_args=None, eval_limit=None, eval_generation_config=None, extra_eval_args=None, use_flash_ckpt=False, sft_alpha=0, chord_sft_dataset=[], chord_sft_per_device_train_batch_size=None, chord_enable_phi_function=False, chord_mu_warmup_steps=None, chord_mu_decay_steps=None, chord_mu_peak=None, chord_mu_valley=None, train_type='lora', local_repo_path=None, galore_config=None, task_type='causal_lm', problem_type=None)"
+}

output/training/v1-20260117-010840-10e/checkpoint-580/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5739078c612d9264a84be014dcee923bd18a89769ff3d54d05e7bf6c600c656a
+size 1315426955

output/training/v1-20260117-010840-10e/checkpoint-580/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b97d67bbbd39fd5a492faaf39d45ee3dddc989273d366f3048f720147cbb4b3
+size 14645

output/training/v1-20260117-010840-10e/checkpoint-580/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a6112fa30c5dbad7af1b976693a28071346fb21ab769e7a2fde80a53c550ea0
+size 1465

output/training/v1-20260117-010840-10e/checkpoint-580/trainer_state.json ADDED Viewed

	@@ -0,0 +1,506 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 100.0,
+  "global_step": 580,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.017316017316017316,
+      "grad_norm": 0.4092565178871155,
+      "learning_rate": 3.448275862068966e-06,
+      "loss": 1.4861114025115967,
+      "step": 1,
+      "token_acc": 0.6811960725974412
+    },
+    {
+      "epoch": 0.17316017316017315,
+      "grad_norm": 0.3977337181568146,
+      "learning_rate": 3.4482758620689657e-05,
+      "loss": 1.4343115488688152,
+      "step": 10,
+      "token_acc": 0.6920024476626676
+    },
+    {
+      "epoch": 0.3463203463203463,
+      "grad_norm": 0.2495131641626358,
+      "learning_rate": 6.896551724137931e-05,
+      "loss": 1.3693717956542968,
+      "step": 20,
+      "token_acc": 0.7011260365349897
+    },
+    {
+      "epoch": 0.5194805194805194,
+      "grad_norm": 0.24984458088874817,
+      "learning_rate": 9.999918729041868e-05,
+      "loss": 1.1922229766845702,
+      "step": 30,
+      "token_acc": 0.726987948088823
+    },
+    {
+      "epoch": 0.6926406926406926,
+      "grad_norm": 0.3221384584903717,
+      "learning_rate": 9.990169410465536e-05,
+      "loss": 1.0192347526550294,
+      "step": 40,
+      "token_acc": 0.7609010955099522
+    },
+    {
+      "epoch": 0.8658008658008658,
+      "grad_norm": 0.40206295251846313,
+      "learning_rate": 9.964202208175834e-05,
+      "loss": 0.9150349617004394,
+      "step": 50,
+      "token_acc": 0.7773335965518376
+    },
+    {
+      "epoch": 1.0346320346320346,
+      "grad_norm": 0.20406530797481537,
+      "learning_rate": 9.922101514711866e-05,
+      "loss": 0.7742667198181152,
+      "step": 60,
+      "token_acc": 0.8123942631570925
+    },
+    {
+      "epoch": 1.2077922077922079,
+      "grad_norm": 1.4768069982528687,
+      "learning_rate": 9.864004155919543e-05,
+      "loss": 0.6983946800231934,
+      "step": 70,
+      "token_acc": 0.8248333138378757
+    },
+    {
+      "epoch": 1.380952380952381,
+      "grad_norm": 0.611409604549408,
+      "learning_rate": 9.790098946272177e-05,
+      "loss": 0.6138243198394775,
+      "step": 80,
+      "token_acc": 0.8442561143531572
+    },
+    {
+      "epoch": 1.554112554112554,
+      "grad_norm": 0.3051394820213318,
+      "learning_rate": 9.700626075229738e-05,
+      "loss": 0.5975491523742675,
+      "step": 90,
+      "token_acc": 0.8483123092893768
+    },
+    {
+      "epoch": 1.7272727272727273,
+      "grad_norm": 0.3783220648765564,
+      "learning_rate": 9.595876326631154e-05,
+      "loss": 0.5410520553588867,
+      "step": 100,
+      "token_acc": 0.8605094145609629
+    },
+    {
+      "epoch": 1.9004329004329006,
+      "grad_norm": 0.6039865612983704,
+      "learning_rate": 9.476190133656548e-05,
+      "loss": 0.5531170845031739,
+      "step": 110,
+      "token_acc": 0.8547892544963617
+    },
+    {
+      "epoch": 2.069264069264069,
+      "grad_norm": 0.5374985337257385,
+      "learning_rate": 9.341956472430801e-05,
+      "loss": 0.5079349040985107,
+      "step": 120,
+      "token_acc": 0.864488826645558
+    },
+    {
+      "epoch": 2.242424242424242,
+      "grad_norm": 0.364619642496109,
+      "learning_rate": 9.193611597864139e-05,
+      "loss": 0.44995865821838377,
+      "step": 130,
+      "token_acc": 0.8797397710240138
+    },
+    {
+      "epoch": 2.4155844155844157,
+      "grad_norm": 1.59947669506073,
+      "learning_rate": 9.031637625838265e-05,
+      "loss": 0.429323148727417,
+      "step": 140,
+      "token_acc": 0.8858490566037736
+    },
+    {
+      "epoch": 2.588744588744589,
+      "grad_norm": 0.46518200635910034,
+      "learning_rate": 8.856560966345877e-05,
+      "loss": 0.4315037727355957,
+      "step": 150,
+      "token_acc": 0.8819307344821817
+    },
+    {
+      "epoch": 2.761904761904762,
+      "grad_norm": 0.691148579120636,
+      "learning_rate": 8.668950612675785e-05,
+      "loss": 0.40119166374206544,
+      "step": 160,
+      "token_acc": 0.8896224924972358
+    },
+    {
+      "epoch": 2.935064935064935,
+      "grad_norm": 0.3540444076061249,
+      "learning_rate": 8.469416292203747e-05,
+      "loss": 0.40500435829162595,
+      "step": 170,
+      "token_acc": 0.8917646715924161
+    },
+    {
+      "epoch": 3.103896103896104,
+      "grad_norm": 0.3412817418575287,
+      "learning_rate": 8.258606484798897e-05,
+      "loss": 0.37092483043670654,
+      "step": 180,
+      "token_acc": 0.8977291233149371
+    },
+    {
+      "epoch": 3.277056277056277,
+      "grad_norm": 0.34155094623565674,
+      "learning_rate": 8.037206315285843e-05,
+      "loss": 0.344103741645813,
+      "step": 190,
+      "token_acc": 0.9065206570433051
+    },
+    {
+      "epoch": 3.45021645021645,
+      "grad_norm": 0.3627335727214813,
+      "learning_rate": 7.805935326811912e-05,
+      "loss": 0.3504387140274048,
+      "step": 200,
+      "token_acc": 0.9002762340096682
+    },
+    {
+      "epoch": 3.6233766233766236,
+      "grad_norm": 0.8141089677810669,
+      "learning_rate": 7.565545142355971e-05,
+      "loss": 0.3558197498321533,
+      "step": 210,
+      "token_acc": 0.8999160043936163
+    },
+    {
+      "epoch": 3.7965367965367967,
+      "grad_norm": 0.6176502108573914,
+      "learning_rate": 7.316817021978884e-05,
+      "loss": 0.33676347732543943,
+      "step": 220,
+      "token_acc": 0.904816147992892
+    },
+    {
+      "epoch": 3.9696969696969697,
+      "grad_norm": 0.49287620186805725,
+      "learning_rate": 7.060559323754435e-05,
+      "loss": 0.35226542949676515,
+      "step": 230,
+      "token_acc": 0.9020813028578615
+    },
+    {
+      "epoch": 4.138528138528138,
+      "grad_norm": 0.6057422161102295,
+      "learning_rate": 6.797604876632633e-05,
+      "loss": 0.3057840585708618,
+      "step": 240,
+      "token_acc": 0.9123896645803242
+    },
+    {
+      "epoch": 4.311688311688312,
+      "grad_norm": 12.585014343261719,
+      "learning_rate": 6.528808273773461e-05,
+      "loss": 0.301344108581543,
+      "step": 250,
+      "token_acc": 0.9142363149996737
+    },
+    {
+      "epoch": 4.484848484848484,
+      "grad_norm": 0.32902830839157104,
+      "learning_rate": 6.255043095147679e-05,
+      "loss": 0.2898148775100708,
+      "step": 260,
+      "token_acc": 0.9177889157552563
+    },
+    {
+      "epoch": 4.658008658008658,
+      "grad_norm": 0.39732787013053894,
+      "learning_rate": 5.9771990684311544e-05,
+      "loss": 0.29072208404541017,
+      "step": 270,
+      "token_acc": 0.917258875717698
+    },
+    {
+      "epoch": 4.8311688311688314,
+      "grad_norm": 0.44461533427238464,
+      "learning_rate": 5.6961791774196424e-05,
+      "loss": 0.2852530241012573,
+      "step": 280,
+      "token_acc": 0.9166775180675826
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.35245048999786377,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 0.3020582675933838,
+      "step": 290,
+      "token_acc": 0.9138208862720794
+    },
+    {
+      "epoch": 5.1731601731601735,
+      "grad_norm": 0.36154425144195557,
+      "learning_rate": 5.128272376746972e-05,
+      "loss": 0.23758175373077392,
+      "step": 300,
+      "token_acc": 0.9282945419454031
+    },
+    {
+      "epoch": 5.346320346320346,
+      "grad_norm": 0.40296199917793274,
+      "learning_rate": 4.8432311451972665e-05,
+      "loss": 0.27498042583465576,
+      "step": 310,
+      "token_acc": 0.9217681765679143
+    },
+    {
+      "epoch": 5.51948051948052,
+      "grad_norm": 0.9700812697410583,
+      "learning_rate": 4.558699407183338e-05,
+      "loss": 0.2576076745986938,
+      "step": 320,
+      "token_acc": 0.9252093233763294
+    },
+    {
+      "epoch": 5.692640692640692,
+      "grad_norm": 0.4304976761341095,
+      "learning_rate": 4.2756018813390274e-05,
+      "loss": 0.2424612522125244,
+      "step": 330,
+      "token_acc": 0.9276378041152792
+    },
+    {
+      "epoch": 5.865800865800866,
+      "grad_norm": 0.4652138650417328,
+      "learning_rate": 3.9948586251565825e-05,
+      "loss": 0.259202766418457,
+      "step": 340,
+      "token_acc": 0.9240967292621122
+    },
+    {
+      "epoch": 6.034632034632034,
+      "grad_norm": 0.37480419874191284,
+      "learning_rate": 3.7173820448305755e-05,
+      "loss": 0.2334808111190796,
+      "step": 350,
+      "token_acc": 0.9299400823867182
+    },
+    {
+      "epoch": 6.207792207792208,
+      "grad_norm": 0.5389286279678345,
+      "learning_rate": 3.444073929968284e-05,
+      "loss": 0.23487865924835205,
+      "step": 360,
+      "token_acc": 0.9300512852684243
+    },
+    {
+      "epoch": 6.380952380952381,
+      "grad_norm": 0.4614177942276001,
+      "learning_rate": 3.175822522803623e-05,
+      "loss": 0.21724979877471923,
+      "step": 370,
+      "token_acc": 0.9360088365243004
+    },
+    {
+      "epoch": 6.554112554112554,
+      "grad_norm": 0.3773002326488495,
+      "learning_rate": 2.9134996314395818e-05,
+      "loss": 0.20992758274078369,
+      "step": 380,
+      "token_acc": 0.9362415581566618
+    },
+    {
+      "epoch": 6.7272727272727275,
+      "grad_norm": 1.1898497343063354,
+      "learning_rate": 2.65795779650105e-05,
+      "loss": 0.2153007745742798,
+      "step": 390,
+      "token_acc": 0.9367496189220204
+    },
+    {
+      "epoch": 6.9004329004329,
+      "grad_norm": 0.8586929440498352,
+      "learning_rate": 2.41002752040629e-05,
+      "loss": 0.22280852794647216,
+      "step": 400,
+      "token_acc": 0.9341588229918669
+    },
+    {
+      "epoch": 7.06926406926407,
+      "grad_norm": 0.5149306058883667,
+      "learning_rate": 2.1705145682618505e-05,
+      "loss": 0.21320977210998535,
+      "step": 410,
+      "token_acc": 0.9383294431477159
+    },
+    {
+      "epoch": 7.242424242424242,
+      "grad_norm": 0.4976541996002197,
+      "learning_rate": 1.940197349152923e-05,
+      "loss": 0.1985553979873657,
+      "step": 420,
+      "token_acc": 0.9401391309809833
+    },
+    {
+      "epoch": 7.415584415584416,
+      "grad_norm": 0.4779481589794159,
+      "learning_rate": 1.7198243863398273e-05,
+      "loss": 0.20875980854034423,
+      "step": 430,
+      "token_acc": 0.9373778262148182
+    },
+    {
+      "epoch": 7.588744588744589,
+      "grad_norm": 0.6022359132766724,
+      "learning_rate": 1.510111884582463e-05,
+      "loss": 0.19188997745513917,
+      "step": 440,
+      "token_acc": 0.942989444333798
+    },
+    {
+      "epoch": 7.761904761904762,
+      "grad_norm": 0.497090607881546,
+      "learning_rate": 1.3117414024987823e-05,
+      "loss": 0.1933382511138916,
+      "step": 450,
+      "token_acc": 0.9423271204556436
+    },
+    {
+      "epoch": 7.935064935064935,
+      "grad_norm": 0.488971084356308,
+      "learning_rate": 1.125357637522072e-05,
+      "loss": 0.1843361496925354,
+      "step": 460,
+      "token_acc": 0.9436703366987985
+    },
+    {
+      "epoch": 8.103896103896103,
+      "grad_norm": 0.767144501209259,
+      "learning_rate": 9.51566330655857e-06,
+      "loss": 0.19610201120376586,
+      "step": 470,
+      "token_acc": 0.9421800227876946
+    },
+    {
+      "epoch": 8.277056277056277,
+      "grad_norm": 0.4893112778663635,
+      "learning_rate": 7.909322978358913e-06,
+      "loss": 0.170158052444458,
+      "step": 480,
+      "token_acc": 0.9497098970386021
+    },
+    {
+      "epoch": 8.45021645021645,
+      "grad_norm": 0.5407018661499023,
+      "learning_rate": 6.439775942972609e-06,
+      "loss": 0.1650066614151001,
+      "step": 490,
+      "token_acc": 0.9508892299359032
+    },
+    {
+      "epoch": 8.623376623376624,
+      "grad_norm": 0.41522547602653503,
+      "learning_rate": 5.111798179123173e-06,
+      "loss": 0.1943192720413208,
+      "step": 500,
+      "token_acc": 0.9430037937960277
+    },
+    {
+      "epoch": 8.796536796536797,
+      "grad_norm": 0.5257052183151245,
+      "learning_rate": 3.929705570135711e-06,
+      "loss": 0.16702849864959718,
+      "step": 510,
+      "token_acc": 0.9501815248083905
+    },
+    {
+      "epoch": 8.969696969696969,
+      "grad_norm": 0.48933619260787964,
+      "learning_rate": 2.897339877460398e-06,
+      "loss": 0.19309405088424683,
+      "step": 520,
+      "token_acc": 0.9438778813778814
+    },
+    {
+      "epoch": 9.13852813852814,
+      "grad_norm": 0.6073329448699951,
+      "learning_rate": 2.018056255076256e-06,
+      "loss": 0.17578216791152954,
+      "step": 530,
+      "token_acc": 0.949875481814
+    },
+    {
+      "epoch": 9.311688311688311,
+      "grad_norm": 5.020083427429199,
+      "learning_rate": 1.2947123453528886e-06,
+      "loss": 0.18189191818237305,
+      "step": 540,
+      "token_acc": 0.9454742254092816
+    },
+    {
+      "epoch": 9.484848484848484,
+      "grad_norm": 0.6125385761260986,
+      "learning_rate": 7.296589918083685e-07,
+      "loss": 0.16662927865982055,
+      "step": 550,
+      "token_acc": 0.9502154609558632
+    },
+    {
+      "epoch": 9.658008658008658,
+      "grad_norm": 0.4245486259460449,
+      "learning_rate": 3.2473259894640894e-07,
+      "loss": 0.16942204236984254,
+      "step": 560,
+      "token_acc": 0.9508478741705578
+    },
+    {
+      "epoch": 9.831168831168831,
+      "grad_norm": 1.1829816102981567,
+      "learning_rate": 8.124916400311655e-08,
+      "loss": 0.17350658178329467,
+      "step": 570,
+      "token_acc": 0.9498697127620894
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.5661698579788208,
+      "learning_rate": 0.0,
+      "loss": 0.1673359751701355,
+      "step": 580,
+      "token_acc": 0.9504393101204035
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 580,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.229367912955904e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

output/training/v1-20260117-010840-10e/checkpoint-580/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e5274be8af993948bcfc3f1251ec27de22bce224d71e604e5b270f182b3aac2
+size 6993

output/training/v1-20260117-010840-10e/images/train_epoch.png ADDED Viewed

output/training/v1-20260117-010840-10e/images/train_grad_norm.png ADDED Viewed

output/training/v1-20260117-010840-10e/images/train_learning_rate.png ADDED Viewed

output/training/v1-20260117-010840-10e/images/train_loss.png ADDED Viewed

output/training/v1-20260117-010840-10e/images/train_token_acc.png ADDED Viewed

output/training/v1-20260117-010840-10e/images/train_total_flos.png ADDED Viewed

output/training/v1-20260117-010840-10e/images/train_train_loss.png ADDED Viewed

output/training/v1-20260117-010840-10e/images/train_train_runtime.png ADDED Viewed

output/training/v1-20260117-010840-10e/images/train_train_samples_per_second.png ADDED Viewed

output/training/v1-20260117-010840-10e/images/train_train_steps_per_second.png ADDED Viewed

output/training/v1-20260117-010840-10e/logging.jsonl ADDED Viewed

	@@ -0,0 +1,61 @@

+{"loss": 1.4861114, "grad_norm": 0.40925652, "learning_rate": 3.45e-06, "token_acc": 0.68119607, "epoch": 0.01731602, "global_step/max_steps": "1/580", "percentage": "0.17%", "elapsed_time": "11s", "remaining_time": "1h 52m 13s", "memory(GiB)": 20.84, "train_speed(iter/s)": 0.085986}
+{"loss": 1.43431155, "grad_norm": 0.39773372, "learning_rate": 3.448e-05, "token_acc": 0.69200245, "epoch": 0.17316017, "global_step/max_steps": "10/580", "percentage": "1.72%", "elapsed_time": "1m 22s", "remaining_time": "1h 18m 37s", "memory(GiB)": 20.95, "train_speed(iter/s)": 0.120821}
+{"loss": 1.3693718, "grad_norm": 0.24951316, "learning_rate": 6.897e-05, "token_acc": 0.70112604, "epoch": 0.34632035, "global_step/max_steps": "20/580", "percentage": "3.45%", "elapsed_time": "2m 44s", "remaining_time": "1h 16m 46s", "memory(GiB)": 28.17, "train_speed(iter/s)": 0.121558}
+{"loss": 1.19222298, "grad_norm": 0.24984458, "learning_rate": 0.0001, "token_acc": 0.72698795, "epoch": 0.51948052, "global_step/max_steps": "30/580", "percentage": "5.17%", "elapsed_time": "4m 3s", "remaining_time": "1h 14m 23s", "memory(GiB)": 28.17, "train_speed(iter/s)": 0.123231}
+{"loss": 1.01923475, "grad_norm": 0.32213846, "learning_rate": 9.99e-05, "token_acc": 0.7609011, "epoch": 0.69264069, "global_step/max_steps": "40/580", "percentage": "6.90%", "elapsed_time": "5m 23s", "remaining_time": "1h 12m 49s", "memory(GiB)": 28.66, "train_speed(iter/s)": 0.123595}
+{"loss": 0.91503496, "grad_norm": 0.40206295, "learning_rate": 9.964e-05, "token_acc": 0.7773336, "epoch": 0.86580087, "global_step/max_steps": "50/580", "percentage": "8.62%", "elapsed_time": "6m 41s", "remaining_time": "1h 10m 55s", "memory(GiB)": 28.67, "train_speed(iter/s)": 0.124536}
+{"loss": 0.77426672, "grad_norm": 0.20406531, "learning_rate": 9.922e-05, "token_acc": 0.81239426, "epoch": 1.03463203, "global_step/max_steps": "60/580", "percentage": "10.34%", "elapsed_time": "8m 2s", "remaining_time": "1h 9m 38s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124458}
+{"loss": 0.69839468, "grad_norm": 1.476807, "learning_rate": 9.864e-05, "token_acc": 0.82483331, "epoch": 1.20779221, "global_step/max_steps": "70/580", "percentage": "12.07%", "elapsed_time": "9m 22s", "remaining_time": "1h 8m 14s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.12455}
+{"loss": 0.61382432, "grad_norm": 0.6114096, "learning_rate": 9.79e-05, "token_acc": 0.84425611, "epoch": 1.38095238, "global_step/max_steps": "80/580", "percentage": "13.79%", "elapsed_time": "10m 42s", "remaining_time": "1h 6m 57s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124452}
+{"loss": 0.59754915, "grad_norm": 0.30513948, "learning_rate": 9.701e-05, "token_acc": 0.84831231, "epoch": 1.55411255, "global_step/max_steps": "90/580", "percentage": "15.52%", "elapsed_time": "12m 4s", "remaining_time": "1h 5m 42s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124286}
+{"loss": 0.54105206, "grad_norm": 0.37832206, "learning_rate": 9.596e-05, "token_acc": 0.86050941, "epoch": 1.72727273, "global_step/max_steps": "100/580", "percentage": "17.24%", "elapsed_time": "13m 22s", "remaining_time": "1h 4m 11s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124632}
+{"loss": 0.55311708, "grad_norm": 0.60398656, "learning_rate": 9.476e-05, "token_acc": 0.85478925, "epoch": 1.9004329, "global_step/max_steps": "110/580", "percentage": "18.97%", "elapsed_time": "14m 43s", "remaining_time": "1h 2m 55s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124471}
+{"loss": 0.5079349, "grad_norm": 0.53749853, "learning_rate": 9.342e-05, "token_acc": 0.86448883, "epoch": 2.06926407, "global_step/max_steps": "120/580", "percentage": "20.69%", "elapsed_time": "16m 2s", "remaining_time": "1h 1m 30s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124655}
+{"loss": 0.44995866, "grad_norm": 0.36461964, "learning_rate": 9.194e-05, "token_acc": 0.87973977, "epoch": 2.24242424, "global_step/max_steps": "130/580", "percentage": "22.41%", "elapsed_time": "17m 21s", "remaining_time": "1h 0m 5s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124797}
+{"loss": 0.42932315, "grad_norm": 1.5994767, "learning_rate": 9.032e-05, "token_acc": 0.88584906, "epoch": 2.41558442, "global_step/max_steps": "140/580", "percentage": "24.14%", "elapsed_time": "18m 44s", "remaining_time": "58m 53s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124527}
+{"loss": 0.43150377, "grad_norm": 0.46518201, "learning_rate": 8.857e-05, "token_acc": 0.88193073, "epoch": 2.58874459, "global_step/max_steps": "150/580", "percentage": "25.86%", "elapsed_time": "20m 3s", "remaining_time": "57m 31s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124597}
+{"loss": 0.40119166, "grad_norm": 0.69114858, "learning_rate": 8.669e-05, "token_acc": 0.88962249, "epoch": 2.76190476, "global_step/max_steps": "160/580", "percentage": "27.59%", "elapsed_time": "21m 21s", "remaining_time": "56m 5s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124813}
+{"loss": 0.40500436, "grad_norm": 0.35404441, "learning_rate": 8.469e-05, "token_acc": 0.89176467, "epoch": 2.93506494, "global_step/max_steps": "170/580", "percentage": "29.31%", "elapsed_time": "22m 42s", "remaining_time": "54m 47s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124732}
+{"loss": 0.37092483, "grad_norm": 0.34128174, "learning_rate": 8.259e-05, "token_acc": 0.89772912, "epoch": 3.1038961, "global_step/max_steps": "180/580", "percentage": "31.03%", "elapsed_time": "23m 59s", "remaining_time": "53m 19s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125023}
+{"loss": 0.34410374, "grad_norm": 0.34155095, "learning_rate": 8.037e-05, "token_acc": 0.90652066, "epoch": 3.27705628, "global_step/max_steps": "190/580", "percentage": "32.76%", "elapsed_time": "25m 22s", "remaining_time": "52m 5s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124775}
+{"loss": 0.35043871, "grad_norm": 0.36273357, "learning_rate": 7.806e-05, "token_acc": 0.90027623, "epoch": 3.45021645, "global_step/max_steps": "200/580", "percentage": "34.48%", "elapsed_time": "26m 40s", "remaining_time": "50m 41s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124947}
+{"loss": 0.35581975, "grad_norm": 0.81410897, "learning_rate": 7.566e-05, "token_acc": 0.899916, "epoch": 3.62337662, "global_step/max_steps": "210/580", "percentage": "36.21%", "elapsed_time": "28m 0s", "remaining_time": "49m 20s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124974}
+{"loss": 0.33676348, "grad_norm": 0.61765021, "learning_rate": 7.317e-05, "token_acc": 0.90481615, "epoch": 3.7965368, "global_step/max_steps": "220/580", "percentage": "37.93%", "elapsed_time": "29m 21s", "remaining_time": "48m 1s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124928}
+{"loss": 0.35226543, "grad_norm": 0.4928762, "learning_rate": 7.061e-05, "token_acc": 0.9020813, "epoch": 3.96969697, "global_step/max_steps": "230/580", "percentage": "39.66%", "elapsed_time": "30m 40s", "remaining_time": "46m 40s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124975}
+{"loss": 0.30578406, "grad_norm": 0.60574222, "learning_rate": 6.798e-05, "token_acc": 0.91238966, "epoch": 4.13852814, "global_step/max_steps": "240/580", "percentage": "41.38%", "elapsed_time": "32m 0s", "remaining_time": "45m 21s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.124951}
+{"loss": 0.30134411, "grad_norm": 12.58501434, "learning_rate": 6.529e-05, "token_acc": 0.91423631, "epoch": 4.31168831, "global_step/max_steps": "250/580", "percentage": "43.10%", "elapsed_time": "33m 18s", "remaining_time": "43m 58s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125065}
+{"loss": 0.28981488, "grad_norm": 0.32902831, "learning_rate": 6.255e-05, "token_acc": 0.91778892, "epoch": 4.48484848, "global_step/max_steps": "260/580", "percentage": "44.83%", "elapsed_time": "34m 36s", "remaining_time": "42m 36s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125195}
+{"loss": 0.29072208, "grad_norm": 0.39732787, "learning_rate": 5.977e-05, "token_acc": 0.91725888, "epoch": 4.65800866, "global_step/max_steps": "270/580", "percentage": "46.55%", "elapsed_time": "35m 57s", "remaining_time": "41m 17s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.12514}
+{"loss": 0.28525302, "grad_norm": 0.44461533, "learning_rate": 5.696e-05, "token_acc": 0.91667752, "epoch": 4.83116883, "global_step/max_steps": "280/580", "percentage": "48.28%", "elapsed_time": "37m 17s", "remaining_time": "39m 56s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125165}
+{"loss": 0.30205827, "grad_norm": 0.35245049, "learning_rate": 5.413e-05, "token_acc": 0.91382089, "epoch": 5.0, "global_step/max_steps": "290/580", "percentage": "50.00%", "elapsed_time": "38m 35s", "remaining_time": "38m 35s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125245}
+{"loss": 0.23758175, "grad_norm": 0.36154425, "learning_rate": 5.128e-05, "token_acc": 0.92829454, "epoch": 5.17316017, "global_step/max_steps": "300/580", "percentage": "51.72%", "elapsed_time": "39m 53s", "remaining_time": "37m 14s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.12533}
+{"loss": 0.27498043, "grad_norm": 0.402962, "learning_rate": 4.843e-05, "token_acc": 0.92176818, "epoch": 5.34632035, "global_step/max_steps": "310/580", "percentage": "53.45%", "elapsed_time": "41m 13s", "remaining_time": "35m 54s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125338}
+{"loss": 0.25760767, "grad_norm": 0.97008127, "learning_rate": 4.559e-05, "token_acc": 0.92520932, "epoch": 5.51948052, "global_step/max_steps": "320/580", "percentage": "55.17%", "elapsed_time": "42m 36s", "remaining_time": "34m 36s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125186}
+{"loss": 0.24246125, "grad_norm": 0.43049768, "learning_rate": 4.276e-05, "token_acc": 0.9276378, "epoch": 5.69264069, "global_step/max_steps": "330/580", "percentage": "56.90%", "elapsed_time": "43m 55s", "remaining_time": "33m 16s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125224}
+{"loss": 0.25920277, "grad_norm": 0.46521387, "learning_rate": 3.995e-05, "token_acc": 0.92409673, "epoch": 5.86580087, "global_step/max_steps": "340/580", "percentage": "58.62%", "elapsed_time": "45m 13s", "remaining_time": "31m 55s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125279}
+{"loss": 0.23348081, "grad_norm": 0.3748042, "learning_rate": 3.717e-05, "token_acc": 0.92994008, "epoch": 6.03463203, "global_step/max_steps": "350/580", "percentage": "60.34%", "elapsed_time": "46m 33s", "remaining_time": "30m 35s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125308}
+{"loss": 0.23487866, "grad_norm": 0.53892863, "learning_rate": 3.444e-05, "token_acc": 0.93005129, "epoch": 6.20779221, "global_step/max_steps": "360/580", "percentage": "62.07%", "elapsed_time": "47m 52s", "remaining_time": "29m 15s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125347}
+{"loss": 0.2172498, "grad_norm": 0.46141779, "learning_rate": 3.176e-05, "token_acc": 0.93600884, "epoch": 6.38095238, "global_step/max_steps": "370/580", "percentage": "63.79%", "elapsed_time": "49m 13s", "remaining_time": "27m 56s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.12527}
+{"loss": 0.20992758, "grad_norm": 0.37730023, "learning_rate": 2.913e-05, "token_acc": 0.93624156, "epoch": 6.55411255, "global_step/max_steps": "380/580", "percentage": "65.52%", "elapsed_time": "50m 31s", "remaining_time": "26m 35s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125335}
+{"loss": 0.21530077, "grad_norm": 1.18984973, "learning_rate": 2.658e-05, "token_acc": 0.93674962, "epoch": 6.72727273, "global_step/max_steps": "390/580", "percentage": "67.24%", "elapsed_time": "51m 50s", "remaining_time": "25m 15s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125393}
+{"loss": 0.22280853, "grad_norm": 0.85869294, "learning_rate": 2.41e-05, "token_acc": 0.93415882, "epoch": 6.9004329, "global_step/max_steps": "400/580", "percentage": "68.97%", "elapsed_time": "53m 10s", "remaining_time": "23m 55s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125373}
+{"loss": 0.21320977, "grad_norm": 0.51493061, "learning_rate": 2.171e-05, "token_acc": 0.93832944, "epoch": 7.06926407, "global_step/max_steps": "410/580", "percentage": "70.69%", "elapsed_time": "54m 30s", "remaining_time": "22m 36s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125348}
+{"loss": 0.1985554, "grad_norm": 0.4976542, "learning_rate": 1.94e-05, "token_acc": 0.94013913, "epoch": 7.24242424, "global_step/max_steps": "420/580", "percentage": "72.41%", "elapsed_time": "55m 49s", "remaining_time": "21m 15s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125401}
+{"loss": 0.20875981, "grad_norm": 0.47794816, "learning_rate": 1.72e-05, "token_acc": 0.93737783, "epoch": 7.41558442, "global_step/max_steps": "430/580", "percentage": "74.14%", "elapsed_time": "57m 8s", "remaining_time": "19m 55s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125431}
+{"loss": 0.19188998, "grad_norm": 0.60223591, "learning_rate": 1.51e-05, "token_acc": 0.94298944, "epoch": 7.58874459, "global_step/max_steps": "440/580", "percentage": "75.86%", "elapsed_time": "58m 26s", "remaining_time": "18m 35s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125498}
+{"loss": 0.19333825, "grad_norm": 0.49709061, "learning_rate": 1.312e-05, "token_acc": 0.94232712, "epoch": 7.76190476, "global_step/max_steps": "450/580", "percentage": "77.59%", "elapsed_time": "59m 48s", "remaining_time": "17m 16s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125417}
+{"loss": 0.18433615, "grad_norm": 0.48897108, "learning_rate": 1.125e-05, "token_acc": 0.94367034, "epoch": 7.93506494, "global_step/max_steps": "460/580", "percentage": "79.31%", "elapsed_time": "1h 1m 6s", "remaining_time": "15m 56s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125455}
+{"loss": 0.19610201, "grad_norm": 0.7671445, "learning_rate": 9.52e-06, "token_acc": 0.94218002, "epoch": 8.1038961, "global_step/max_steps": "470/580", "percentage": "81.03%", "elapsed_time": "1h 2m 26s", "remaining_time": "14m 36s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125464}
+{"loss": 0.17015805, "grad_norm": 0.48931128, "learning_rate": 7.91e-06, "token_acc": 0.9497099, "epoch": 8.27705628, "global_step/max_steps": "480/580", "percentage": "82.76%", "elapsed_time": "1h 3m 44s", "remaining_time": "13m 16s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125511}
+{"loss": 0.16500666, "grad_norm": 0.54070187, "learning_rate": 6.44e-06, "token_acc": 0.95088923, "epoch": 8.45021645, "global_step/max_steps": "490/580", "percentage": "84.48%", "elapsed_time": "1h 5m 4s", "remaining_time": "11m 57s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125482}
+{"loss": 0.19431927, "grad_norm": 0.41522548, "learning_rate": 5.11e-06, "token_acc": 0.94300379, "epoch": 8.62337662, "global_step/max_steps": "500/580", "percentage": "86.21%", "elapsed_time": "1h 6m 26s", "remaining_time": "10m 37s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125411}
+{"loss": 0.1670285, "grad_norm": 0.52570522, "learning_rate": 3.93e-06, "token_acc": 0.95018152, "epoch": 8.7965368, "global_step/max_steps": "510/580", "percentage": "87.93%", "elapsed_time": "1h 7m 47s", "remaining_time": "9m 18s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125396}
+{"loss": 0.19309405, "grad_norm": 0.48933619, "learning_rate": 2.9e-06, "token_acc": 0.94387788, "epoch": 8.96969697, "global_step/max_steps": "520/580", "percentage": "89.66%", "elapsed_time": "1h 9m 6s", "remaining_time": "7m 58s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125407}
+{"loss": 0.17578217, "grad_norm": 0.60733294, "learning_rate": 2.02e-06, "token_acc": 0.94987548, "epoch": 9.13852814, "global_step/max_steps": "530/580", "percentage": "91.38%", "elapsed_time": "1h 10m 29s", "remaining_time": "6m 39s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125309}
+{"loss": 0.18189192, "grad_norm": 5.02008343, "learning_rate": 1.29e-06, "token_acc": 0.94547423, "epoch": 9.31168831, "global_step/max_steps": "540/580", "percentage": "93.10%", "elapsed_time": "1h 11m 48s", "remaining_time": "5m 19s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125319}
+{"loss": 0.16662928, "grad_norm": 0.61253858, "learning_rate": 7.3e-07, "token_acc": 0.95021546, "epoch": 9.48484848, "global_step/max_steps": "550/580", "percentage": "94.83%", "elapsed_time": "1h 13m 7s", "remaining_time": "3m 59s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125367}
+{"loss": 0.16942204, "grad_norm": 0.42454863, "learning_rate": 3.2e-07, "token_acc": 0.95084787, "epoch": 9.65800866, "global_step/max_steps": "560/580", "percentage": "96.55%", "elapsed_time": "1h 14m 25s", "remaining_time": "2m 39s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125401}
+{"loss": 0.17350658, "grad_norm": 1.18298161, "learning_rate": 8e-08, "token_acc": 0.94986971, "epoch": 9.83116883, "global_step/max_steps": "570/580", "percentage": "98.28%", "elapsed_time": "1h 15m 44s", "remaining_time": "1m 19s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125429}
+{"loss": 0.16733598, "grad_norm": 0.56616986, "learning_rate": 0.0, "token_acc": 0.95043931, "epoch": 10.0, "global_step/max_steps": "580/580", "percentage": "100.00%", "elapsed_time": "1h 17m 0s", "remaining_time": "0s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125516}
+{"train_runtime": 4622.8006, "train_samples_per_second": 0.999, "train_steps_per_second": 0.125, "total_flos": 2.229367912955904e+17, "train_loss": 0.3817175, "epoch": 10.0, "global_step/max_steps": "580/580", "percentage": "100.00%", "elapsed_time": "1h 17m 2s", "remaining_time": "0s", "memory(GiB)": 29.8, "train_speed(iter/s)": 0.125465}
+{"model_parameter_info": "PeftModelForCausalLM: 3918.9627M Params (164.3397M Trainable [4.1934%]), 0.0024M Buffers.", "last_model_checkpoint": "/home/ab/document-parsing/output/training/v1-20260117-010840/checkpoint-580", "best_model_checkpoint": null, "best_metric": null, "global_step": 580, "log_history": [{"loss": 1.4861114025115967, "grad_norm": 0.4092565178871155, "learning_rate": 3.448275862068966e-06, "token_acc": 0.6811960725974412, "epoch": 0.017316017316017316, "step": 1}, {"loss": 1.4343115488688152, "grad_norm": 0.3977337181568146, "learning_rate": 3.4482758620689657e-05, "token_acc": 0.6920024476626676, "epoch": 0.17316017316017315, "step": 10}, {"loss": 1.3693717956542968, "grad_norm": 0.2495131641626358, "learning_rate": 6.896551724137931e-05, "token_acc": 0.7011260365349897, "epoch": 0.3463203463203463, "step": 20}, {"loss": 1.1922229766845702, "grad_norm": 0.24984458088874817, "learning_rate": 9.999918729041868e-05, "token_acc": 0.726987948088823, "epoch": 0.5194805194805194, "step": 30}, {"loss": 1.0192347526550294, "grad_norm": 0.3221384584903717, "learning_rate": 9.990169410465536e-05, "token_acc": 0.7609010955099522, "epoch": 0.6926406926406926, "step": 40}, {"loss": 0.9150349617004394, "grad_norm": 0.40206295251846313, "learning_rate": 9.964202208175834e-05, "token_acc": 0.7773335965518376, "epoch": 0.8658008658008658, "step": 50}, {"loss": 0.7742667198181152, "grad_norm": 0.20406530797481537, "learning_rate": 9.922101514711866e-05, "token_acc": 0.8123942631570925, "epoch": 1.0346320346320346, "step": 60}, {"loss": 0.6983946800231934, "grad_norm": 1.4768069982528687, "learning_rate": 9.864004155919543e-05, "token_acc": 0.8248333138378757, "epoch": 1.2077922077922079, "step": 70}, {"loss": 0.6138243198394775, "grad_norm": 0.611409604549408, "learning_rate": 9.790098946272177e-05, "token_acc": 0.8442561143531572, "epoch": 1.380952380952381, "step": 80}, {"loss": 0.5975491523742675, "grad_norm": 0.3051394820213318, "learning_rate": 9.700626075229738e-05, "token_acc": 0.8483123092893768, "epoch": 1.554112554112554, "step": 90}, {"loss": 0.5410520553588867, "grad_norm": 0.3783220648765564, "learning_rate": 9.595876326631154e-05, "token_acc": 0.8605094145609629, "epoch": 1.7272727272727273, "step": 100}, {"loss": 0.5531170845031739, "grad_norm": 0.6039865612983704, "learning_rate": 9.476190133656548e-05, "token_acc": 0.8547892544963617, "epoch": 1.9004329004329006, "step": 110}, {"loss": 0.5079349040985107, "grad_norm": 0.5374985337257385, "learning_rate": 9.341956472430801e-05, "token_acc": 0.864488826645558, "epoch": 2.069264069264069, "step": 120}, {"loss": 0.44995865821838377, "grad_norm": 0.364619642496109, "learning_rate": 9.193611597864139e-05, "token_acc": 0.8797397710240138, "epoch": 2.242424242424242, "step": 130}, {"loss": 0.429323148727417, "grad_norm": 1.59947669506073, "learning_rate": 9.031637625838265e-05, "token_acc": 0.8858490566037736, "epoch": 2.4155844155844157, "step": 140}, {"loss": 0.4315037727355957, "grad_norm": 0.46518200635910034, "learning_rate": 8.856560966345877e-05, "token_acc": 0.8819307344821817, "epoch": 2.588744588744589, "step": 150}, {"loss": 0.40119166374206544, "grad_norm": 0.691148579120636, "learning_rate": 8.668950612675785e-05, "token_acc": 0.8896224924972358, "epoch": 2.761904761904762, "step": 160}, {"loss": 0.40500435829162595, "grad_norm": 0.3540444076061249, "learning_rate": 8.469416292203747e-05, "token_acc": 0.8917646715924161, "epoch": 2.935064935064935, "step": 170}, {"loss": 0.37092483043670654, "grad_norm": 0.3412817418575287, "learning_rate": 8.258606484798897e-05, "token_acc": 0.8977291233149371, "epoch": 3.103896103896104, "step": 180}, {"loss": 0.344103741645813, "grad_norm": 0.34155094623565674, "learning_rate": 8.037206315285843e-05, "token_acc": 0.9065206570433051, "epoch": 3.277056277056277, "step": 190}, {"loss": 0.3504387140274048, "grad_norm": 0.3627335727214813, "learning_rate": 7.805935326811912e-05, "token_acc": 0.9002762340096682, "epoch": 3.45021645021645, "step": 200}, {"loss": 0.3558197498321533, "grad_norm": 0.8141089677810669, "learning_rate": 7.565545142355971e-05, "token_acc": 0.8999160043936163, "epoch": 3.6233766233766236, "step": 210}, {"loss": 0.33676347732543943, "grad_norm": 0.6176502108573914, "learning_rate": 7.316817021978884e-05, "token_acc": 0.904816147992892, "epoch": 3.7965367965367967, "step": 220}, {"loss": 0.35226542949676515, "grad_norm": 0.49287620186805725, "learning_rate": 7.060559323754435e-05, "token_acc": 0.9020813028578615, "epoch": 3.9696969696969697, "step": 230}, {"loss": 0.3057840585708618, "grad_norm": 0.6057422161102295, "learning_rate": 6.797604876632633e-05, "token_acc": 0.9123896645803242, "epoch": 4.138528138528138, "step": 240}, {"loss": 0.301344108581543, "grad_norm": 12.585014343261719, "learning_rate": 6.528808273773461e-05, "token_acc": 0.9142363149996737, "epoch": 4.311688311688312, "step": 250}, {"loss": 0.2898148775100708, "grad_norm": 0.32902830839157104, "learning_rate": 6.255043095147679e-05, "token_acc": 0.9177889157552563, "epoch": 4.484848484848484, "step": 260}, {"loss": 0.29072208404541017, "grad_norm": 0.39732787013053894, "learning_rate": 5.9771990684311544e-05, "token_acc": 0.917258875717698, "epoch": 4.658008658008658, "step": 270}, {"loss": 0.2852530241012573, "grad_norm": 0.44461533427238464, "learning_rate": 5.6961791774196424e-05, "token_acc": 0.9166775180675826, "epoch": 4.8311688311688314, "step": 280}, {"loss": 0.3020582675933838, "grad_norm": 0.35245048999786377, "learning_rate": 5.4128967273616625e-05, "token_acc": 0.9138208862720794, "epoch": 5.0, "step": 290}, {"loss": 0.23758175373077392, "grad_norm": 0.36154425144195557, "learning_rate": 5.128272376746972e-05, "token_acc": 0.9282945419454031, "epoch": 5.1731601731601735, "step": 300}, {"loss": 0.27498042583465576, "grad_norm": 0.40296199917793274, "learning_rate": 4.8432311451972665e-05, "token_acc": 0.9217681765679143, "epoch": 5.346320346320346, "step": 310}, {"loss": 0.2576076745986938, "grad_norm": 0.9700812697410583, "learning_rate": 4.558699407183338e-05, "token_acc": 0.9252093233763294, "epoch": 5.51948051948052, "step": 320}, {"loss": 0.2424612522125244, "grad_norm": 0.4304976761341095, "learning_rate": 4.2756018813390274e-05, "token_acc": 0.9276378041152792, "epoch": 5.692640692640692, "step": 330}, {"loss": 0.259202766418457, "grad_norm": 0.4652138650417328, "learning_rate": 3.9948586251565825e-05, "token_acc": 0.9240967292621122, "epoch": 5.865800865800866, "step": 340}, {"loss": 0.2334808111190796, "grad_norm": 0.37480419874191284, "learning_rate": 3.7173820448305755e-05, "token_acc": 0.9299400823867182, "epoch": 6.034632034632034, "step": 350}, {"loss": 0.23487865924835205, "grad_norm": 0.5389286279678345, "learning_rate": 3.444073929968284e-05, "token_acc": 0.9300512852684243, "epoch": 6.207792207792208, "step": 360}, {"loss": 0.21724979877471923, "grad_norm": 0.4614177942276001, "learning_rate": 3.175822522803623e-05, "token_acc": 0.9360088365243004, "epoch": 6.380952380952381, "step": 370}, {"loss": 0.20992758274078369, "grad_norm": 0.3773002326488495, "learning_rate": 2.9134996314395818e-05, "token_acc": 0.9362415581566618, "epoch": 6.554112554112554, "step": 380}, {"loss": 0.2153007745742798, "grad_norm": 1.1898497343063354, "learning_rate": 2.65795779650105e-05, "token_acc": 0.9367496189220204, "epoch": 6.7272727272727275, "step": 390}, {"loss": 0.22280852794647216, "grad_norm": 0.8586929440498352, "learning_rate": 2.41002752040629e-05, "token_acc": 0.9341588229918669, "epoch": 6.9004329004329, "step": 400}, {"loss": 0.21320977210998535, "grad_norm": 0.5149306058883667, "learning_rate": 2.1705145682618505e-05, "token_acc": 0.9383294431477159, "epoch": 7.06926406926407, "step": 410}, {"loss": 0.1985553979873657, "grad_norm": 0.4976541996002197, "learning_rate": 1.940197349152923e-05, "token_acc": 0.9401391309809833, "epoch": 7.242424242424242, "step": 420}, {"loss": 0.20875980854034423, "grad_norm": 0.4779481589794159, "learning_rate": 1.7198243863398273e-05, "token_acc": 0.9373778262148182, "epoch": 7.415584415584416, "step": 430}, {"loss": 0.19188997745513917, "grad_norm": 0.6022359132766724, "learning_rate": 1.510111884582463e-05, "token_acc": 0.942989444333798, "epoch": 7.588744588744589, "step": 440}, {"loss": 0.1933382511138916, "grad_norm": 0.497090607881546, "learning_rate": 1.3117414024987823e-05, "token_acc": 0.9423271204556436, "epoch": 7.761904761904762, "step": 450}, {"loss": 0.1843361496925354, "grad_norm": 0.488971084356308, "learning_rate": 1.125357637522072e-05, "token_acc": 0.9436703366987985, "epoch": 7.935064935064935, "step": 460}, {"loss": 0.19610201120376586, "grad_norm": 0.767144501209259, "learning_rate": 9.51566330655857e-06, "token_acc": 0.9421800227876946, "epoch": 8.103896103896103, "step": 470}, {"loss": 0.170158052444458, "grad_norm": 0.4893112778663635, "learning_rate": 7.909322978358913e-06, "token_acc": 0.9497098970386021, "epoch": 8.277056277056277, "step": 480}, {"loss": 0.1650066614151001, "grad_norm": 0.5407018661499023, "learning_rate": 6.439775942972609e-06, "token_acc": 0.9508892299359032, "epoch": 8.45021645021645, "step": 490}, {"loss": 0.1943192720413208, "grad_norm": 0.41522547602653503, "learning_rate": 5.111798179123173e-06, "token_acc": 0.9430037937960277, "epoch": 8.623376623376624, "step": 500}, {"loss": 0.16702849864959718, "grad_norm": 0.5257052183151245, "learning_rate": 3.929705570135711e-06, "token_acc": 0.9501815248083905, "epoch": 8.796536796536797, "step": 510}, {"loss": 0.19309405088424683, "grad_norm": 0.48933619260787964, "learning_rate": 2.897339877460398e-06, "token_acc": 0.9438778813778814, "epoch": 8.969696969696969, "step": 520}, {"loss": 0.17578216791152954, "grad_norm": 0.6073329448699951, "learning_rate": 2.018056255076256e-06, "token_acc": 0.949875481814, "epoch": 9.13852813852814, "step": 530}, {"loss": 0.18189191818237305, "grad_norm": 5.020083427429199, "learning_rate": 1.2947123453528886e-06, "token_acc": 0.9454742254092816, "epoch": 9.311688311688311, "step": 540}, {"loss": 0.16662927865982055, "grad_norm": 0.6125385761260986, "learning_rate": 7.296589918083685e-07, "token_acc": 0.9502154609558632, "epoch": 9.484848484848484, "step": 550}, {"loss": 0.16942204236984254, "grad_norm": 0.4245486259460449, "learning_rate": 3.2473259894640894e-07, "token_acc": 0.9508478741705578, "epoch": 9.658008658008658, "step": 560}, {"loss": 0.17350658178329467, "grad_norm": 1.1829816102981567, "learning_rate": 8.124916400311655e-08, "token_acc": 0.9498697127620894, "epoch": 9.831168831168831, "step": 570}, {"loss": 0.1673359751701355, "grad_norm": 0.5661698579788208, "learning_rate": 0.0, "token_acc": 0.9504393101204035, "epoch": 10.0, "step": 580}, {"train_runtime": 4622.8006, "train_samples_per_second": 0.999, "train_steps_per_second": 0.125, "total_flos": 2.229367912955904e+17, "train_loss": 0.3817174964937671, "epoch": 10.0, "step": 580}], "memory": 29.8046875}

output/training/v1-20260117-010840-10e/runs/events.out.tfevents.1768612131.5090.2113421.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b70de2b89c6fd0f0eae0667654df5c6c822d5e1f96e7052470d4c55216928190
+size 25008