checkpoint step 400 epoch 2

Browse files

Files changed (4) hide show

0402_1110_checkpoint_step_400_epoch_2/config.json +101 -0
0402_1110_checkpoint_step_400_epoch_2/model.pt +3 -0
0402_1110_checkpoint_step_400_epoch_2/optimizer.pt +3 -0
0402_1110_checkpoint_step_400_epoch_2/scheduler.pt +3 -0

0402_1110_checkpoint_step_400_epoch_2/config.json ADDED Viewed

	@@ -0,0 +1,101 @@

+{
+  "epoch": 2,
+  "global_step": 400,
+  "loss": 0.7921013832092285,
+  "training_config": {
+    "llm_backbone": "dasheng",
+    "qwen3_name": "Qwen/Qwen3-Embedding-0.6B",
+    "dasheng_name": "mispeech/midashenglm-7b-0804-fp32",
+    "dasheng_path": "/workspace/cache/huggingface/dasheng_lm",
+    "trainable_modules": [
+      "backbone",
+      "dasheng",
+      "dasheng_down",
+      "dasheng_proj",
+      "siglip_head"
+    ],
+    "use_lora": true,
+    "lora_r": 16,
+    "lora_alpha": 32,
+    "lora_dropout": 0.05,
+    "lora_target_modules": [
+      "q_proj",
+      "k_proj",
+      "v_proj"
+    ],
+    "use_dasheng_lora": false,
+    "dasheng_lora_r": 8,
+    "dasheng_lora_alpha": 16,
+    "dasheng_lora_dropout": 0.1,
+    "dasheng_lora_target_modules": null,
+    "train_layer_ratio": 1.0,
+    "train_layer_strategy": "last_n",
+    "output_dim": null,
+    "output_identity": false,
+    "use_logit_scale": true,
+    "loss_type": "infonce",
+    "use_checkpointing": true,
+    "checkpoint_reentrant": false,
+    "gather_negatives": true,
+    "use_loss_mask": true,
+    "duplicate_doc_threshold": 0.999,
+    "duplicate_query_threshold": 0.999,
+    "hard_negative_margin": 0.1,
+    "add_speaker_mask": false,
+    "s3_base_path": "https://d2j287p0ytux1o.cloudfront.net",
+    "dataset_config": "/workspace/SpeechRAG_exp/dataset_configs/setting_countingqa_embedding.json",
+    "aws_profile": "test_user",
+    "cache_dir": "/workspace/cache/huggingface",
+    "enable_audio_cache": false,
+    "audio_cache_dir": null,
+    "target_sr": 16000,
+    "mono": true,
+    "max_query_audio_length": 45.0,
+    "max_doc_audio_length": 45.0,
+    "max_query_text_length": 1000,
+    "max_doc_text_length": 1000,
+    "eval_max_query_audio_length": null,
+    "eval_max_doc_audio_length": null,
+    "eval_max_query_text_length": null,
+    "eval_max_doc_text_length": null,
+    "batch_size": 64,
+    "num_epochs": 10,
+    "learning_rate": 0.0001,
+    "gradient_accumulation_steps": 2,
+    "use_grad_cache": true,
+    "gc_query_chunk_size": 8,
+    "gc_doc_chunk_size": 8,
+    "gc_no_sync_except_last": true,
+    "ddp_find_unused_parameters": false,
+    "weight_decay": 0.001,
+    "optimizer_bits": "default",
+    "num_workers": 16,
+    "train_batch_task_mode": "mixed_task",
+    "task_batch_ratio": "{\"semantic\": 0.5, \"cross\": 0.5}",
+    "save_dir": "checkpoints",
+    "save_steps": 100,
+    "keep_checkpoints": 1,
+    "upload_steps": 100,
+    "upload_repo_id": "jdosjcd/embedding_checkpoint",
+    "log_dir": "logs",
+    "log_steps": 5,
+    "mixed_precision": "bf16",
+    "use_deepspeed": false,
+    "deepspeed_config": null,
+    "use_fsdp": false,
+    "fsdp_config": null,
+    "use_ema": false,
+    "ema_decay": 0.9999,
+    "ema_update_after": 0,
+    "ema_update_every": 1,
+    "scheduler_type": "warmup_cosine_decay",
+    "warmup_steps": 500,
+    "warmup_ratio": 0.1,
+    "min_lr": 1e-05,
+    "eval_steps": 100,
+    "eval_batch_size": 32,
+    "resume_from": null,
+    "test_mode": false,
+    "mock_dataset_size": 100
+  }
+}

0402_1110_checkpoint_step_400_epoch_2/model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24bc7ddc8525299a99ae89bf07d0927c34d7f30e08ac118479f2eaa569f70bd4
+size 31026342367

0402_1110_checkpoint_step_400_epoch_2/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17b5c0837294a6b6a8300b97f1f35d378806e626c26814625c07eb968b5c5142
+size 5487302675

0402_1110_checkpoint_step_400_epoch_2/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1f3bf0f2f1b687feac25ff8333d29d687617a0c27d714d34c98017b69075dda
+size 1401