File size: 3,717 Bytes

7b13ded

{
    "run": {
        "task": "video_text_pretrain",
        "lr_sched": "linear_warmup_cosine_lr",
        "init_lr": 0.0001,
        "min_lr": 1e-05,
        "warmup_lr": 1e-06,
        "weight_decay": 0.05,
        "max_epoch": 6,
        "iters_per_epoch": 3102,
        "batch_size_train": 1,
        "batch_size_eval": 4,
        "num_workers": 4,
        "warmup_steps": 3102,
        "accum_grad_iters": 8,
        "seed": 42,
        "output_dir": "ckpt/timechat/train_stage2_llama2_7b_instruct12.4k_charades_bz4_f96_epoch6_ws32_stride32_mfp96_mtl2048_lr1e-4",
        "amp": true,
        "resume_ckpt_path": null,
        "evaluate": false,
        "train_splits": [
            "train"
        ],
        "device": "cuda",
        "world_size": 4,
        "dist_url": "env://",
        "distributed": true,
        "rank": 0,
        "gpu": 0,
        "dist_backend": "nccl"
    },
    "model": {
        "arch": "timechat",
        "image_size": 224,
        "drop_path_rate": 0,
        "use_grad_checkpoint": true,
        "vit_precision": "fp16",
        "freeze_vit": true,
        "freeze_qformer": false,
        "num_query_token": 32,
        "llama_model": "ckpt/Video-LLaMA-2-7B-Finetuned/llama-2-7b-chat-hf/",
        "prompt": "",
        "model_type": "pretrain_llama_v2",
        "vit_model": "ckpt/eva-vit-g/eva_vit_g.pth",
        "q_former_model": "ckpt/instruct-blip/instruct_blip_vicuna7b_trimmed.pth",
        "ckpt": "ckpt/timechat/timechat_7b.pth",
        "frozen_llama_proj": false,
        "frozen_video_Qformer": false,
        "fusion_head_layers": 2,
        "max_frame_pos": 96,
        "fusion_header_type": "seqTransf",
        "max_txt_len": 2048,
        "end_sym": "</s>",
        "prompt_path": "",
        "prompt_template": "[INST] <<SYS>>\\n \\n<</SYS>>\\n\\n{} [/INST] ",
        "lora": true,
        "lora_inference_mode": false,
        "qformer_text_input": true,
        "window_size": 32,
        "stride": 32
    },
    "preprocess": {
        "vis_processor": {
            "train": {
                "name": "alpro_video_train",
                "image_size": 224,
                "n_frms": 8
            },
            "eval": {
                "name": "alpro_video_eval",
                "image_size": 224,
                "n_frms": 8
            }
        },
        "text_processor": {
            "train": {
                "name": "blip_caption"
            },
            "eval": {
                "name": "blip_caption"
            }
        }
    },
    "datasets": {
        "charades_instruct": {
            "data_type": "video",
            "build_info": {
                "anno_dir": "data/TimeIT/data/temporal_video_grounding/charades/instruct_tvg_12.4k_charades.json",
                "videos_dir": "data/"
            },
            "vis_processor": {
                "train": {
                    "name": "alpro_video_train",
                    "n_frms": 96,
                    "image_size": 224
                }
            },
            "text_processor": {
                "train": {
                    "name": "blip_caption"
                }
            },
            "num_video_query_token": 32,
            "tokenizer_name": "ckpt/Video-LLaMA-2-7B-Finetuned/llama-2-7b-chat-hf/",
            "model_type": "llama_v2",
            "num_frm": 96,
            "sample_type": "rand",
            "max_txt_len": 2048,
            "stride": 32
        }
    }
}
{"train_lr": "0.000", "train_loss": "0.482"}
{"train_lr": "0.000", "train_loss": "0.443"}
{"train_lr": "0.000", "train_loss": "0.426"}
{"train_lr": "0.000", "train_loss": "0.409"}
{"train_lr": "0.000", "train_loss": "0.387"}
{"train_lr": "0.000", "train_loss": "0.361"}