Dream-diffllm / train_state_00004.json

Upload folder using huggingface_hub

369e662 verified 9 months ago

1.2 kB

{"step": 2500, "acc_step": 0, "data_loader_state": {"it_state": {"start_token": 1251, "it_state": {"it_state": {"root_dir": "/scratch/dyvm6xra/dyvm6xrauseryuhao/dataset/Pretraining_Dataset", "sources": {"data1": 1.0}, "source_to_state": {"data1": {"file_path": "/scratch/dyvm6xra/dyvm6xrauseryuhao/dataset/Pretraining_Dataset/data1/data1.chunk.00.jsonl", "position": 40873452, "block_size": 8, "offset": 4, "current_iter": 1}}, "rng_state": {"bit_generator": "PCG64", "state": {"state": 227135332697807534426190885043870638037, "inc": 186633262021180533256729114674950595327}, "has_uint32": 0, "uinteger": 0}}, "add_bos": true, "add_eos": true, "name": "hf", "path": "/scratch/dyvm6xra/dyvm6xrauseryuhao/dream-training/Qwen2.5-7B-dcp"}, "output_seq_len": 4096, "n_views": 2}, "seq_idx": 452, "rng_state": {"bit_generator": "PCG64", "state": {"state": 172201970092670839766122039582155308497, "inc": 303111205818808944921858206842105131807}, "has_uint32": 0, "uinteger": 287498280}, "batch_size": 1, "prefetch_size": 1024}, "scheduler": {"base_lrs": [1e-05], "last_epoch": 2500, "verbose": false, "_step_count": 2501, "_get_lr_called_within_step": false, "_last_lr": [5e-06], "lr_lambdas": [{}]}}