diff --git "a/logs/20250528_110535/train.log" "b/logs/20250528_110535/train.log"
new file mode 100644--- /dev/null
+++ "b/logs/20250528_110535/train.log"
@@ -0,0 +1,27362 @@
+2025-05-28 11:05:55,258	INFO dashboard_sdk.py:338 -- Uploading package gcs://_ray_pkg_8afcbc808386ae61.zip.
+2025-05-28 11:05:55,259	INFO packaging.py:575 -- Creating a file package for local module '/mnt/petrelfs/luyiting/MultiAgentEval/lmm-r1'.
+2025-05-28 11:05:54,313	INFO cli.py:39 -- [37mJob submission server address[39m: [1mhttp://127.0.0.1:2989[22m
+2025-05-28 11:05:59,914	SUCC cli.py:63 -- [32m-------------------------------------------------------[39m
+2025-05-28 11:05:59,914	SUCC cli.py:64 -- [32mJob 'raysubmit_YfLa8tqbvrqPbydr' submitted successfully[39m
+2025-05-28 11:05:59,914	SUCC cli.py:65 -- [32m-------------------------------------------------------[39m
+2025-05-28 11:05:59,914	INFO cli.py:289 -- [36mNext steps[39m
+2025-05-28 11:05:59,914	INFO cli.py:290 -- Query the logs of the job:
+2025-05-28 11:05:59,914	INFO cli.py:292 -- [1mray job logs raysubmit_YfLa8tqbvrqPbydr[22m
+2025-05-28 11:05:59,914	INFO cli.py:294 -- Query the status of the job:
+2025-05-28 11:05:59,914	INFO cli.py:296 -- [1mray job status raysubmit_YfLa8tqbvrqPbydr[22m
+2025-05-28 11:05:59,914	INFO cli.py:298 -- Request the job to be stopped:
+2025-05-28 11:05:59,914	INFO cli.py:300 -- [1mray job stop raysubmit_YfLa8tqbvrqPbydr[22m
+2025-05-28 11:05:59,917	INFO cli.py:307 -- Tailing logs until the job exits (disable with --no-wait):
+2025-05-28 11:05:59,429	INFO job_manager.py:531 -- Runtime env is setting up.
+[2025-05-28 11:06:18,303] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+INFO 05-28 11:06:22 [__init__.py:239] Automatically detected platform cuda.
+2025-05-28 11:06:23,452	INFO worker.py:1520 -- Using address 10.140.0.151:6239 set in the environment variable RAY_ADDRESS
+2025-05-28 11:06:23,453	INFO worker.py:1660 -- Connecting to existing Ray cluster at address: 10.140.0.151:6239...
+2025-05-28 11:06:23,474	INFO worker.py:1843 -- Connected to Ray cluster. View the dashboard at [1m[32m10.140.0.151:2989 [39m[22m
+[36m(pid=279375)[0m INFO 05-28 11:06:42 [__init__.py:239] Automatically detected platform cuda.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:07:38 [config.py:585] This model supports multiple tasks: {'reward', 'generate', 'score', 'embed', 'classify'}. Defaulting to 'generate'.
+[36m(LLMRayActor pid=279375)[0m WARNING 05-28 11:07:38 [arg_utils.py:1846] VLLM_ATTENTION_BACKEND=triton is not supported by the V1 Engine. Falling back to V0. We recommend to remove VLLM_ATTENTION_BACKEND=triton from your config in favor of the V1 Engine.
+[36m(LLMRayActor pid=279375)[0m WARNING 05-28 11:07:38 [arg_utils.py:1745] --enable-prefix-caching is not supported for multimodal models in V0 and has been disabled.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:07:38 [llm_engine.py:241] Initializing a V0 LLM engine (v0.8.2.dev76+gf68cce8) with config: model='/mnt/petrelfs/luyiting/ckt/Qwen2.5-VL-7B-Instruct/Qwen2.5-VL-7B-Instruct/', speculative_config=None, tokenizer='/mnt/petrelfs/luyiting/ckt/Qwen2.5-VL-7B-Instruct/Qwen2.5-VL-7B-Instruct/', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.bfloat16, max_seq_len=8192, download_dir=None, load_format=auto, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=False, kv_cache_dtype=auto,  device_config=cuda, decoding_config=DecodingConfig(guided_decoding_backend='xgrammar', reasoning_backend=None), observability_config=ObservabilityConfig(show_hidden_metrics=False, otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=44, served_model_name=/mnt/petrelfs/luyiting/ckt/Qwen2.5-VL-7B-Instruct/Qwen2.5-VL-7B-Instruct/, num_scheduler_steps=1, multi_step_stream_outputs=True, enable_prefix_caching=False, chunked_prefill_enabled=False, use_async_output_proc=True, disable_mm_preprocessor_cache=False, mm_processor_kwargs=None, pooler_config=None, compilation_config={"splitting_ops":[],"compile_sizes":[],"cudagraph_capture_sizes":[256,248,240,232,224,216,208,200,192,184,176,168,160,152,144,136,128,120,112,104,96,88,80,72,64,56,48,40,32,24,16,8,4,2,1],"max_capture_size":256}, use_cached_outputs=False, 
+[36m(pid=279380)[0m INFO 05-28 11:06:42 [__init__.py:239] Automatically detected platform cuda.[32m [repeated 7x across cluster] (Ray deduplicates logs by default. Set RAY_DEDUP_LOGS=0 to disable log deduplication, or see https://docs.ray.io/en/master/ray-observability/user-guides/configure-logging.html#log-deduplication for more options.)[0m
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 11:07:38 [config.py:585] This model supports multiple tasks: {'score', 'reward', 'classify', 'generate', 'embed'}. Defaulting to 'generate'.
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 11:07:38 [config.py:585] This model supports multiple tasks: {'reward', 'generate', 'embed', 'score', 'classify'}. Defaulting to 'generate'.
+[36m(LLMRayActor pid=279381)[0m INFO 05-28 11:07:38 [config.py:585] This model supports multiple tasks: {'generate', 'embed', 'reward', 'classify', 'score'}. Defaulting to 'generate'.
+[36m(LLMRayActor pid=279378)[0m INFO 05-28 11:07:38 [config.py:585] This model supports multiple tasks: {'generate', 'reward', 'embed', 'classify', 'score'}. Defaulting to 'generate'.
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 11:07:38 [config.py:585] This model supports multiple tasks: {'reward', 'embed', 'generate', 'score', 'classify'}. Defaulting to 'generate'.
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 11:07:38 [config.py:585] This model supports multiple tasks: {'classify', 'embed', 'score', 'reward', 'generate'}. Defaulting to 'generate'.
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:07:38 [config.py:585] This model supports multiple tasks: {'classify', 'score', 'generate', 'embed', 'reward'}. Defaulting to 'generate'.
+[36m(LLMRayActor pid=279375)[0m [2025-05-28 11:07:43,846] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[36m(LLMRayActor pid=279380)[0m WARNING 05-28 11:07:38 [arg_utils.py:1846] VLLM_ATTENTION_BACKEND=triton is not supported by the V1 Engine. Falling back to V0. We recommend to remove VLLM_ATTENTION_BACKEND=triton from your config in favor of the V1 Engine.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m WARNING 05-28 11:07:38 [arg_utils.py:1745] --enable-prefix-caching is not supported for multimodal models in V0 and has been disabled.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:07:38 [llm_engine.py:241] Initializing a V0 LLM engine (v0.8.2.dev76+gf68cce8) with config: model='/mnt/petrelfs/luyiting/ckt/Qwen2.5-VL-7B-Instruct/Qwen2.5-VL-7B-Instruct/', speculative_config=None, tokenizer='/mnt/petrelfs/luyiting/ckt/Qwen2.5-VL-7B-Instruct/Qwen2.5-VL-7B-Instruct/', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.bfloat16, max_seq_len=8192, download_dir=None, load_format=auto, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=False, kv_cache_dtype=auto,  device_config=cuda, decoding_config=DecodingConfig(guided_decoding_backend='xgrammar', reasoning_backend=None), observability_config=ObservabilityConfig(show_hidden_metrics=False, otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=47, served_model_name=/mnt/petrelfs/luyiting/ckt/Qwen2.5-VL-7B-Instruct/Qwen2.5-VL-7B-Instruct/, num_scheduler_steps=1, multi_step_stream_outputs=True, enable_prefix_caching=False, chunked_prefill_enabled=False, use_async_output_proc=True, disable_mm_preprocessor_cache=False, mm_processor_kwargs=None, pooler_config=None, compilation_config={"splitting_ops":[],"compile_sizes":[],"cudagraph_capture_sizes":[256,248,240,232,224,216,208,200,192,184,176,168,160,152,144,136,128,120,112,104,96,88,80,72,64,56,48,40,32,24,16,8,4,2,1],"max_capture_size":256}, use_cached_outputs=False, [32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:07:54 [cuda.py:293] Using Flash Attention backend.
+[36m(LLMRayActor pid=279380)[0m [2025-05-28 11:07:43,846] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:07:58 [parallel_state.py:967] rank 0 in world size 1 is assigned as DP rank 0, PP rank 0, TP rank 0
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:07:58 [model_runner.py:1110] Starting to load model /mnt/petrelfs/luyiting/ckt/Qwen2.5-VL-7B-Instruct/Qwen2.5-VL-7B-Instruct/...
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:07:54 [cuda.py:293] Using Flash Attention backend.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:07:59 [config.py:3229] cudagraph sizes specified by model runner [1, 2, 4, 8, 16, 24, 32, 40, 48, 56, 64, 72, 80, 88, 96, 104, 112, 120, 128, 136, 144, 152, 160, 168, 176, 184, 192, 200, 208, 216, 224, 232, 240, 248, 256] is overridden by config [256, 128, 2, 1, 4, 136, 8, 144, 16, 152, 24, 160, 32, 168, 40, 176, 48, 184, 56, 192, 64, 200, 72, 208, 80, 216, 88, 120, 224, 96, 232, 104, 240, 112, 248]
+[36m(LLMRayActor pid=279382)[0m 
+Loading safetensors checkpoint shards:   0% Completed | 0/5 [00:00<?, ?it/s]
+[36m(LLMRayActor pid=279382)[0m 
+Loading safetensors checkpoint shards:  20% Completed | 1/5 [00:04<00:16,  4.08s/it]
+[36m(LLMRayActor pid=279374)[0m 
+Loading safetensors checkpoint shards:   0% Completed | 0/5 [00:00<?, ?it/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Loading safetensors checkpoint shards:  40% Completed | 2/5 [00:18<00:30, 10.26s/it][32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Loading safetensors checkpoint shards:  60% Completed | 3/5 [00:26<00:18,  9.02s/it][32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Loading safetensors checkpoint shards:  80% Completed | 4/5 [00:33<00:08,  8.16s/it][32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+[36m(LLMRayActor pid=279377)[0m 
+Loading safetensors checkpoint shards: 100% Completed | 5/5 [00:40<00:00,  8.01s/it][32m [repeated 9x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+[36m(LLMRayActor pid=279382)[0m 
+[36m(LLMRayActor pid=279379)[0m 
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 11:08:40 [loader.py:429] Loading weights took 40.12 seconds
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:07:58 [parallel_state.py:967] rank 0 in world size 1 is assigned as DP rank 0, PP rank 0, TP rank 0[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 11:07:59 [model_runner.py:1110] Starting to load model /mnt/petrelfs/luyiting/ckt/Qwen2.5-VL-7B-Instruct/Qwen2.5-VL-7B-Instruct/...[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:07:59 [config.py:3229] cudagraph sizes specified by model runner [1, 2, 4, 8, 16, 24, 32, 40, 48, 56, 64, 72, 80, 88, 96, 104, 112, 120, 128, 136, 144, 152, 160, 168, 176, 184, 192, 200, 208, 216, 224, 232, 240, 248, 256] is overridden by config [256, 128, 2, 1, 4, 136, 8, 144, 16, 152, 24, 160, 32, 168, 40, 176, 48, 184, 56, 192, 64, 200, 72, 208, 80, 216, 88, 120, 224, 96, 232, 104, 240, 112, 248][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+[36m(LLMRayActor pid=279381)[0m 
+[36m(LLMRayActor pid=279380)[0m 
+[36m(LLMRayActor pid=279378)[0m 
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:08:40 [model_runner.py:1146] Model loading took 15.6271 GB and 41.539014 seconds
+[36m(LLMRayActor pid=279379)[0m Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+[36m(LLMRayActor pid=279379)[0m WARNING 05-28 11:08:41 [model_runner.py:1296] Computed max_num_seqs (min(256, 8192 // 32768)) to be less than 1. Setting it to the minimum value of 1.
+[36m(LLMRayActor pid=279379)[0m WARNING 05-28 11:08:48 [profiling.py:222] The sequence length used for profiling (max_num_batched_tokens / max_num_seqs = 8192) is too short to hold the multi-modal embeddings in the worst case (32768 tokens in total, out of which {'image': 16384, 'video': 16384} are reserved for multi-modal embeddings). This may cause certain multi-modal inputs to fail during inference, even when the input text is short. To avoid this, you should increase `max_model_len`, reduce `max_num_seqs`, and/or reduce `mm_counts`.
+[36m(LLMRayActor pid=279378)[0m INFO 05-28 11:08:40 [loader.py:429] Loading weights took 40.25 seconds[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 11:08:40 [model_runner.py:1146] Model loading took 15.6271 GB and 41.436978 seconds[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m WARNING 05-28 11:08:41 [model_runner.py:1296] Computed max_num_seqs (min(256, 8192 // 32768)) to be less than 1. Setting it to the minimum value of 1.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 11:08:50 [worker.py:267] Memory profiling takes 9.40 seconds
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 11:08:50 [worker.py:267] the current vLLM instance can use total_gpu_memory (79.32GiB) x gpu_memory_utilization (0.50) = 39.66GiB
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 11:08:50 [worker.py:267] model weights take 15.63GiB; non_torch_memory takes 0.21GiB; PyTorch activation peak memory takes 1.09GiB; the rest of the memory reserved for KV Cache is 22.73GiB.
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 11:08:50 [executor_base.py:111] # cuda blocks: 26598, # CPU blocks: 4681
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 11:08:50 [executor_base.py:116] Maximum concurrency for 8192 tokens per request: 51.95x
+[36m(LLMRayActor pid=279382)[0m 
+Capturing CUDA graph shapes:   0%|          | 0/35 [00:00<?, ?it/s]
+[36m(LLMRayActor pid=279378)[0m 
+Loading safetensors checkpoint shards: 100% Completed | 5/5 [00:40<00:00,  8.01s/it][32m [repeated 14x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:08:53 [model_runner.py:1442] Capturing cudagraphs for decoding. This may lead to unexpected consequences if the model is not static. To run the model in eager mode, set 'enforce_eager=True' or use '--enforce-eager' in the CLI. If out-of-memory error occurs during cudagraph capture, consider decreasing `gpu_memory_utilization` or switching to eager mode. You can also reduce the `max_num_seqs` as needed to decrease memory usage.
+[36m(LLMRayActor pid=279374)[0m WARNING 05-28 11:08:48 [profiling.py:222] The sequence length used for profiling (max_num_batched_tokens / max_num_seqs = 8192) is too short to hold the multi-modal embeddings in the worst case (32768 tokens in total, out of which {'image': 16384, 'video': 16384} are reserved for multi-modal embeddings). This may cause certain multi-modal inputs to fail during inference, even when the input text is short. To avoid this, you should increase `max_model_len`, reduce `max_num_seqs`, and/or reduce `mm_counts`.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Capturing CUDA graph shapes:   3%|▎         | 1/35 [00:00<00:21,  1.57it/s]
+[36m(LLMRayActor pid=279378)[0m 
+Capturing CUDA graph shapes:   0%|          | 0/35 [00:00<?, ?it/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Capturing CUDA graph shapes:  29%|██▊       | 10/35 [00:05<00:13,  1.83it/s][32m [repeated 70x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Capturing CUDA graph shapes:  57%|█████▋    | 20/35 [00:10<00:08,  1.87it/s][32m [repeated 70x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Capturing CUDA graph shapes:  80%|████████  | 28/35 [00:15<00:03,  1.76it/s][32m [repeated 66x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Capturing CUDA graph shapes:  91%|█████████▏| 32/35 [00:17<00:01,  1.70it/s]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:09:13 [model_runner.py:1570] Graph capturing finished in 20 secs, took 1.91 GiB
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:09:13 [llm_engine.py:447] init engine (profile, create kv cache, warmup model) took 32.75 seconds
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 11:08:50 [worker.py:267] Memory profiling takes 9.67 seconds[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 11:08:50 [worker.py:267] the current vLLM instance can use total_gpu_memory (79.32GiB) x gpu_memory_utilization (0.50) = 39.66GiB[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 11:08:50 [worker.py:267] model weights take 15.63GiB; non_torch_memory takes 0.21GiB; PyTorch activation peak memory takes 1.09GiB; the rest of the memory reserved for KV Cache is 22.73GiB.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m INFO 05-28 11:08:51 [executor_base.py:111] # cuda blocks: 26598, # CPU blocks: 4681[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m INFO 05-28 11:08:51 [executor_base.py:116] Maximum concurrency for 8192 tokens per request: 51.95x[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m INFO 05-28 11:08:54 [model_runner.py:1442] Capturing cudagraphs for decoding. This may lead to unexpected consequences if the model is not static. To run the model in eager mode, set 'enforce_eager=True' or use '--enforce-eager' in the CLI. If out-of-memory error occurs during cudagraph capture, consider decreasing `gpu_memory_utilization` or switching to eager mode. You can also reduce the `max_num_seqs` as needed to decrease memory usage.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Capturing CUDA graph shapes: 100%|██████████| 35/35 [00:19<00:00,  1.76it/s]
+Capturing CUDA graph shapes: 100%|██████████| 35/35 [00:19<00:00,  1.79it/s]
+[36m(LLMRayActor pid=279377)[0m 
+Capturing CUDA graph shapes:  89%|████████▊ | 31/35 [00:21<00:03,  1.27it/s][32m [repeated 39x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Capturing CUDA graph shapes:  91%|█████████▏| 32/35 [00:23<00:02,  1.15it/s][32m [repeated 20x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Capturing CUDA graph shapes: 100%|██████████| 35/35 [00:24<00:00,  1.35it/s]
+Capturing CUDA graph shapes: 100%|██████████| 35/35 [00:24<00:00,  1.45it/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m INFO 05-28 11:09:19 [model_runner.py:1570] Graph capturing finished in 26 secs, took 1.91 GiB[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m INFO 05-28 11:09:19 [llm_engine.py:447] init engine (profile, create kv cache, warmup model) took 38.99 seconds[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:09:26 [worker.py:133] Sleep mode freed 38.48 GiB memory, 3.87 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:09:26 [executor_base.py:208] It took 12.136159 seconds to fall asleep.
+[36m(LLMRayActor pid=279381)[0m INFO 05-28 11:09:31 [worker.py:133] Sleep mode freed 38.48 GiB memory, 3.87 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m INFO 05-28 11:09:31 [executor_base.py:208] It took 11.361661 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(pid=286523)[0m [2025-05-28 11:09:53,554] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[36m(pid=286523)[0m INFO 05-28 11:09:58 [__init__.py:239] Automatically detected platform cuda.
+[36m(pid=287378)[0m [2025-05-28 11:10:16,978] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[36m(pid=287375)[0m [2025-05-28 11:10:16,978] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[36m(pid=287378)[0m INFO 05-28 11:10:21 [__init__.py:239] Automatically detected platform cuda.
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:10:23,166] [INFO] [comm.py:658:init_distributed] cdb=None
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:10:23,167] [INFO] [comm.py:689:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+[36m(pid=287373)[0m [2025-05-28 11:10:16,977] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)[32m [repeated 6x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:10:23,271] [INFO] [config.py:734:__init__] Config mesh_device None world_size = 8
+[36m(ActorModelRayActor pid=286523)[0m You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+[36m(LLMRayActor pid=279381)[0m 
+Capturing CUDA graph shapes:  89%|████████▊ | 31/35 [00:22<00:03,  1.17it/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Capturing CUDA graph shapes:  97%|█████████▋| 34/35 [00:24<00:00,  1.17it/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Capturing CUDA graph shapes: 100%|██████████| 35/35 [00:25<00:00,  1.22it/s]
+Capturing CUDA graph shapes: 100%|██████████| 35/35 [00:25<00:00,  1.37it/s]
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:10:27,913] [INFO] [partition_parameters.py:348:__exit__] finished initializing model - num_params = 729, num_elems = 8.29B
+[36m(pid=287373)[0m INFO 05-28 11:10:21 [__init__.py:239] Automatically detected platform cuda.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]
+[36m(ActorModelRayActor pid=286523)[0m 
+Loading checkpoint shards:  20%|██        | 1/5 [00:06<00:24,  6.23s/it]
+[36m(ActorModelRayActor pid=287371)[0m You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287371)[0m 
+Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s][32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287375)[0m 
+Loading checkpoint shards:  40%|████      | 2/5 [00:11<00:17,  5.84s/it][32m [repeated 8x across cluster][0m
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:10:23,160] [INFO] [comm.py:658:init_distributed] cdb=None[32m [repeated 8x across cluster][0m
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:10:23,161] [INFO] [comm.py:689:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+[36m(pid=296258)[0m [2025-05-28 11:10:41,358] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[36m(ActorModelRayActor pid=287374)[0m [2025-05-28 11:10:23,243] [INFO] [config.py:734:__init__] Config mesh_device None world_size = 8[32m [repeated 7x across cluster][0m
+[36m(pid=296260)[0m [2025-05-28 11:10:41,357] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[36m(ActorModelRayActor pid=287375)[0m 
+Loading checkpoint shards:  60%|██████    | 3/5 [00:16<00:10,  5.46s/it][32m [repeated 8x across cluster][0m
+[36m(pid=296258)[0m INFO 05-28 11:10:46 [__init__.py:239] Automatically detected platform cuda.
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:10:47,757] [INFO] [config.py:734:__init__] Config mesh_device None world_size = 8
+[36m(pid=296255)[0m [2025-05-28 11:10:41,358] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)[32m [repeated 5x across cluster][0m
+[36m(ReferenceModelRayActor pid=287373)[0m You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+[36m(ReferenceModelRayActor pid=296258)[0m [2025-05-28 11:10:47,681] [INFO] [comm.py:658:init_distributed] cdb=None
+[36m(ReferenceModelRayActor pid=296258)[0m [2025-05-28 11:10:47,750] [INFO] [config.py:734:__init__] Config mesh_device None world_size = 8
+[36m(ActorModelRayActor pid=287375)[0m 
+Loading checkpoint shards: 100%|██████████| 5/5 [00:21<00:00,  3.39s/it]
+Loading checkpoint shards: 100%|███���██████| 5/5 [00:21<00:00,  4.34s/it]
+[36m(ActorModelRayActor pid=287378)[0m INFO 05-28 11:10:49 visual_utils.py:42] set VIDEO_TOTAL_PIXELS: 90316800
+[36m(ActorModelRayActor pid=286523)[0m 
+Loading checkpoint shards:  80%|████████  | 4/5 [00:22<00:05,  5.31s/it][32m [repeated 15x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m Actor(
+[36m(ActorModelRayActor pid=286523)[0m   (model): Qwen2_5_VLForConditionalGeneration(
+[36m(ActorModelRayActor pid=286523)[0m     (visual): Qwen2_5_VisionTransformerPretrainedModel(
+[36m(ActorModelRayActor pid=286523)[0m       (patch_embed): Qwen2_5_VisionPatchEmbed(
+[36m(ActorModelRayActor pid=286523)[0m         (proj): Conv3d(3, 1280, kernel_size=(2, 14, 14), stride=(2, 14, 14), bias=False)
+[36m(ActorModelRayActor pid=286523)[0m       )
+[36m(ActorModelRayActor pid=286523)[0m       (rotary_pos_emb): Qwen2_5_VisionRotaryEmbedding()
+[36m(ActorModelRayActor pid=286523)[0m       (blocks): ModuleList(
+[36m(ActorModelRayActor pid=286523)[0m         (0-31): 32 x Qwen2_5_VLVisionBlock(
+[36m(ActorModelRayActor pid=286523)[0m           (norm1): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ActorModelRayActor pid=286523)[0m           (norm2): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ActorModelRayActor pid=286523)[0m           (attn): Qwen2_5_VLVisionFlashAttention2(
+[36m(ActorModelRayActor pid=286523)[0m             (qkv): Linear(in_features=1280, out_features=3840, bias=True)
+[36m(ActorModelRayActor pid=286523)[0m             (proj): Linear(in_features=1280, out_features=1280, bias=True)
+[36m(ActorModelRayActor pid=286523)[0m           )
+[36m(ActorModelRayActor pid=286523)[0m           (mlp): Qwen2_5_VLMLP(
+[36m(ActorModelRayActor pid=286523)[0m             (gate_proj): Linear(in_features=1280, out_features=3420, bias=True)
+[36m(ActorModelRayActor pid=286523)[0m             (up_proj): Linear(in_features=1280, out_features=3420, bias=True)
+[36m(ActorModelRayActor pid=286523)[0m             (down_proj): Linear(in_features=3420, out_features=1280, bias=True)
+[36m(ActorModelRayActor pid=286523)[0m             (act_fn): SiLU()
+[36m(ActorModelRayActor pid=286523)[0m           )
+[36m(ActorModelRayActor pid=286523)[0m         )
+[36m(ActorModelRayActor pid=286523)[0m       )
+[36m(ActorModelRayActor pid=286523)[0m       (merger): Qwen2_5_VLPatchMerger(
+[36m(ActorModelRayActor pid=286523)[0m         (ln_q): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ActorModelRayActor pid=286523)[0m         (mlp): Sequential(
+[36m(ActorModelRayActor pid=286523)[0m           (0): Linear(in_features=5120, out_features=5120, bias=True)
+[36m(ActorModelRayActor pid=286523)[0m           (1): GELU(approximate='none')
+[36m(ActorModelRayActor pid=286523)[0m           (2): Linear(in_features=5120, out_features=3584, bias=True)
+[36m(ActorModelRayActor pid=286523)[0m         )
+[36m(ActorModelRayActor pid=286523)[0m       )
+[36m(ActorModelRayActor pid=286523)[0m     )
+[36m(ActorModelRayActor pid=286523)[0m     (model): Qwen2_5_VLModel(
+[36m(ActorModelRayActor pid=286523)[0m       (embed_tokens): Embedding(152064, 3584)
+[36m(ActorModelRayActor pid=286523)[0m       (layers): ModuleList(
+[36m(ActorModelRayActor pid=286523)[0m         (0-27): 28 x Qwen2_5_VLDecoderLayer(
+[36m(ActorModelRayActor pid=286523)[0m           (self_attn): Qwen2_5_VLFlashAttention2(
+[36m(ActorModelRayActor pid=286523)[0m             (q_proj): Linear(in_features=3584, out_features=3584, bias=True)
+[36m(ActorModelRayActor pid=286523)[0m             (k_proj): Linear(in_features=3584, out_features=512, bias=True)
+[36m(ActorModelRayActor pid=286523)[0m             (v_proj): Linear(in_features=3584, out_features=512, bias=True)
+[36m(ActorModelRayActor pid=286523)[0m             (o_proj): Linear(in_features=3584, out_features=3584, bias=False)
+[36m(ActorModelRayActor pid=286523)[0m             (rotary_emb): Qwen2_5_VLRotaryEmbedding()
+[36m(ActorModelRayActor pid=286523)[0m           )
+[36m(ActorModelRayActor pid=286523)[0m           (mlp): Qwen2MLP(
+[36m(ActorModelRayActor pid=286523)[0m             (gate_proj): Linear(in_features=3584, out_features=18944, bias=False)
+[36m(ActorModelRayActor pid=286523)[0m             (up_proj): Linear(in_features=3584, out_features=18944, bias=False)
+[36m(ActorModelRayActor pid=286523)[0m             (down_proj): Linear(in_features=18944, out_features=3584, bias=False)
+[36m(ActorModelRayActor pid=286523)[0m             (act_fn): SiLU()
+[36m(ActorModelRayActor pid=286523)[0m           )
+[36m(ActorModelRayActor pid=286523)[0m           (input_layernorm): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ActorModelRayActor pid=286523)[0m           (post_attention_layernorm): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ActorModelRayActor pid=286523)[0m         )
+[36m(ActorModelRayActor pid=286523)[0m       )
+[36m(ActorModelRayActor pid=286523)[0m       (norm): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ActorModelRayActor pid=286523)[0m       (rotary_emb): Qwen2_5_VLRotaryEmbedding()
+[36m(ActorModelRayActor pid=286523)[0m     )
+[36m(ActorModelRayActor pid=286523)[0m     (lm_head): Linear(in_features=3584, out_features=152064, bias=False)
+[36m(ActorModelRayActor pid=286523)[0m   )
+[36m(ActorModelRayActor pid=286523)[0m )
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:10:53,964] [INFO] [partition_parameters.py:348:__exit__] finished initializing model - num_params = 729, num_elems = 8.29B
+[36m(pid=296255)[0m INFO 05-28 11:10:46 [__init__.py:239] Automatically detected platform cuda.[32m [repeated 6x across cluster][0m
+[36m(ReferenceModelRayActor pid=296255)[0m [2025-05-28 11:10:47,681] [INFO] [comm.py:658:init_distributed] cdb=None[32m [repeated 6x across cluster][0m
+[36m(ReferenceModelRayActor pid=296255)[0m [2025-05-28 11:10:47,744] [INFO] [config.py:734:__init__] Config mesh_device None world_size = 8[32m [repeated 6x across cluster][0m
+[36m(ReferenceModelRayActor pid=287373)[0m 
+Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]
+[36m(ReferenceModelRayActor pid=296261)[0m You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287371)[0m Installed CUDA version 12.1 does not match the version torch was compiled with 12.4 but since the APIs are compatible, accepting this combination
+[36m(ActorModelRayActor pid=287371)[0m Using /mnt/petrelfs/luyiting/.cache/torch_extensions/py310_cu124 as PyTorch extensions root...
+[36m(ActorModelRayActor pid=287371)[0m ninja: no work to do.
+[36m(ActorModelRayActor pid=287371)[0m Time to load cpu_adam op: 2.7442727088928223 seconds
+[36m(ActorModelRayActor pid=287371)[0m Adam Optimizer #0 is created with AVX512 arithmetic capability.
+[36m(ActorModelRayActor pid=287371)[0m Config: alpha=0.000001, betas=(0.900000, 0.950000), weight_decay=0.000000, adam_w=1
+[36m(ActorModelRayActor pid=286523)[0m INFO 05-28 11:10:51 visual_utils.py:42] set VIDEO_TOTAL_PIXELS: 90316800[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m Emitting ninja build file /mnt/petrelfs/luyiting/.cache/torch_extensions/py310_cu124/cpu_adam/build.ninja...
+[36m(ActorModelRayActor pid=287377)[0m Building extension module cpu_adam...
+[36m(ActorModelRayActor pid=287377)[0m Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
+[36m(ActorModelRayActor pid=287377)[0m Loading extension module cpu_adam...
+[36m(ActorModelRayActor pid=286523)[0m 
+Loading checkpoint shards: 100%|██████████| 5/5 [00:23<00:00,  3.80s/it]
+Loading checkpoint shards: 100%|██████████| 5/5 [00:23<00:00,  4.63s/it][32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m dataset: /mnt/petrelfs/luyiting/MultiAgentEval/data_process_v1/train_ava_mini_evalmuse_koniq_llavastyle_openrlhf_merged.jsonl
+[36m(ReferenceModelRayActor pid=296257)[0m 
+Loading checkpoint shards:  20%|██        | 1/5 [00:05<00:22,  5.59s/it]
+[36m(ReferenceModelRayActor pid=296261)[0m 
+Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s][32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m Using /mnt/petrelfs/luyiting/.cache/torch_extensions/py310_cu124 as PyTorch extensions root...[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m Emitting ninja build file /mnt/petrelfs/luyiting/.cache/torch_extensions/py310_cu124/cpu_adam/build.ninja...[32m [repeated 5x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m Building extension module cpu_adam...[32m [repeated 5x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)[32m [repeated 5x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m Loading extension module cpu_adam...[32m [repeated 7x across cluster][0m
+[36m(ReferenceModelRayActor pid=296257)[0m 
+Loading checkpoint shards:  40%|████      | 2/5 [00:11<00:16,  5.51s/it][32m [repeated 8x across cluster][0m
+[36m(ReferenceModelRayActor pid=287373)[0m 
+Loading checkpoint shards:  60%|██████    | 3/5 [00:16<00:10,  5.43s/it][32m [repeated 15x across cluster][0m
+[36m(ReferenceModelRayActor pid=296258)[0m [2025-05-28 11:11:15,157] [INFO] [config.py:734:__init__] Config mesh_device None world_size = 8
+[36m(ActorModelRayActor pid=286523)[0m Installed CUDA version 12.1 does not match the version torch was compiled with 12.4 but since the APIs are compatible, accepting this combination[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ninja: no work to do.[32m [repeated 5x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m Time to load cpu_adam op: 2.241579055786133 seconds[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m Adam Optimizer #0 is created with AVX512 arithmetic capability.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m Config: alpha=0.000001, betas=(0.900000, 0.950000), weight_decay=0.000000, adam_w=1[32m [repeated 7x across cluster][0m
+[36m(ReferenceModelRayActor pid=296260)[0m [2025-05-28 11:11:15,181] [INFO] [config.py:734:__init__] Config mesh_device None world_size = 8
+[36m(ReferenceModelRayActor pid=296257)[0m 
+Loading checkpoint shards: 100%|██████████| 5/5 [00:21<00:00,  3.35s/it]
+Loading checkpoint shards: 100%|██████████| 5/5 [00:21<00:00,  4.23s/it]
+[36m(ReferenceModelRayActor pid=287373)[0m 
+Loading checkpoint shards:  80%|████████  | 4/5 [00:21<00:05,  5.25s/it][32m [repeated 8x across cluster][0m
+[36m(ReferenceModelRayActor pid=287373)[0m Actor(
+[36m(ReferenceModelRayActor pid=287373)[0m   (model): Qwen2_5_VLForConditionalGeneration(
+[36m(ReferenceModelRayActor pid=287373)[0m     (visual): Qwen2_5_VisionTransformerPretrainedModel(
+[36m(ReferenceModelRayActor pid=287373)[0m       (patch_embed): Qwen2_5_VisionPatchEmbed(
+[36m(ReferenceModelRayActor pid=287373)[0m         (proj): Conv3d(3, 1280, kernel_size=(2, 14, 14), stride=(2, 14, 14), bias=False)
+[36m(ReferenceModelRayActor pid=287373)[0m       )
+[36m(ReferenceModelRayActor pid=287373)[0m       (rotary_pos_emb): Qwen2_5_VisionRotaryEmbedding()
+[36m(ReferenceModelRayActor pid=287373)[0m       (blocks): ModuleList(
+[36m(ReferenceModelRayActor pid=287373)[0m         (0-31): 32 x Qwen2_5_VLVisionBlock(
+[36m(ReferenceModelRayActor pid=287373)[0m           (norm1): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ReferenceModelRayActor pid=287373)[0m           (norm2): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ReferenceModelRayActor pid=287373)[0m           (attn): Qwen2_5_VLVisionFlashAttention2(
+[36m(ReferenceModelRayActor pid=287373)[0m             (qkv): Linear(in_features=1280, out_features=3840, bias=True)
+[36m(ReferenceModelRayActor pid=287373)[0m             (proj): Linear(in_features=1280, out_features=1280, bias=True)
+[36m(ReferenceModelRayActor pid=287373)[0m           )
+[36m(ReferenceModelRayActor pid=287373)[0m           (mlp): Qwen2_5_VLMLP(
+[36m(ReferenceModelRayActor pid=287373)[0m             (gate_proj): Linear(in_features=1280, out_features=3420, bias=True)
+[36m(ReferenceModelRayActor pid=287373)[0m             (up_proj): Linear(in_features=1280, out_features=3420, bias=True)
+[36m(ReferenceModelRayActor pid=287373)[0m             (down_proj): Linear(in_features=3420, out_features=1280, bias=True)
+[36m(ReferenceModelRayActor pid=287373)[0m             (act_fn): SiLU()
+[36m(ReferenceModelRayActor pid=287373)[0m           )
+[36m(ReferenceModelRayActor pid=287373)[0m         )
+[36m(ReferenceModelRayActor pid=287373)[0m       )
+[36m(ReferenceModelRayActor pid=287373)[0m       (merger): Qwen2_5_VLPatchMerger(
+[36m(ReferenceModelRayActor pid=287373)[0m         (ln_q): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ReferenceModelRayActor pid=287373)[0m         (mlp): Sequential(
+[36m(ReferenceModelRayActor pid=287373)[0m           (0): Linear(in_features=5120, out_features=5120, bias=True)
+[36m(ReferenceModelRayActor pid=287373)[0m           (1): GELU(approximate='none')
+[36m(ReferenceModelRayActor pid=287373)[0m           (2): Linear(in_features=5120, out_features=3584, bias=True)
+[36m(ReferenceModelRayActor pid=287373)[0m         )
+[36m(ReferenceModelRayActor pid=287373)[0m       )
+[36m(ReferenceModelRayActor pid=287373)[0m     )
+[36m(ReferenceModelRayActor pid=287373)[0m     (model): Qwen2_5_VLModel(
+[36m(ReferenceModelRayActor pid=287373)[0m       (embed_tokens): Embedding(152064, 3584)
+[36m(ReferenceModelRayActor pid=287373)[0m       (layers): ModuleList(
+[36m(ReferenceModelRayActor pid=287373)[0m         (0-27): 28 x Qwen2_5_VLDecoderLayer(
+[36m(ReferenceModelRayActor pid=287373)[0m           (self_attn): Qwen2_5_VLFlashAttention2(
+[36m(ReferenceModelRayActor pid=287373)[0m             (q_proj): Linear(in_features=3584, out_features=3584, bias=True)
+[36m(ReferenceModelRayActor pid=287373)[0m             (k_proj): Linear(in_features=3584, out_features=512, bias=True)
+[36m(ReferenceModelRayActor pid=287373)[0m             (v_proj): Linear(in_features=3584, out_features=512, bias=True)
+[36m(ReferenceModelRayActor pid=287373)[0m             (o_proj): Linear(in_features=3584, out_features=3584, bias=False)
+[36m(ReferenceModelRayActor pid=287373)[0m             (rotary_emb): Qwen2_5_VLRotaryEmbedding()
+[36m(ReferenceModelRayActor pid=287373)[0m           )
+[36m(ReferenceModelRayActor pid=287373)[0m           (mlp): Qwen2MLP(
+[36m(ReferenceModelRayActor pid=287373)[0m             (gate_proj): Linear(in_features=3584, out_features=18944, bias=False)
+[36m(ReferenceModelRayActor pid=287373)[0m             (up_proj): Linear(in_features=3584, out_features=18944, bias=False)
+[36m(ReferenceModelRayActor pid=287373)[0m             (down_proj): Linear(in_features=18944, out_features=3584, bias=False)
+[36m(ReferenceModelRayActor pid=287373)[0m             (act_fn): SiLU()
+[36m(ReferenceModelRayActor pid=287373)[0m           )
+[36m(ReferenceModelRayActor pid=287373)[0m           (input_layernorm): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ReferenceModelRayActor pid=287373)[0m           (post_attention_layernorm): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ReferenceModelRayActor pid=287373)[0m         )
+[36m(ReferenceModelRayActor pid=287373)[0m       )
+[36m(ReferenceModelRayActor pid=287373)[0m       (norm): Qwen2RMSNorm((0,), eps=1e-06)
+[36m(ReferenceModelRayActor pid=287373)[0m       (rotary_emb): Qwen2_5_VLRotaryEmbedding()
+[36m(ReferenceModelRayActor pid=287373)[0m     )
+[36m(ReferenceModelRayActor pid=287373)[0m     (lm_head): Linear(in_features=3584, out_features=152064, bias=False)
+[36m(ReferenceModelRayActor pid=287373)[0m   )
+[36m(ReferenceModelRayActor pid=287373)[0m )
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:16,616] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed info: version=0.16.4, git-hash=unknown, git-branch=unknown
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:16,616] [INFO] [comm.py:683:init_distributed] Distributed backend already initialized
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:16,634] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed Flops Profiler Enabled: False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:16,636] [INFO] [logging.py:128:log_dist] [Rank 0] Creating ZeRO Offload
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:16,847] [INFO] [utils.py:781:see_memory_usage] DeepSpeedZeRoOffload initialize [begin]
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:16,848] [INFO] [utils.py:782:see_memory_usage] MA 1.94 GB         Max_MA 3.98 GB         CA 4.04 GB         Max_CA 4 GB 
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:16,849] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 445.71 GB, percent = 44.2%
+[36m(ReferenceModelRayActor pid=287373)[0m Parameter Offload: Total persistent parameters: 848896 in 368 params
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,044] [INFO] [utils.py:781:see_memory_usage] DeepSpeedZeRoOffload initialize [end]
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,045] [INFO] [utils.py:782:see_memory_usage] MA 1.94 GB         Max_MA 1.94 GB         CA 4.04 GB         Max_CA 4 GB 
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,046] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 445.71 GB, percent = 44.2%
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,047] [INFO] [config.py:1001:print] DeepSpeedEngine configuration:
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   activation_checkpointing_config  {
+[36m(ReferenceModelRayActor pid=287373)[0m     "partition_activations": false, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "contiguous_memory_optimization": false, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "cpu_checkpointing": false, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "number_checkpoints": null, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "synchronize_checkpoint_boundary": false, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "profile": false
+[36m(ReferenceModelRayActor pid=287373)[0m }
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   aio_config ................... {'block_size': 1048576, 'queue_depth': 8, 'intra_op_parallelism': 1, 'single_submit': False, 'overlap_events': True, 'use_gds': False}
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   amp_enabled .................. False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   amp_params ................... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   autotuning_config ............ {
+[36m(ReferenceModelRayActor pid=287373)[0m     "enabled": false, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "start_step": null, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "end_step": null, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "metric_path": null, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "arg_mappings": null, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "metric": "throughput", 
+[36m(ReferenceModelRayActor pid=287373)[0m     "model_info": null, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "results_dir": "autotuning_results", 
+[36m(ReferenceModelRayActor pid=287373)[0m     "exps_dir": "autotuning_exps", 
+[36m(ReferenceModelRayActor pid=287373)[0m     "overwrite": true, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "fast": true, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "start_profile_step": 3, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "end_profile_step": 5, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "tuner_type": "gridsearch", 
+[36m(ReferenceModelRayActor pid=287373)[0m     "tuner_early_stopping": 5, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "tuner_num_trials": 50, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "model_info_path": null, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "mp_size": 1, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "max_train_batch_size": null, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "min_train_batch_size": 1, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "max_train_micro_batch_size_per_gpu": 1.024000e+03, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "min_train_micro_batch_size_per_gpu": 1, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "num_tuning_micro_batch_sizes": 3
+[36m(ReferenceModelRayActor pid=287373)[0m }
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   bfloat16_enabled ............. True
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   bfloat16_immediate_grad_update  False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   checkpoint_parallel_write_pipeline  False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   checkpoint_tag_validation_enabled  True
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   checkpoint_tag_validation_fail  False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   comms_config ................. <deepspeed.comm.config.DeepSpeedCommsConfig object at 0x7f62d4e0dcf0>
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   communication_data_type ...... None
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,048] [INFO] [config.py:1005:print]   compression_config ........... {'weight_quantization': {'shared_parameters': {'enabled': False, 'quantizer_kernel': False, 'schedule_offset': 0, 'quantize_groups': 1, 'quantize_verbose': False, 'quantization_type': 'symmetric', 'quantize_weight_in_forward': False, 'rounding': 'nearest', 'fp16_mixed_quantize': False, 'quantize_change_ratio': 0.001}, 'different_groups': {}}, 'activation_quantization': {'shared_parameters': {'enabled': False, 'quantization_type': 'symmetric', 'range_calibration': 'dynamic', 'schedule_offset': 1000}, 'different_groups': {}}, 'sparse_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'row_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'head_pruning': {'shared_parameters': {'enabled': False, 'method': 'topk', 'schedule_offset': 1000}, 'different_groups': {}}, 'channel_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'layer_reduction': {'enabled': False}}
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   curriculum_enabled_legacy .... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   curriculum_params_legacy ..... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   data_efficiency_config ....... {'enabled': False, 'seed': 1234, 'data_sampling': {'enabled': False, 'num_epochs': 1000, 'num_workers': 0, 'curriculum_learning': {'enabled': False}}, 'data_routing': {'enabled': False, 'random_ltd': {'enabled': False, 'layer_token_lr_schedule': {'enabled': False}}}}
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   data_efficiency_enabled ...... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   dataloader_drop_last ......... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   disable_allgather ............ False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   dump_state ................... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   dynamic_loss_scale_args ...... None
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   eigenvalue_enabled ........... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   eigenvalue_gas_boundary_resolution  1
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   eigenvalue_layer_name ........ bert.encoder.layer
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   eigenvalue_layer_num ......... 0
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   eigenvalue_max_iter .......... 100
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   eigenvalue_stability ......... 1e-06
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   eigenvalue_tol ............... 0.01
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   eigenvalue_verbose ........... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   elasticity_enabled ........... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   flops_profiler_config ........ {
+[36m(ReferenceModelRayActor pid=287373)[0m     "enabled": false, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "recompute_fwd_factor": 0.0, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "profile_step": 1, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "module_depth": -1, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "top_modules": 1, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "detailed": true, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "output_file": null
+[36m(ReferenceModelRayActor pid=287373)[0m }
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   fp16_auto_cast ............... None
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   fp16_enabled ................. False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   fp16_master_weights_and_gradients  False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,049] [INFO] [config.py:1005:print]   global_rank .................. 0
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   grad_accum_dtype ............. None
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   gradient_accumulation_steps .. 8
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   gradient_clipping ............ 1.0
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   gradient_predivide_factor .... 1.0
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   graph_harvesting ............. False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   hybrid_engine ................ enabled=False max_out_tokens=512 inference_tp_size=1 release_inference_cache=False pin_parameters=True tp_gather_partition_size=8
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   initial_dynamic_scale ........ 1
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   load_universal_checkpoint .... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   loss_scale ................... 1.0
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   memory_breakdown ............. False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   mics_hierarchial_params_gather  False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   mics_shard_size .............. -1
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   monitor_config ............... tensorboard=TensorBoardConfig(enabled=False, output_path='', job_name='DeepSpeedJobName') comet=CometConfig(enabled=False, samples_log_interval=100, project=None, workspace=None, api_key=None, experiment_name=None, experiment_key=None, online=None, mode=None) wandb=WandbConfig(enabled=False, group=None, team=None, project='deepspeed') csv_monitor=CSVConfig(enabled=False, output_path='', job_name='DeepSpeedJobName')
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   nebula_config ................ {
+[36m(ReferenceModelRayActor pid=287373)[0m     "enabled": false, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "persistent_storage_path": null, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "persistent_time_interval": 100, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "num_of_version_in_retention": 2, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "enable_nebula_load": true, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "load_path": null
+[36m(ReferenceModelRayActor pid=287373)[0m }
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   optimizer_legacy_fusion ...... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   optimizer_name ............... None
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   optimizer_params ............. None
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   pipeline ..................... {'stages': 'auto', 'partition': 'best', 'seed_layers': False, 'activation_checkpoint_interval': 0, 'pipe_partitioned': True, 'grad_partitioned': True}
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   pld_enabled .................. False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   pld_params ................... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   prescale_gradients ........... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,050] [INFO] [config.py:1005:print]   scheduler_name ............... None
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   scheduler_params ............. None
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   seq_parallel_communication_data_type  torch.float32
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   sparse_attention ............. None
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   sparse_gradients_enabled ..... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   steps_per_print .............. 100
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   tensor_parallel_config ....... dtype=torch.float16 autotp_size=0 tensor_parallel=TPConfig(tp_size=1, tp_grain_size=1, mpu=None, tp_group=None) injection_policy_tuple=None keep_module_on_host=False replace_with_kernel_inject=False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   timers_config ................ enabled=True synchronized=True
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   train_batch_size ............. 128
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   train_micro_batch_size_per_gpu  2
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   use_data_before_expert_parallel_  False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   use_node_local_storage ....... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   wall_clock_breakdown ......... False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   weight_quantization_config ... None
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   world_size ................... 8
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   zero_allow_untested_optimizer  False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   zero_config .................. stage=3 contiguous_gradients=True reduce_scatter=True reduce_bucket_size=500000000 use_multi_rank_bucket_allreduce=True allgather_partitions=True allgather_bucket_size=500000000 overlap_comm=True load_from_fp32_weights=True elastic_checkpoint=False offload_param=DeepSpeedZeroOffloadParamConfig(device='none', nvme_path=None, buffer_count=5, buffer_size=100000000, max_in_cpu=1000000000, pin_memory=True) offload_optimizer=None sub_group_size=1000000000 cpu_offload_param=None cpu_offload_use_pin_memory=None cpu_offload=None prefetch_bucket_size=50000000 param_persistence_threshold=100000 model_persistence_threshold=9223372036854775807 max_live_parameters=1000000000 max_reuse_distance=1000000000 gather_16bit_weights_on_model_save=False module_granularity_threshold=0 use_all_reduce_for_fetch_params=False stage3_gather_fp16_weights_on_model_save=False ignore_unused_parameters=True legacy_stage1=False round_robin_gradients=False zero_hpz_partition_size=1 zero_quantized_weights=False zero_quantized_nontrainable_weights=False zero_quantized_gradients=False zeropp_loco_param=None mics_shard_size=-1 mics_hierarchical_params_gather=False memory_efficient_linear=True pipeline_loading_checkpoint=False override_module_apply=True log_trace_cache_warnings=False
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   zero_enabled ................. True
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   zero_force_ds_cpu_optimizer .. True
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:1005:print]   zero_optimization_stage ...... 3
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:17,051] [INFO] [config.py:991:print_user_config]   json = {
+[36m(ReferenceModelRayActor pid=287373)[0m     "steps_per_print": 100, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "zero_optimization": {
+[36m(ReferenceModelRayActor pid=287373)[0m         "stage": 3, 
+[36m(ReferenceModelRayActor pid=287373)[0m         "stage3_max_live_parameters": "auto", 
+[36m(ReferenceModelRayActor pid=287373)[0m         "stage3_max_reuse_distance": "auto", 
+[36m(ReferenceModelRayActor pid=287373)[0m         "stage3_param_persistence_threshold": "auto", 
+[36m(ReferenceModelRayActor pid=287373)[0m         "stage3_prefetch_bucket_size": "auto", 
+[36m(ReferenceModelRayActor pid=287373)[0m         "offload_param": {
+[36m(ReferenceModelRayActor pid=287373)[0m             "device": "none", 
+[36m(ReferenceModelRayActor pid=287373)[0m             "pin_memory": true
+[36m(ReferenceModelRayActor pid=287373)[0m         }
+[36m(ReferenceModelRayActor pid=287373)[0m     }, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "bf16": {
+[36m(ReferenceModelRayActor pid=287373)[0m         "enabled": true
+[36m(ReferenceModelRayActor pid=287373)[0m     }, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "gradient_clipping": 1.0, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "prescale_gradients": false, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "wall_clock_breakdown": false, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "train_micro_batch_size_per_gpu": 2, 
+[36m(ReferenceModelRayActor pid=287373)[0m     "train_batch_size": 128
+[36m(ReferenceModelRayActor pid=287373)[0m }
+[36m(ActorModelRayActor pid=286523)[0m loaded /mnt/petrelfs/luyiting/MultiAgentEval/data_process_v1/train_ava_mini_evalmuse_koniq_llavastyle_openrlhf_merged.jsonl with data_files=/mnt/petrelfs/luyiting/MultiAgentEval/data_process_v1/train_ava_mini_evalmuse_koniq_llavastyle_openrlhf_merged.jsonl
+[36m(ActorModelRayActor pid=286523)[0m [Dataset({
+[36m(ActorModelRayActor pid=286523)[0m     features: ['message', 'answer'],
+[36m(ActorModelRayActor pid=286523)[0m     num_rows: 24000
+[36m(ActorModelRayActor pid=286523)[0m })]
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data
+[36m(ActorModelRayActor pid=287378)[0m  None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None 
+[36m(ActorModelRayActor pid=287378)[0m False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None
+[36m(ActorModelRayActor pid=287378)[0m  False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None 
+[36m(ActorModelRayActor pid=287378)[0m False
+[36m(ActorModelRayActor pid=287378)[0m 
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data 
+[36m(ActorModelRayActor pid=287378)[0m None 
+[36m(ActorModelRayActor pid=287378)[0m False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data
+[36m(ActorModelRayActor pid=287378)[0m  None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data
+[36m(ActorModelRayActor pid=287378)[0m  
+[36m(ActorModelRayActor pid=287378)[0m None False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data
+[36m(ActorModelRayActor pid=287378)[0m  None
+[36m(ActorModelRayActor pid=287378)[0m  False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data
+[36m(ActorModelRayActor pid=287378)[0m  None 
+[36m(ActorModelRayActor pid=287378)[0m False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data
+[36m(ActorModelRayActor pid=287378)[0m  None 
+[36m(ActorModelRayActor pid=287378)[0m False
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data
+[36m(ActorModelRayActor pid=287378)[0m  
+[36m(ActorModelRayActor pid=287378)[0m None
+[36m(ActorModelRayActor pid=287378)[0m  False
+[36m(ActorModelRayActor pid=287378)[0m 
+[36m(ActorModelRayActor pid=287378)[0m in preprocess_data
+[36m(ReferenceModelRayActor pid=287373)[0m [2025-05-28 11:11:16,616] [INFO] [config.py:734:__init__] Config mesh_device None world_size = 8[32m [repeated 6x across cluster][0m
+[36m(ActorModelRayActor pid=287378)[0m  None False
+[36m(ActorModelRayActor pid=286523)[0m 
+Preprocessing data:   0%|          | 0/24000 [00:00<?, ?it/s]
+Preprocessing data:  13%|█▎        | 3010/24000 [00:00<00:00, 30095.29it/s]
+[36m(ReferenceModelRayActor pid=287373)[0m 
+Loading checkpoint shards: 100%|██████████| 5/5 [00:22<00:00,  3.74s/it]
+Loading checkpoint shards: 100%|██████████| 5/5 [00:22<00:00,  4.48s/it][32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Preprocessing data:  25%|██▌       | 6020/24000 [00:00<00:00, 24362.78it/s]
+[36m(ActorModelRayActor pid=286523)[0m 
+Preprocessing data:  36%|███▌      | 8524/24000 [00:00<00:00, 24300.13it/s]
+Preprocessing data:  47%|████▋     | 11347/24000 [00:00<00:00, 25724.28it/s]
+[36m(ActorModelRayActor pid=286523)[0m 
+Preprocessing data:  59%|█████▉    | 14149/24000 [00:00<00:00, 26507.83it/s]
+Preprocessing data:  71%|███████   | 17095/24000 [00:00<00:00, 27474.82it/s]
+[36m(ActorModelRayActor pid=286523)[0m 
+Preprocessing data:  83%|████████▎ | 19981/24000 [00:00<00:00, 27913.42it/s]
+Preprocessing data:  96%|█████████▌| 22964/24000 [00:00<00:00, 28511.46it/s]
+[36m(ActorModelRayActor pid=286523)[0m 
+Preprocessing data: 100%|██████████| 24000/24000 [00:00<00:00, 27245.01it/s]
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,465] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed info: version=0.16.4, git-hash=unknown, git-branch=unknown
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,465] [INFO] [comm.py:683:init_distributed] Distributed backend already initialized
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,480] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed Flops Profiler Enabled: False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,481] [INFO] [logging.py:128:log_dist] [Rank 0] Using client Optimizer as basic optimizer
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,481] [INFO] [logging.py:128:log_dist] [Rank 0] Removing param_group that has no 'params' in the basic Optimizer
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,521] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed Basic Optimizer = DeepSpeedCPUAdam
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,521] [INFO] [utils.py:59:is_zero_supported_optimizer] Checking ZeRO support for optimizer=DeepSpeedCPUAdam type=<class 'deepspeed.ops.adam.cpu_adam.DeepSpeedCPUAdam'>
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,521] [INFO] [logging.py:128:log_dist] [Rank 0] Creating fp16 ZeRO stage 3 optimizer, MiCS is enabled False, Hierarchical params gather False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,521] [INFO] [logging.py:128:log_dist] [Rank 0] Creating torch.bfloat16 ZeRO stage 3 optimizer
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,736] [INFO] [utils.py:781:see_memory_usage] Stage 3 initialize beginning
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,737] [INFO] [utils.py:782:see_memory_usage] MA 1.94 GB         Max_MA 3.98 GB         CA 4.04 GB         Max_CA 4 GB 
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,738] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 445.79 GB, percent = 44.3%
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,740] [INFO] [stage3.py:170:__init__] Reduce bucket size 500000000
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,740] [INFO] [stage3.py:171:__init__] Prefetch bucket size 50000000
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,917] [INFO] [utils.py:781:see_memory_usage] DeepSpeedZeRoOffload initialize [begin]
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,917] [INFO] [utils.py:782:see_memory_usage] MA 1.94 GB         Max_MA 1.94 GB         CA 4.04 GB         Max_CA 4 GB 
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,918] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 445.79 GB, percent = 44.3%
+[36m(ActorModelRayActor pid=286523)[0m Parameter Offload: Total persistent parameters: 848896 in 368 params
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:22,137] [INFO] [utils.py:781:see_memory_usage] DeepSpeedZeRoOffload initialize [end]
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:22,138] [INFO] [utils.py:782:see_memory_usage] MA 1.94 GB         Max_MA 1.94 GB         CA 4.04 GB         Max_CA 4 GB 
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:22,138] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 445.79 GB, percent = 44.3%
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:22,320] [INFO] [utils.py:781:see_memory_usage] Before creating fp16 partitions
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:22,321] [INFO] [utils.py:782:see_memory_usage] MA 1.94 GB         Max_MA 1.94 GB         CA 4.04 GB         Max_CA 4 GB 
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:22,321] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 445.8 GB, percent = 44.3%
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:24,642] [INFO] [utils.py:781:see_memory_usage] After creating fp16 partitions: 2
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:24,643] [INFO] [utils.py:782:see_memory_usage] MA 1.93 GB         Max_MA 1.94 GB         CA 1.94 GB         Max_CA 4 GB 
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:24,644] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 448.65 GB, percent = 44.5%
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:24,846] [INFO] [utils.py:781:see_memory_usage] Before creating fp32 partitions
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:24,847] [INFO] [utils.py:782:see_memory_usage] MA 1.93 GB         Max_MA 1.93 GB         CA 1.94 GB         Max_CA 2 GB 
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:24,848] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 451.4 GB, percent = 44.8%
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:28,581] [INFO] [utils.py:781:see_memory_usage] After creating fp32 partitions
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:28,582] [INFO] [utils.py:782:see_memory_usage] MA 1.93 GB         Max_MA 1.93 GB         CA 1.94 GB         Max_CA 2 GB 
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:28,583] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 476.75 GB, percent = 47.3%
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:28,807] [INFO] [utils.py:781:see_memory_usage] Before initializing optimizer states
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:28,807] [INFO] [utils.py:782:see_memory_usage] MA 1.93 GB         Max_MA 1.93 GB         CA 1.94 GB         Max_CA 2 GB 
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:28,808] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 481.13 GB, percent = 47.8%
+[36m(ActorModelRayActor pid=286523)[0m in preprocess_data None False[32m [repeated 191874x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:21,465] [INFO] [config.py:734:__init__] Config mesh_device None world_size = 8[32m [repeated 8x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:36,537] [INFO] [utils.py:781:see_memory_usage] After initializing optimizer states
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:36,537] [INFO] [utils.py:782:see_memory_usage] MA 1.93 GB         Max_MA 1.93 GB         CA 1.94 GB         Max_CA 2 GB 
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:36,538] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 511.42 GB, percent = 50.8%
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:36,579] [INFO] [stage3.py:534:_setup_for_real_optimizer] optimizer state initialized
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,325] [INFO] [utils.py:781:see_memory_usage] After initializing ZeRO optimizer
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,326] [INFO] [utils.py:782:see_memory_usage] MA 2.86 GB         Max_MA 4.89 GB         CA 5.02 GB         Max_CA 5 GB 
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,327] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 525.92 GB, percent = 52.2%
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,327] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed Final Optimizer = DeepSpeedZeroOptimizer_Stage3
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,327] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed using client LR scheduler
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,327] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed LR Scheduler = <torch.optim.lr_scheduler.LambdaLR object at 0x7f7518ed7610>
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,327] [INFO] [logging.py:128:log_dist] [Rank 0] step=0, skipped=0, lr=[0.0, 0.0], mom=[(0.9, 0.95), (0.9, 0.95)]
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,329] [INFO] [config.py:1001:print] DeepSpeedEngine configuration:
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,329] [INFO] [config.py:1005:print]   activation_checkpointing_config  {
+[36m(ActorModelRayActor pid=286523)[0m     "partition_activations": false, 
+[36m(ActorModelRayActor pid=286523)[0m     "contiguous_memory_optimization": false, 
+[36m(ActorModelRayActor pid=286523)[0m     "cpu_checkpointing": false, 
+[36m(ActorModelRayActor pid=286523)[0m     "number_checkpoints": null, 
+[36m(ActorModelRayActor pid=286523)[0m     "synchronize_checkpoint_boundary": false, 
+[36m(ActorModelRayActor pid=286523)[0m     "profile": false
+[36m(ActorModelRayActor pid=286523)[0m }
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,329] [INFO] [config.py:1005:print]   aio_config ................... {'block_size': 1048576, 'queue_depth': 8, 'intra_op_parallelism': 1, 'single_submit': False, 'overlap_events': True, 'use_gds': False}
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   amp_enabled .................. False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   amp_params ................... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   autotuning_config ............ {
+[36m(ActorModelRayActor pid=286523)[0m     "enabled": false, 
+[36m(ActorModelRayActor pid=286523)[0m     "start_step": null, 
+[36m(ActorModelRayActor pid=286523)[0m     "end_step": null, 
+[36m(ActorModelRayActor pid=286523)[0m     "metric_path": null, 
+[36m(ActorModelRayActor pid=286523)[0m     "arg_mappings": null, 
+[36m(ActorModelRayActor pid=286523)[0m     "metric": "throughput", 
+[36m(ActorModelRayActor pid=286523)[0m     "model_info": null, 
+[36m(ActorModelRayActor pid=286523)[0m     "results_dir": "autotuning_results", 
+[36m(ActorModelRayActor pid=286523)[0m     "exps_dir": "autotuning_exps", 
+[36m(ActorModelRayActor pid=286523)[0m     "overwrite": true, 
+[36m(ActorModelRayActor pid=286523)[0m     "fast": true, 
+[36m(ActorModelRayActor pid=286523)[0m     "start_profile_step": 3, 
+[36m(ActorModelRayActor pid=286523)[0m     "end_profile_step": 5, 
+[36m(ActorModelRayActor pid=286523)[0m     "tuner_type": "gridsearch", 
+[36m(ActorModelRayActor pid=286523)[0m     "tuner_early_stopping": 5, 
+[36m(ActorModelRayActor pid=286523)[0m     "tuner_num_trials": 50, 
+[36m(ActorModelRayActor pid=286523)[0m     "model_info_path": null, 
+[36m(ActorModelRayActor pid=286523)[0m     "mp_size": 1, 
+[36m(ActorModelRayActor pid=286523)[0m     "max_train_batch_size": null, 
+[36m(ActorModelRayActor pid=286523)[0m     "min_train_batch_size": 1, 
+[36m(ActorModelRayActor pid=286523)[0m     "max_train_micro_batch_size_per_gpu": 1.024000e+03, 
+[36m(ActorModelRayActor pid=286523)[0m     "min_train_micro_batch_size_per_gpu": 1, 
+[36m(ActorModelRayActor pid=286523)[0m     "num_tuning_micro_batch_sizes": 3
+[36m(ActorModelRayActor pid=286523)[0m }
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   bfloat16_enabled ............. True
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   bfloat16_immediate_grad_update  False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   checkpoint_parallel_write_pipeline  False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   checkpoint_tag_validation_enabled  True
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   checkpoint_tag_validation_fail  False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   comms_config ................. <deepspeed.comm.config.DeepSpeedCommsConfig object at 0x7f7518ed7580>
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   communication_data_type ...... None
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   compression_config ........... {'weight_quantization': {'shared_parameters': {'enabled': False, 'quantizer_kernel': False, 'schedule_offset': 0, 'quantize_groups': 1, 'quantize_verbose': False, 'quantization_type': 'symmetric', 'quantize_weight_in_forward': False, 'rounding': 'nearest', 'fp16_mixed_quantize': False, 'quantize_change_ratio': 0.001}, 'different_groups': {}}, 'activation_quantization': {'shared_parameters': {'enabled': False, 'quantization_type': 'symmetric', 'range_calibration': 'dynamic', 'schedule_offset': 1000}, 'different_groups': {}}, 'sparse_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'row_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'head_pruning': {'shared_parameters': {'enabled': False, 'method': 'topk', 'schedule_offset': 1000}, 'different_groups': {}}, 'channel_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'layer_reduction': {'enabled': False}}
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   curriculum_enabled_legacy .... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   curriculum_params_legacy ..... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   data_efficiency_config ....... {'enabled': False, 'seed': 1234, 'data_sampling': {'enabled': False, 'num_epochs': 1000, 'num_workers': 0, 'curriculum_learning': {'enabled': False}}, 'data_routing': {'enabled': False, 'random_ltd': {'enabled': False, 'layer_token_lr_schedule': {'enabled': False}}}}
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   data_efficiency_enabled ...... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   dataloader_drop_last ......... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   disable_allgather ............ False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   dump_state ................... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   dynamic_loss_scale_args ...... None
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,330] [INFO] [config.py:1005:print]   eigenvalue_enabled ........... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   eigenvalue_gas_boundary_resolution  1
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   eigenvalue_layer_name ........ bert.encoder.layer
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   eigenvalue_layer_num ......... 0
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   eigenvalue_max_iter .......... 100
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   eigenvalue_stability ......... 1e-06
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   eigenvalue_tol ............... 0.01
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   eigenvalue_verbose ........... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   elasticity_enabled ........... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   flops_profiler_config ........ {
+[36m(ActorModelRayActor pid=286523)[0m     "enabled": false, 
+[36m(ActorModelRayActor pid=286523)[0m     "recompute_fwd_factor": 0.0, 
+[36m(ActorModelRayActor pid=286523)[0m     "profile_step": 1, 
+[36m(ActorModelRayActor pid=286523)[0m     "module_depth": -1, 
+[36m(ActorModelRayActor pid=286523)[0m     "top_modules": 1, 
+[36m(ActorModelRayActor pid=286523)[0m     "detailed": true, 
+[36m(ActorModelRayActor pid=286523)[0m     "output_file": null
+[36m(ActorModelRayActor pid=286523)[0m }
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   fp16_auto_cast ............... None
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   fp16_enabled ................. False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   fp16_master_weights_and_gradients  False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   global_rank .................. 0
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   grad_accum_dtype ............. None
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   gradient_accumulation_steps .. 8
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   gradient_clipping ............ 1.0
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   gradient_predivide_factor .... 1.0
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   graph_harvesting ............. False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   hybrid_engine ................ enabled=False max_out_tokens=512 inference_tp_size=1 release_inference_cache=False pin_parameters=True tp_gather_partition_size=8
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   initial_dynamic_scale ........ 1
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   load_universal_checkpoint .... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,331] [INFO] [config.py:1005:print]   loss_scale ................... 1.0
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   memory_breakdown ............. False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   mics_hierarchial_params_gather  False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   mics_shard_size .............. -1
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   monitor_config ............... tensorboard=TensorBoardConfig(enabled=False, output_path='', job_name='DeepSpeedJobName') comet=CometConfig(enabled=False, samples_log_interval=100, project=None, workspace=None, api_key=None, experiment_name=None, experiment_key=None, online=None, mode=None) wandb=WandbConfig(enabled=False, group=None, team=None, project='deepspeed') csv_monitor=CSVConfig(enabled=False, output_path='', job_name='DeepSpeedJobName')
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   nebula_config ................ {
+[36m(ActorModelRayActor pid=286523)[0m     "enabled": false, 
+[36m(ActorModelRayActor pid=286523)[0m     "persistent_storage_path": null, 
+[36m(ActorModelRayActor pid=286523)[0m     "persistent_time_interval": 100, 
+[36m(ActorModelRayActor pid=286523)[0m     "num_of_version_in_retention": 2, 
+[36m(ActorModelRayActor pid=286523)[0m     "enable_nebula_load": true, 
+[36m(ActorModelRayActor pid=286523)[0m     "load_path": null
+[36m(ActorModelRayActor pid=286523)[0m }
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   optimizer_legacy_fusion ...... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   optimizer_name ............... None
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   optimizer_params ............. None
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   pipeline ..................... {'stages': 'auto', 'partition': 'best', 'seed_layers': False, 'activation_checkpoint_interval': 0, 'pipe_partitioned': True, 'grad_partitioned': True}
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   pld_enabled .................. False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   pld_params ................... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   prescale_gradients ........... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   scheduler_name ............... None
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   scheduler_params ............. None
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   seq_parallel_communication_data_type  torch.float32
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   sparse_attention ............. None
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   sparse_gradients_enabled ..... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   steps_per_print .............. 100
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   tensor_parallel_config ....... dtype=torch.float16 autotp_size=0 tensor_parallel=TPConfig(tp_size=1, tp_grain_size=1, mpu=None, tp_group=None) injection_policy_tuple=None keep_module_on_host=False replace_with_kernel_inject=False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   timers_config ................ enabled=True synchronized=True
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,332] [INFO] [config.py:1005:print]   train_batch_size ............. 128
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:1005:print]   train_micro_batch_size_per_gpu  2
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:1005:print]   use_data_before_expert_parallel_  False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:1005:print]   use_node_local_storage ....... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:1005:print]   wall_clock_breakdown ......... False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:1005:print]   weight_quantization_config ... None
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:1005:print]   world_size ................... 8
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:1005:print]   zero_allow_untested_optimizer  False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:1005:print]   zero_config .................. stage=3 contiguous_gradients=True reduce_scatter=True reduce_bucket_size=500000000 use_multi_rank_bucket_allreduce=True allgather_partitions=True allgather_bucket_size=500000000 overlap_comm=True load_from_fp32_weights=True elastic_checkpoint=False offload_param=DeepSpeedZeroOffloadParamConfig(device='none', nvme_path=None, buffer_count=5, buffer_size=100000000, max_in_cpu=1000000000, pin_memory=False) offload_optimizer=DeepSpeedZeroOffloadOptimizerConfig(device='cpu', nvme_path=None, buffer_count=4, pin_memory=True, pipeline_read=False, pipeline_write=False, fast_init=False, ratio=1.0) sub_group_size=1000000000 cpu_offload_param=None cpu_offload_use_pin_memory=None cpu_offload=None prefetch_bucket_size=50000000 param_persistence_threshold=100000 model_persistence_threshold=9223372036854775807 max_live_parameters=1000000000 max_reuse_distance=1000000000 gather_16bit_weights_on_model_save=False module_granularity_threshold=0 use_all_reduce_for_fetch_params=False stage3_gather_fp16_weights_on_model_save=False ignore_unused_parameters=True legacy_stage1=False round_robin_gradients=False zero_hpz_partition_size=1 zero_quantized_weights=False zero_quantized_nontrainable_weights=False zero_quantized_gradients=False zeropp_loco_param=None mics_shard_size=-1 mics_hierarchical_params_gather=False memory_efficient_linear=True pipeline_loading_checkpoint=False override_module_apply=True log_trace_cache_warnings=False
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:1005:print]   zero_enabled ................. True
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:1005:print]   zero_force_ds_cpu_optimizer .. True
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:1005:print]   zero_optimization_stage ...... 3
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,333] [INFO] [config.py:991:print_user_config]   json = {
+[36m(ActorModelRayActor pid=286523)[0m     "steps_per_print": 100, 
+[36m(ActorModelRayActor pid=286523)[0m     "zero_optimization": {
+[36m(ActorModelRayActor pid=286523)[0m         "stage": 3, 
+[36m(ActorModelRayActor pid=286523)[0m         "offload_param": {
+[36m(ActorModelRayActor pid=286523)[0m             "device": "none"
+[36m(ActorModelRayActor pid=286523)[0m         }, 
+[36m(ActorModelRayActor pid=286523)[0m         "offload_optimizer": {
+[36m(ActorModelRayActor pid=286523)[0m             "device": "cpu", 
+[36m(ActorModelRayActor pid=286523)[0m             "pin_memory": true
+[36m(ActorModelRayActor pid=286523)[0m         }, 
+[36m(ActorModelRayActor pid=286523)[0m         "sub_group_size": "auto", 
+[36m(ActorModelRayActor pid=286523)[0m         "stage3_max_live_parameters": "auto", 
+[36m(ActorModelRayActor pid=286523)[0m         "stage3_max_reuse_distance": "auto", 
+[36m(ActorModelRayActor pid=286523)[0m         "stage3_param_persistence_threshold": "auto", 
+[36m(ActorModelRayActor pid=286523)[0m         "stage3_prefetch_bucket_size": "auto", 
+[36m(ActorModelRayActor pid=286523)[0m         "reduce_bucket_size": "auto", 
+[36m(ActorModelRayActor pid=286523)[0m         "zero_hpz_partition_size": 1, 
+[36m(ActorModelRayActor pid=286523)[0m         "zero_quantized_weights": false, 
+[36m(ActorModelRayActor pid=286523)[0m         "zero_quantized_gradients": false, 
+[36m(ActorModelRayActor pid=286523)[0m         "reduce_scatter": true
+[36m(ActorModelRayActor pid=286523)[0m     }, 
+[36m(ActorModelRayActor pid=286523)[0m     "bf16": {
+[36m(ActorModelRayActor pid=286523)[0m         "enabled": true
+[36m(ActorModelRayActor pid=286523)[0m     }, 
+[36m(ActorModelRayActor pid=286523)[0m     "gradient_clipping": 1.0, 
+[36m(ActorModelRayActor pid=286523)[0m     "prescale_gradients": false, 
+[36m(ActorModelRayActor pid=286523)[0m     "wall_clock_breakdown": false, 
+[36m(ActorModelRayActor pid=286523)[0m     "data_types": {
+[36m(ActorModelRayActor pid=286523)[0m         "grad_accum_dtype": null
+[36m(ActorModelRayActor pid=286523)[0m     }, 
+[36m(ActorModelRayActor pid=286523)[0m     "checkpoint": {
+[36m(ActorModelRayActor pid=286523)[0m         "load_universal": false
+[36m(ActorModelRayActor pid=286523)[0m     }, 
+[36m(ActorModelRayActor pid=286523)[0m     "train_micro_batch_size_per_gpu": 2, 
+[36m(ActorModelRayActor pid=286523)[0m     "train_batch_size": 128
+[36m(ActorModelRayActor pid=286523)[0m }
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,346] [INFO] [torch_checkpoint_engine.py:27:load] [Torch] Loading checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/zero_pp_rank_0_mp_rank_00_model_states.pt...
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,373] [INFO] [torch_checkpoint_engine.py:29:load] [Torch] Loaded checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/zero_pp_rank_0_mp_rank_00_model_states.pt.
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,374] [INFO] [torch_checkpoint_engine.py:27:load] [Torch] Loading checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/zero_pp_rank_0_mp_rank_00_model_states.pt...
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:11:39,398] [INFO] [torch_checkpoint_engine.py:29:load] [Torch] Loaded checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/zero_pp_rank_0_mp_rank_00_model_states.pt.
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:12:08,056] [INFO] [torch_checkpoint_engine.py:27:load] [Torch] Loading checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...[32m [repeated 21x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m [2025-05-28 11:11:39,141] [INFO] [torch_checkpoint_engine.py:29:load] [Torch] Loaded checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/zero_pp_rank_6_mp_rank_00_model_states.pt.[32m [repeated 14x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m [2025-05-28 11:12:22,493] [INFO] [engine.py:3185:_get_all_zero_checkpoint_state_dicts] successfully read 8 ZeRO state_dicts for rank 3
+[36m(ActorModelRayActor pid=287376)[0m [2025-05-28 11:12:08,056] [INFO] [torch_checkpoint_engine.py:27:load] [Torch] Loading checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt...
+[36m(ActorModelRayActor pid=287372)[0m [2025-05-28 11:12:22,493] [INFO] [torch_checkpoint_engine.py:29:load] [Torch] Loaded checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.
+[36m(ActorModelRayActor pid=287374)[0m [2025-05-28 11:12:22,450] [INFO] [torch_checkpoint_engine.py:29:load] [Torch] Loaded checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt.
+[36m(ActorModelRayActor pid=287372)[0m [2025-05-28 11:12:25,593] [INFO] [engine.py:3135:_load_zero_checkpoint] loading 8 zero partition checkpoints for rank 3
+[36m(ActorModelRayActor pid=287377)[0m [2025-05-28 11:12:25,372] [INFO] [engine.py:3185:_get_all_zero_checkpoint_state_dicts] successfully read 8 ZeRO state_dicts for rank 7[32m [repeated 5x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m [2025-05-28 11:12:25,372] [INFO] [torch_checkpoint_engine.py:29:load] [Torch] Loaded checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt.[32m [repeated 4x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m [2025-05-28 11:12:28,489] [INFO] [engine.py:3135:_load_zero_checkpoint] loading 8 zero partition checkpoints for rank 7[32m [repeated 5x across cluster][0m
+[36m(ActorModelRayActor pid=287376)[0m [2025-05-28 11:12:41,250] [INFO] [engine.py:3185:_get_all_zero_checkpoint_state_dicts] successfully read 8 ZeRO state_dicts for rank 4
+[36m(ActorModelRayActor pid=287376)[0m [2025-05-28 11:12:41,250] [INFO] [torch_checkpoint_engine.py:29:load] [Torch] Loaded checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt.
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:12:41,929] [INFO] [torch_checkpoint_engine.py:29:load] [Torch] Loaded checkpoint from /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:12:41,930] [INFO] [engine.py:3185:_get_all_zero_checkpoint_state_dicts] successfully read 8 ZeRO state_dicts for rank 0
+[36m(ActorModelRayActor pid=286523)[0m Loaded the checkpoint: /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor, consumed_samples: 7680
+[36m(ActorModelRayActor pid=286523)[0m wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
+[36m(ActorModelRayActor pid=286523)[0m wandb: Tracking run with wandb version 0.19.8
+[36m(ActorModelRayActor pid=286523)[0m wandb: W&B syncing is set to `offline` in this directory.  
+[36m(ActorModelRayActor pid=286523)[0m wandb: Run `wandb online` or set WANDB_MODE=online to enable cloud syncing.
+[36m(LLMRayActor pid=279375)[0m init_process_group: master_address=10.140.0.151, master_port=28092,  rank=3, world_size=9, group_name=openrlhf
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:12:44,920] [INFO] [engine.py:3135:_load_zero_checkpoint] loading 8 zero partition checkpoints for rank 0[32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:12:50 [executor_base.py:219] It took 1.475051 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279380)[0m init_process_group: master_address=10.140.0.151, master_port=28092,  rank=6, world_size=9, group_name=openrlhf[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:12:52 [executor_base.py:219] It took 3.291262 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3098x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.8.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 826x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.17.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 792x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.26.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 859x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:13:17 [worker.py:133] Sleep mode freed 38.53 GiB memory, 17.54 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:13:17 [executor_base.py:208] It took 1.477016 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   0%|          | 0/127 [00:00<?, ?it/s]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:13:19 [executor_base.py:219] It took 1.594782 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 203x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 1/256 [00:22<1:34:21, 22.20s/it, est. speed input: 69.91 toks/s, output: 3.65 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   1%|          | 2/256 [00:22<39:01,  9.22s/it, est. speed input: 139.01 toks/s, output: 7.39 toks/s] 
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   1%|          | 3/256 [00:22<22:01,  5.22s/it, est. speed input: 158.20 toks/s, output: 11.40 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:23<06:11,  1.49s/it, est. speed input: 380.19 toks/s, output: 28.19 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   4%|▍         | 11/256 [00:23<03:03,  1.33it/s, est. speed input: 508.27 toks/s, output: 45.76 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   5%|▌         | 13/256 [00:23<02:17,  1.76it/s, est. speed input: 544.05 toks/s, output: 54.57 toks/s]
+Processed prompts:   7%|▋         | 17/256 [00:23<01:20,  2.98it/s, est. speed input: 613.10 toks/s, output: 72.88 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   8%|▊         | 20/256 [00:23<00:58,  4.05it/s, est. speed input: 663.80 toks/s, output: 86.70 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   9%|▉         | 23/256 [00:23<00:42,  5.46it/s, est. speed input: 718.69 toks/s, output: 100.98 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  11%|█         | 28/256 [00:23<00:26,  8.64it/s, est. speed input: 815.26 toks/s, output: 125.37 toks/s]
+Processed prompts:  13%|█▎        | 33/256 [00:23<00:18, 12.30it/s, est. speed input: 994.65 toks/s, output: 150.09 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  16%|█▌        | 40/256 [00:24<00:11, 18.63it/s, est. speed input: 1205.46 toks/s, output: 185.49 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  17%|█▋        | 44/256 [00:24<00:10, 21.10it/s, est. speed input: 1268.82 toks/s, output: 205.74 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  21%|██        | 53/256 [00:24<00:06, 31.58it/s, est. speed input: 1508.23 toks/s, output: 253.14 toks/s]
+Processed prompts:  25%|██▌       | 64/256 [00:24<00:04, 45.01it/s, est. speed input: 1698.03 toks/s, output: 311.99 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  30%|██▉       | 76/256 [00:24<00:03, 55.52it/s, est. speed input: 1930.18 toks/s, output: 376.72 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  33%|███▎      | 84/256 [00:24<00:02, 60.36it/s, est. speed input: 2100.75 toks/s, output: 420.68 toks/s]
+Processed prompts:  39%|███▉      | 101/256 [00:24<00:01, 79.49it/s, est. speed input: 2405.31 toks/s, output: 516.60 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  45%|████▍     | 115/256 [00:24<00:01, 87.73it/s, est. speed input: 2762.10 toks/s, output: 596.89 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  51%|█████     | 130/256 [00:25<00:01, 98.08it/s, est. speed input: 3078.13 toks/s, output: 685.20 toks/s]
+Processed prompts:  56%|█████▌    | 143/256 [00:25<00:01, 104.92it/s, est. speed input: 3311.37 toks/s, output: 762.86 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  61%|██████    | 155/256 [00:25<00:00, 102.67it/s, est. speed input: 3544.18 toks/s, output: 835.40 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  67%|██████▋   | 172/256 [00:25<00:00, 114.49it/s, est. speed input: 3864.55 toks/s, output: 942.10 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  73%|███████▎  | 187/256 [00:25<00:00, 120.49it/s, est. speed input: 4150.88 toks/s, output: 1038.05 toks/s]
+Processed prompts:  81%|████████  | 207/256 [00:25<00:00, 140.43it/s, est. speed input: 4560.69 toks/s, output: 1170.87 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  87%|████████▋ | 223/256 [00:25<00:00, 142.26it/s, est. speed input: 4856.83 toks/s, output: 1278.08 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  93%|█████████▎| 238/256 [00:25<00:00, 120.18it/s, est. speed input: 5128.10 toks/s, output: 1378.97 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  98%|█████████▊| 251/256 [00:26<00:00, 79.81it/s, est. speed input: 5331.39 toks/s, output: 1464.52 toks/s] 
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:26<00:00,  9.61it/s, est. speed input: 5354.27 toks/s, output: 1485.66 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  10%|█         | 26/256 [00:25<01:05,  3.50it/s, est. speed input: 892.78 toks/s, output: 116.71 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   2%|▏         | 4/256 [00:26<15:52,  3.78s/it, est. speed input: 229.67 toks/s, output: 13.07 toks/s]
+Processed prompts:   3%|▎         | 7/256 [00:27<05:56,  1.43s/it, est. speed input: 323.28 toks/s, output: 24.13 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00,  8.81it/s, est. speed input: 5567.02 toks/s, output: 1430.30 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  10%|█         | 26/256 [00:29<00:46,  4.99it/s, est. speed input: 859.00 toks/s, output: 80.65 toks/s][32m [repeated 30x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   5%|▌         | 13/256 [00:30<02:15,  1.79it/s, est. speed input: 542.51 toks/s, output: 41.87 toks/s]
+Processed prompts:   7%|▋         | 17/256 [00:30<01:17,  3.09it/s, est. speed input: 704.23 toks/s, output: 55.97 toks/s][32m [repeated 19x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:33<00:00,  7.73it/s, est. speed input: 5822.60 toks/s, output: 1225.78 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  87%|████████▋ | 223/256 [00:32<00:00, 105.89it/s, est. speed input: 5812.10 toks/s, output: 953.21 toks/s][32m [repeated 27x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:34<00:00, 22.43it/s, est. speed input: 5990.88 toks/s, output: 1139.56 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [00:34<00:00,  7.33it/s, est. speed input: 5990.88 toks/s, output: 1139.56 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  77%|███████▋  | 196/256 [00:32<00:00, 113.32it/s, est. speed input: 5401.83 toks/s, output: 812.13 toks/s]
+Processed prompts:  82%|████████▏ | 211/256 [00:32<00:00, 117.31it/s, est. speed input: 5663.54 toks/s, output: 889.87 toks/s][32m [repeated 19x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:33<00:00,  7.73it/s, est. speed input: 6145.56 toks/s, output: 1132.77 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   9%|▊         | 22/256 [00:30<01:26,  2.71it/s, est. speed input: 1046.61 toks/s, output: 64.91 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  92%|█████████▏| 235/256 [00:33<00:00, 106.62it/s, est. speed input: 6010.26 toks/s, output: 1006.43 toks/s]
+Processed prompts:  96%|█████████▌| 246/256 [00:33<00:00, 107.01it/s, est. speed input: 6162.11 toks/s, output: 1068.22 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  39%|███▉      | 101/256 [00:37<00:02, 63.33it/s, est. speed input: 3575.12 toks/s, output: 323.14 toks/s]
+Processed prompts:  43%|████▎     | 111/256 [00:37<00:02, 66.61it/s, est. speed input: 3775.77 toks/s, output: 360.70 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:33<00:00,  7.64it/s, est. speed input: 6263.99 toks/s, output: 1120.78 toks/s] 
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  96%|█████████▌| 245/256 [00:38<00:00, 92.66it/s, est. speed input: 6261.81 toks/s, output: 937.41 toks/s] 
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  80%|███████▉  | 204/256 [00:38<00:00, 94.55it/s, est. speed input: 5612.61 toks/s, output: 743.97 toks/s][32m [repeated 23x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:13:17 [worker.py:133] Sleep mode freed 38.53 GiB memory, 17.54 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:13:17 [executor_base.py:208] It took 1.723853 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:13:21 [executor_base.py:219] It took 3.546756 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 828x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 828x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 699x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 699x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("min_pixels" 3136[32m [repeated 463x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("max_pixels" 1254400[32m [repeated 463x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 11:15:20 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.38 GiB memory is still in use.
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 11:15:20 [executor_base.py:208] It took 1.332401 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:39<00:00, 49.97it/s, est. speed input: 6315.87 toks/s, output: 982.54 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:39<00:00,  6.51it/s, est. speed input: 6329.37 toks/s, output: 988.39 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  85%|████████▍ | 217/256 [00:38<00:00, 94.48it/s, est. speed input: 5833.15 toks/s, output: 803.18 toks/s]
+Processed prompts:  91%|█████████ | 233/256 [00:38<00:00, 109.96it/s, est. speed input: 6110.71 toks/s, output: 879.94 toks/s][32m [repeated 3x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:22<47:12, 22.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:24<21:34, 10.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:26<14:11,  6.81s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:28<09:47,  4.73s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:29<07:14,  3.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:31<05:43,  2.82s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:32<04:46,  2.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:34<04:10,  2.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:35<03:44,  1.88s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:37<03:26,  1.75s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:38<03:15,  1.67s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:40<03:08,  1.63s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:41<03:00,  1.57s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:43<02:56,  1.55s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:44<02:50,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:45<02:49,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:47<02:46,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:48<02:44,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:50<02:42,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:51<02:38,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:53<02:34,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:54<02:39,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:56<02:34,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:57<02:37,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:59<02:32,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [01:00<02:35,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [01:02<02:34,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [01:03<02:34,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [01:05<02:31,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [01:07<02:33,  1.56s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [01:08<02:31,  1.56s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [01:10<02:27,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [01:11<02:27,  1.55s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [01:13<02:23,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [01:14<02:22,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [01:16<02:22,  1.55s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [01:17<02:19,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [01:19<02:18,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [01:20<02:16,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [01:22<02:14,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [01:23<02:13,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [01:25<02:14,  1.57s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [01:27<02:15,  1.59s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [01:28<02:12,  1.58s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [01:30<02:16,  1.65s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:32<02:13,  1.63s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:33<02:10,  1.61s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:35<02:08,  1.60s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:36<01:59,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:38<01:56,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:39<01:55,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:41<01:50,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:42<01:47,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:43<01:46,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:45<01:43,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:46<01:42,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:48<01:40,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:49<01:41,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:51<01:40,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:52<01:38,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:53<01:37,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:55<01:35,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:56<01:32,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:58<01:31,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:59<01:28,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [02:01<01:28,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [02:02<01:27,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [02:03<01:23,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [02:05<01:22,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [02:06<01:21,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [02:08<01:20,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [02:09<01:19,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [02:10<01:17,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [02:12<01:15,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [02:13<01:15,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [02:15<01:13,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [02:16<01:11,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [02:17<01:10,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [02:19<01:09,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [02:20<01:07,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [02:22<01:06,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [02:23<01:06,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [02:25<01:06,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [02:26<01:05,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [02:28<01:04,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [02:29<01:02,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [02:31<01:00,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [02:32<01:00,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:34<00:59,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:35<00:57,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:37<00:54,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:38<00:52,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:40<00:50,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:41<00:49,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:43<00:49,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:44<00:48,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:46<00:45,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:47<00:43,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:48<00:42,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:50<00:40,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:51<00:39,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:53<00:38,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:54<00:37,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:56<00:35,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:57<00:33,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:59<00:32,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [03:00<00:30,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [03:02<00:29,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [03:03<00:27,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [03:05<00:27,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [03:06<00:26,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [03:08<00:24,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [03:09<00:22,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [03:11<00:21,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [03:12<00:19,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [03:14<00:17,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [03:15<00:16,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [03:17<00:15,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [03:18<00:13,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [03:20<00:11,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [03:21<00:10,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [03:23<00:08,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [03:24<00:07,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [03:26<00:05,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [03:27<00:04,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [03:29<00:02,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [03:30<00:01,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [03:32<00:00,  1.47s/it][A
+make_experience: 100%|██████████| 128/128 [03:32<00:00,  1.66s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nWhat is your overall rating of this image’s techniqual quality? Provide a float between 0 and 5, rounded to two decimal places. A rating of 0 represents very poor quality, while 5 represents excellent quality.\nassistant\n<think>The image showcases a dynamic and creative light painting technique, where the light sources are deliberately moved to capture the shapes and patterns in the photograph. The exposure time is long enough to capture the light trails of the light sources, which create a visually appealing and artistic effect. The image appears slightly grainy, which might be due to the long exposure time, and the sharpness is not high, as the image is intentionally designed to give a sense of motion and light. The composition is balanced, with the light trails forming a coherent visual narrative. However, the image lacks detail in the darkness, which might be due to the focus and resolution limitations of the photography process used here. The colors are vibrant, particularly the warm tones of the light, which add to the visual appeal but reduce the image to a primarily aesthetic portrayal rather than a detailed technical one.</think>\n<answer>3.75</answer>']
+[36m(ActorModelRayActor pid=287374)[0m ele.get("min_pixels" 3136[32m [repeated 48x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m ele.get("max_pixels" 1254400[32m [repeated 48x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:15:21 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.62 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:15:21 [executor_base.py:208] It took 1.653984 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:05<?, ?it/s, pg=0.106, rm=0.875, ret=-0.125, glen=158, tlen=843, kl=0.242, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:05<10:35,  5.01s/it, pg=0.106, rm=0.875, ret=-0.125, glen=158, tlen=843, kl=0.242, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:07<10:35,  5.01s/it, pg=0.0438, rm=1, ret=-0.0637, glen=162, tlen=796, kl=0.265, act_lr=9.61e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<07:23,  3.52s/it, pg=0.0438, rm=1, ret=-0.0637, glen=162, tlen=796, kl=0.265, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:10<07:23,  3.52s/it, pg=0.133, rm=0.75, ret=-0.15, glen=157, tlen=866, kl=0.233, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:10<07:18,  3.51s/it, pg=0.133, rm=0.75, ret=-0.15, glen=157, tlen=866, kl=0.233, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:14<07:18,  3.51s/it, pg=-0.0186, rm=0.875, ret=-0.00113, glen=164, tlen=866, kl=0.248, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:14<06:53,  3.34s/it, pg=-0.0186, rm=0.875, ret=-0.00113, glen=164, tlen=866, kl=0.248, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:16<06:53,  3.34s/it, pg=-0.0727, rm=1.12, ret=0.0546, glen=140, tlen=1.09e+3, kl=0.262, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:16<06:12,  3.03s/it, pg=-0.0727, rm=1.12, ret=0.0546, glen=140, tlen=1.09e+3, kl=0.262, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:18<06:12,  3.03s/it, pg=0.0284, rm=0.688, ret=-0.0482, glen=157, tlen=992, kl=0.275, act_lr=9.61e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:18<05:30,  2.71s/it, pg=0.0284, rm=0.688, ret=-0.0482, glen=157, tlen=992, kl=0.275, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:20<05:30,  2.71s/it, pg=0.00382, rm=1, ret=-0.0218, glen=152, tlen=974, kl=0.261, act_lr=9.61e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:20<05:13,  2.59s/it, pg=0.00382, rm=1, ret=-0.0218, glen=152, tlen=974, kl=0.261, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:32<05:13,  2.59s/it, pg=0.0472, rm=1.06, ret=-0.064, glen=148, tlen=1027.0, kl=0.245, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:32<11:01,  5.51s/it, pg=0.0472, rm=1.06, ret=-0.064, glen=148, tlen=1027.0, kl=0.245, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:34<11:01,  5.51s/it, pg=0.124, rm=0.75, ret=-0.141, glen=150, tlen=969, kl=0.25, act_lr=9.61e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:34<08:50,  4.46s/it, pg=0.124, rm=0.75, ret=-0.141, glen=150, tlen=969, kl=0.25, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:37<08:50,  4.46s/it, pg=0.174, rm=0.688, ret=-0.191, glen=158, tlen=923, kl=0.242, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:37<07:29,  3.81s/it, pg=0.174, rm=0.688, ret=-0.191, glen=158, tlen=923, kl=0.242, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:39<07:29,  3.81s/it, pg=0.0491, rm=1, ret=-0.068, glen=158, tlen=981, kl=0.237, act_lr=9.61e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:39<06:30,  3.34s/it, pg=0.0491, rm=1, ret=-0.068, glen=158, tlen=981, kl=0.237, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:41<06:30,  3.34s/it, pg=0.102, rm=0.812, ret=-0.121, glen=159, tlen=918, kl=0.231, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:41<05:51,  3.03s/it, pg=0.102, rm=0.812, ret=-0.121, glen=159, tlen=918, kl=0.231, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:43<05:51,  3.03s/it, pg=0.0256, rm=0.688, ret=-0.0441, glen=150, tlen=985, kl=0.261, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:43<05:15,  2.74s/it, pg=0.0256, rm=0.688, ret=-0.0441, glen=150, tlen=985, kl=0.261, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:46<05:15,  2.74s/it, pg=0.197, rm=0.75, ret=-0.213, glen=155, tlen=924, kl=0.216, act_lr=9.61e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:46<04:58,  2.62s/it, pg=0.197, rm=0.75, ret=-0.213, glen=155, tlen=924, kl=0.216, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:48<04:58,  2.62s/it, pg=0.305, rm=0.812, ret=-0.324, glen=159, tlen=975, kl=0.256, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:48<04:33,  2.42s/it, pg=0.305, rm=0.812, ret=-0.324, glen=159, tlen=975, kl=0.256, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:20:00,430] [WARNING] [stage3.py:2139:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:59<04:33,  2.42s/it, pg=0.00455, rm=0.875, ret=-0.0266, glen=157, tlen=854, kl=0.287, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:59<09:33,  5.12s/it, pg=0.00455, rm=0.875, ret=-0.0266, glen=157, tlen=854, kl=0.287, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [01:01<09:33,  5.12s/it, pg=0.0276, rm=1.06, ret=-0.0457, glen=160, tlen=957, kl=0.241, act_lr=9.61e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [01:01<07:47,  4.21s/it, pg=0.0276, rm=1.06, ret=-0.0457, glen=160, tlen=957, kl=0.241, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [01:03<07:47,  4.21s/it, pg=0.0497, rm=1, ret=-0.0682, glen=150, tlen=845, kl=0.259, act_lr=9.61e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [01:03<06:35,  3.60s/it, pg=0.0497, rm=1, ret=-0.0682, glen=150, tlen=845, kl=0.259, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [01:05<06:35,  3.60s/it, pg=0.102, rm=1.12, ret=-0.125, glen=168, tlen=852, kl=0.266, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [01:05<05:40,  3.12s/it, pg=0.102, rm=1.12, ret=-0.125, glen=168, tlen=852, kl=0.266, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [01:08<05:40,  3.12s/it, pg=0.000462, rm=1, ret=-0.0177, glen=145, tlen=1160.75, kl=0.223, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:08<05:16,  2.93s/it, pg=0.000462, rm=1, ret=-0.0177, glen=145, tlen=1160.75, kl=0.223, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:10<05:16,  2.93s/it, pg=0.117, rm=0.812, ret=-0.136, glen=150, tlen=976, kl=0.248, act_lr=9.61e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:10<04:58,  2.79s/it, pg=0.117, rm=0.812, ret=-0.136, glen=150, tlen=976, kl=0.248, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:12<04:58,  2.79s/it, pg=-0.151, rm=0.875, ret=0.132, glen=155, tlen=850, kl=0.252, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:12<04:30,  2.56s/it, pg=-0.151, rm=0.875, ret=0.132, glen=155, tlen=850, kl=0.252, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:14<04:30,  2.56s/it, pg=0.0145, rm=0.938, ret=-0.0343, glen=158, tlen=797, kl=0.262, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:14<04:13,  2.41s/it, pg=0.0145, rm=0.938, ret=-0.0343, glen=158, tlen=797, kl=0.262, act_lr=9.61e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:26<04:13,  2.41s/it, pg=0.131, rm=0.812, ret=-0.151, glen=161, tlen=954, kl=0.253, act_lr=9.6e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:26<08:41,  5.02s/it, pg=0.131, rm=0.812, ret=-0.151, glen=161, tlen=954, kl=0.253, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:28<08:41,  5.02s/it, pg=0.0725, rm=0.75, ret=-0.0887, glen=143, tlen=969, kl=0.251, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:28<07:13,  4.21s/it, pg=0.0725, rm=0.75, ret=-0.0887, glen=143, tlen=969, kl=0.251, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:30<07:13,  4.21s/it, pg=0.0101, rm=1, ret=-0.0287, glen=154, tlen=921, kl=0.237, act_lr=9.6e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:30<05:58,  3.51s/it, pg=0.0101, rm=1, ret=-0.0287, glen=154, tlen=921, kl=0.237, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:32<05:58,  3.51s/it, pg=0.089, rm=0.875, ret=-0.106, glen=160, tlen=965, kl=0.236, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:32<05:19,  3.17s/it, pg=0.089, rm=0.875, ret=-0.106, glen=160, tlen=965, kl=0.236, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:34<05:19,  3.17s/it, pg=0.0467, rm=1.06, ret=-0.0632, glen=143, tlen=1.02e+3, kl=0.248, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:34<04:49,  2.90s/it, pg=0.0467, rm=1.06, ret=-0.0632, glen=143, tlen=1.02e+3, kl=0.248, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:36<04:49,  2.90s/it, pg=-0.209, rm=1.06, ret=0.19, glen=154, tlen=985, kl=0.24, act_lr=9.6e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:36<04:20,  2.64s/it, pg=-0.209, rm=1.06, ret=0.19, glen=154, tlen=985, kl=0.24, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:39<04:20,  2.64s/it, pg=0.0405, rm=0.875, ret=-0.0577, glen=149, tlen=874, kl=0.256, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:39<04:06,  2.52s/it, pg=0.0405, rm=0.875, ret=-0.0577, glen=149, tlen=874, kl=0.256, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:41<04:06,  2.52s/it, pg=0.013, rm=1.19, ret=-0.0342, glen=160, tlen=810, kl=0.288, act_lr=9.6e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:41<03:50,  2.37s/it, pg=0.013, rm=1.19, ret=-0.0342, glen=160, tlen=810, kl=0.288, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:51<03:50,  2.37s/it, pg=0.114, rm=0.812, ret=-0.134, glen=158, tlen=912, kl=0.262, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:51<07:32,  4.72s/it, pg=0.114, rm=0.812, ret=-0.134, glen=158, tlen=912, kl=0.262, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:53<07:32,  4.72s/it, pg=-0.00912, rm=0.875, ret=-0.0102, glen=162, tlen=925, kl=0.255, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:53<06:21,  4.02s/it, pg=-0.00912, rm=0.875, ret=-0.0102, glen=162, tlen=925, kl=0.255, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:55<06:21,  4.02s/it, pg=0.17, rm=0.938, ret=-0.189, glen=160, tlen=840, kl=0.259, act_lr=9.6e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:55<05:24,  3.45s/it, pg=0.17, rm=0.938, ret=-0.189, glen=160, tlen=840, kl=0.259, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:58<05:24,  3.45s/it, pg=-0.0284, rm=0.938, ret=0.00634, glen=158, tlen=924, kl=0.269, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:58<04:53,  3.15s/it, pg=-0.0284, rm=0.938, ret=0.00634, glen=158, tlen=924, kl=0.269, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [02:00<04:53,  3.15s/it, pg=-0.00981, rm=1.19, ret=-0.0105, glen=160, tlen=787, kl=0.261, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [02:00<04:33,  2.97s/it, pg=-0.00981, rm=1.19, ret=-0.0105, glen=160, tlen=787, kl=0.261, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [02:02<04:33,  2.97s/it, pg=-0.0313, rm=0.688, ret=0.0124, glen=164, tlen=918, kl=0.247, act_lr=9.6e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [02:02<04:00,  2.64s/it, pg=-0.0313, rm=0.688, ret=0.0124, glen=164, tlen=918, kl=0.247, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [02:04<04:00,  2.64s/it, pg=0.129, rm=0.812, ret=-0.149, glen=161, tlen=954, kl=0.244, act_lr=9.6e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [02:04<03:41,  2.46s/it, pg=0.129, rm=0.812, ret=-0.149, glen=161, tlen=954, kl=0.244, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [02:07<03:41,  2.46s/it, pg=0.167, rm=0.688, ret=-0.186, glen=151, tlen=960, kl=0.248, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:07<03:35,  2.42s/it, pg=0.167, rm=0.688, ret=-0.186, glen=151, tlen=960, kl=0.248, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:16<03:35,  2.42s/it, pg=0.148, rm=0.938, ret=-0.167, glen=144, tlen=1.02e+3, kl=0.248, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:16<06:48,  4.64s/it, pg=0.148, rm=0.938, ret=-0.167, glen=144, tlen=1.02e+3, kl=0.248, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:18<06:48,  4.64s/it, pg=0.0264, rm=0.812, ret=-0.0441, glen=155, tlen=846, kl=0.252, act_lr=9.6e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:18<05:33,  3.83s/it, pg=0.0264, rm=0.812, ret=-0.0441, glen=155, tlen=846, kl=0.252, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:21<05:33,  3.83s/it, pg=-0.0934, rm=1.12, ret=0.0777, glen=146, tlen=1.02e+3, kl=0.236, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:21<04:48,  3.36s/it, pg=-0.0934, rm=1.12, ret=0.0777, glen=146, tlen=1.02e+3, kl=0.236, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:23<04:48,  3.36s/it, pg=0.175, rm=1.06, ret=-0.194, glen=153, tlen=951, kl=0.245, act_lr=9.6e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:23<04:11,  2.96s/it, pg=0.175, rm=1.06, ret=-0.194, glen=153, tlen=951, kl=0.245, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:25<04:11,  2.96s/it, pg=0.223, rm=0.875, ret=-0.242, glen=160, tlen=795, kl=0.26, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:25<03:44,  2.68s/it, pg=0.223, rm=0.875, ret=-0.242, glen=160, tlen=795, kl=0.26, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:27<03:44,  2.68s/it, pg=0.232, rm=1.06, ret=-0.252, glen=158, tlen=1043.25, kl=0.25, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:27<03:32,  2.56s/it, pg=0.232, rm=1.06, ret=-0.252, glen=158, tlen=1043.25, kl=0.25, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:29<03:32,  2.56s/it, pg=-0.0695, rm=0.938, ret=0.0521, glen=145, tlen=834, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:29<03:16,  2.40s/it, pg=-0.0695, rm=0.938, ret=0.0521, glen=145, tlen=834, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:31<03:16,  2.40s/it, pg=0.239, rm=1.06, ret=-0.263, glen=176, tlen=932, kl=0.262, act_lr=9.6e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:31<03:09,  2.34s/it, pg=0.239, rm=1.06, ret=-0.263, glen=176, tlen=932, kl=0.262, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:41<03:09,  2.34s/it, pg=-0.043, rm=1, ret=0.0247, glen=158, tlen=860, kl=0.249, act_lr=9.6e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:41<06:15,  4.69s/it, pg=-0.043, rm=1, ret=0.0247, glen=158, tlen=860, kl=0.249, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:43<06:15,  4.69s/it, pg=-0.12, rm=1.06, ret=0.102, glen=162, tlen=807, kl=0.251, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:43<05:05,  3.87s/it, pg=-0.12, rm=1.06, ret=0.102, glen=162, tlen=807, kl=0.251, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:45<05:05,  3.87s/it, pg=-0.145, rm=1, ret=0.128, glen=159, tlen=794, kl=0.258, act_lr=9.6e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:45<04:21,  3.35s/it, pg=-0.145, rm=1, ret=0.128, glen=159, tlen=794, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:48<04:21,  3.35s/it, pg=-0.191, rm=1.06, ret=0.172, glen=156, tlen=978, kl=0.241, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:48<03:53,  3.03s/it, pg=-0.191, rm=1.06, ret=0.172, glen=156, tlen=978, kl=0.241, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:50<03:53,  3.03s/it, pg=-0.0516, rm=1, ret=0.0333, glen=164, tlen=995, kl=0.236, act_lr=9.6e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:50<03:26,  2.72s/it, pg=-0.0516, rm=1, ret=0.0333, glen=164, tlen=995, kl=0.236, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:52<03:26,  2.72s/it, pg=-0.0317, rm=0.688, ret=0.0129, glen=161, tlen=916, kl=0.249, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:52<03:11,  2.55s/it, pg=-0.0317, rm=0.688, ret=0.0129, glen=161, tlen=916, kl=0.249, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:54<03:11,  2.55s/it, pg=-0.061, rm=1, ret=0.0439, glen=144, tlen=829, kl=0.258, act_lr=9.6e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:54<02:57,  2.40s/it, pg=-0.061, rm=1, ret=0.0439, glen=144, tlen=829, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:56<02:57,  2.40s/it, pg=0.0404, rm=0.875, ret=-0.0596, glen=155, tlen=880, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:56<02:52,  2.37s/it, pg=0.0404, rm=0.875, ret=-0.0596, glen=155, tlen=880, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [03:06<02:52,  2.37s/it, pg=0.323, rm=0.938, ret=-0.339, glen=151, tlen=858, kl=0.266, act_lr=9.6e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [03:06<05:23,  4.49s/it, pg=0.323, rm=0.938, ret=-0.339, glen=151, tlen=858, kl=0.266, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [03:08<05:23,  4.49s/it, pg=0.134, rm=0.938, ret=-0.153, glen=162, tlen=857, kl=0.255, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [03:08<04:33,  3.85s/it, pg=0.134, rm=0.938, ret=-0.153, glen=162, tlen=857, kl=0.255, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [03:10<04:33,  3.85s/it, pg=0.0526, rm=0.875, ret=-0.0694, glen=165, tlen=854, kl=0.231, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [03:10<03:47,  3.25s/it, pg=0.0526, rm=0.875, ret=-0.0694, glen=165, tlen=854, kl=0.231, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [03:12<03:47,  3.25s/it, pg=0.0714, rm=0.75, ret=-0.0905, glen=165, tlen=903, kl=0.255, act_lr=9.6e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:12<03:20,  2.91s/it, pg=0.0714, rm=0.75, ret=-0.0905, glen=165, tlen=903, kl=0.255, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:14<03:20,  2.91s/it, pg=0.0977, rm=0.875, ret=-0.115, glen=140, tlen=1.1e+3, kl=0.252, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:14<03:03,  2.71s/it, pg=0.0977, rm=0.875, ret=-0.115, glen=140, tlen=1.1e+3, kl=0.252, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:16<03:03,  2.71s/it, pg=-0.0207, rm=0.812, ret=0.00314, glen=160, tlen=1e+3, kl=0.235, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:16<02:47,  2.50s/it, pg=-0.0207, rm=0.812, ret=0.00314, glen=160, tlen=1e+3, kl=0.235, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:18<02:47,  2.50s/it, pg=-0.341, rm=1.19, ret=0.324, glen=153, tlen=1.03e+3, kl=0.249, act_lr=9.6e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:18<02:39,  2.41s/it, pg=-0.341, rm=1.19, ret=0.324, glen=153, tlen=1.03e+3, kl=0.249, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:21<02:39,  2.41s/it, pg=0.199, rm=0.562, ret=-0.217, glen=147, tlen=969, kl=0.27, act_lr=9.6e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:21<02:33,  2.37s/it, pg=0.199, rm=0.562, ret=-0.217, glen=147, tlen=969, kl=0.27, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:30<02:33,  2.37s/it, pg=0.105, rm=0.812, ret=-0.124, glen=160, tlen=862, kl=0.242, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:30<04:45,  4.46s/it, pg=0.105, rm=0.812, ret=-0.124, glen=160, tlen=862, kl=0.242, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:33<04:45,  4.46s/it, pg=-0.375, rm=0.938, ret=0.359, glen=145, tlen=965, kl=0.235, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:33<04:04,  3.88s/it, pg=-0.375, rm=0.938, ret=0.359, glen=145, tlen=965, kl=0.235, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:34<04:04,  3.88s/it, pg=0.183, rm=0.875, ret=-0.201, glen=138, tlen=890, kl=0.265, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:34<03:23,  3.28s/it, pg=0.183, rm=0.875, ret=-0.201, glen=138, tlen=890, kl=0.265, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:37<03:23,  3.28s/it, pg=0.273, rm=0.812, ret=-0.292, glen=159, tlen=964, kl=0.259, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:37<03:00,  2.96s/it, pg=0.273, rm=0.812, ret=-0.292, glen=159, tlen=964, kl=0.259, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:39<03:00,  2.96s/it, pg=-0.0715, rm=0.875, ret=0.0533, glen=155, tlen=804, kl=0.235, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:39<02:45,  2.75s/it, pg=-0.0715, rm=0.875, ret=0.0533, glen=155, tlen=804, kl=0.235, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:41<02:45,  2.75s/it, pg=0.374, rm=1, ret=-0.391, glen=156, tlen=796, kl=0.254, act_lr=9.6e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:41<02:29,  2.53s/it, pg=0.374, rm=1, ret=-0.391, glen=156, tlen=796, kl=0.254, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:43<02:29,  2.53s/it, pg=0.00954, rm=1.06, ret=-0.0278, glen=156, tlen=891, kl=0.241, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:43<02:15,  2.33s/it, pg=0.00954, rm=1.06, ret=-0.0278, glen=156, tlen=891, kl=0.241, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:45<02:15,  2.33s/it, pg=-0.262, rm=1.12, ret=0.244, glen=156, tlen=932, kl=0.254, act_lr=9.6e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:45<02:11,  2.31s/it, pg=-0.262, rm=1.12, ret=0.244, glen=156, tlen=932, kl=0.254, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:55<02:11,  2.31s/it, pg=-0.0411, rm=0.938, ret=0.021, glen=160, tlen=966, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:55<04:12,  4.50s/it, pg=-0.0411, rm=0.938, ret=0.021, glen=160, tlen=966, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:57<04:12,  4.50s/it, pg=0.0111, rm=1.19, ret=-0.0311, glen=146, tlen=784, kl=0.296, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:57<03:27,  3.77s/it, pg=0.0111, rm=1.19, ret=-0.0311, glen=146, tlen=784, kl=0.296, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:59<03:27,  3.77s/it, pg=0.033, rm=0.812, ret=-0.0518, glen=149, tlen=901, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:59<02:52,  3.19s/it, pg=0.033, rm=0.812, ret=-0.0518, glen=149, tlen=901, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [04:01<02:52,  3.19s/it, pg=0.00455, rm=0.875, ret=-0.0209, glen=153, tlen=888, kl=0.239, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [04:01<02:32,  2.87s/it, pg=0.00455, rm=0.875, ret=-0.0209, glen=153, tlen=888, kl=0.239, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [04:03<02:32,  2.87s/it, pg=-0.046, rm=1.12, ret=0.0263, glen=157, tlen=843, kl=0.26, act_lr=9.6e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [04:03<02:18,  2.66s/it, pg=-0.046, rm=1.12, ret=0.0263, glen=157, tlen=843, kl=0.26, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [04:05<02:18,  2.66s/it, pg=-0.0758, rm=0.812, ret=0.0535, glen=162, tlen=810, kl=0.274, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [04:05<02:05,  2.46s/it, pg=-0.0758, rm=0.812, ret=0.0535, glen=162, tlen=810, kl=0.274, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [04:07<02:05,  2.46s/it, pg=0.107, rm=0.812, ret=-0.127, glen=163, tlen=865, kl=0.252, act_lr=9.6e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [04:07<01:56,  2.33s/it, pg=0.107, rm=0.812, ret=-0.127, glen=163, tlen=865, kl=0.252, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [04:09<01:56,  2.33s/it, pg=-0.232, rm=1.19, ret=0.216, glen=166, tlen=845, kl=0.239, act_lr=9.6e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:09<01:54,  2.34s/it, pg=-0.232, rm=1.19, ret=0.216, glen=166, tlen=845, kl=0.239, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:19<01:54,  2.34s/it, pg=-0.12, rm=1.06, ret=0.105, glen=152, tlen=928, kl=0.256, act_lr=9.6e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:19<03:33,  4.45s/it, pg=-0.12, rm=1.06, ret=0.105, glen=152, tlen=928, kl=0.256, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:21<03:33,  4.45s/it, pg=-0.0264, rm=1.12, ret=0.00835, glen=155, tlen=841, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:21<02:56,  3.75s/it, pg=-0.0264, rm=1.12, ret=0.00835, glen=155, tlen=841, kl=0.258, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:23<02:56,  3.75s/it, pg=-0.0485, rm=1, ret=0.0319, glen=150, tlen=964, kl=0.252, act_lr=9.6e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:23<02:32,  3.32s/it, pg=-0.0485, rm=1, ret=0.0319, glen=150, tlen=964, kl=0.252, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:25<02:32,  3.32s/it, pg=0.108, rm=0.938, ret=-0.126, glen=161, tlen=857, kl=0.26, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:25<02:09,  2.88s/it, pg=0.108, rm=0.938, ret=-0.126, glen=161, tlen=857, kl=0.26, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:27<02:09,  2.88s/it, pg=-0.0744, rm=1.06, ret=0.0588, glen=143, tlen=966, kl=0.222, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:27<01:57,  2.66s/it, pg=-0.0744, rm=1.06, ret=0.0588, glen=143, tlen=966, kl=0.222, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:29<01:57,  2.66s/it, pg=0.00472, rm=0.875, ret=-0.0191, glen=155, tlen=908, kl=0.235, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:29<01:43,  2.42s/it, pg=0.00472, rm=0.875, ret=-0.0191, glen=155, tlen=908, kl=0.235, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:31<01:43,  2.42s/it, pg=-0.0263, rm=1, ret=0.00543, glen=146, tlen=831, kl=0.285, act_lr=9.6e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:31<01:41,  2.41s/it, pg=-0.0263, rm=1, ret=0.00543, glen=146, tlen=831, kl=0.285, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:34<01:41,  2.41s/it, pg=-0.18, rm=0.938, ret=0.162, glen=160, tlen=869, kl=0.246, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:34<01:41,  2.47s/it, pg=-0.18, rm=0.938, ret=0.162, glen=160, tlen=869, kl=0.246, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:43<01:41,  2.47s/it, pg=-0.0124, rm=0.875, ret=-0.00419, glen=160, tlen=913, kl=0.23, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:43<03:02,  4.55s/it, pg=-0.0124, rm=0.875, ret=-0.00419, glen=160, tlen=913, kl=0.23, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:45<03:02,  4.55s/it, pg=-0.189, rm=0.75, ret=0.174, glen=142, tlen=964, kl=0.252, act_lr=9.6e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:45<02:28,  3.81s/it, pg=-0.189, rm=0.75, ret=0.174, glen=142, tlen=964, kl=0.252, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:48<02:28,  3.81s/it, pg=0.0498, rm=0.875, ret=-0.0691, glen=139, tlen=828, kl=0.271, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:48<02:08,  3.38s/it, pg=0.0498, rm=0.875, ret=-0.0691, glen=139, tlen=828, kl=0.271, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:50<02:08,  3.38s/it, pg=0.00198, rm=1, ret=-0.0167, glen=134, tlen=1.15e+3, kl=0.233, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:50<01:50,  2.99s/it, pg=0.00198, rm=1, ret=-0.0167, glen=134, tlen=1.15e+3, kl=0.233, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:52<01:50,  2.99s/it, pg=0.0129, rm=1, ret=-0.0321, glen=157, tlen=852, kl=0.269, act_lr=9.6e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:52<01:35,  2.64s/it, pg=0.0129, rm=1, ret=-0.0321, glen=157, tlen=852, kl=0.269, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:54<01:35,  2.64s/it, pg=0.0129, rm=1, ret=-0.029, glen=148, tlen=912, kl=0.25, act_lr=9.6e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:54<01:29,  2.56s/it, pg=0.0129, rm=1, ret=-0.029, glen=148, tlen=912, kl=0.25, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:56<01:29,  2.56s/it, pg=-0.0957, rm=0.812, ret=0.0786, glen=154, tlen=914, kl=0.229, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:56<01:22,  2.43s/it, pg=-0.0957, rm=0.812, ret=0.0786, glen=154, tlen=914, kl=0.229, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:58<01:22,  2.43s/it, pg=0.0638, rm=0.938, ret=-0.084, glen=148, tlen=900, kl=0.275, act_lr=9.6e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:58<01:16,  2.33s/it, pg=0.0638, rm=0.938, ret=-0.084, glen=148, tlen=900, kl=0.275, act_lr=9.6e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [05:08<01:16,  2.33s/it, pg=0.0334, rm=0.812, ret=-0.0508, glen=154, tlen=907, kl=0.242, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [05:08<02:21,  4.43s/it, pg=0.0334, rm=0.812, ret=-0.0508, glen=154, tlen=907, kl=0.242, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [05:10<02:21,  4.43s/it, pg=0.0502, rm=0.875, ret=-0.069, glen=144, tlen=833, kl=0.261, act_lr=9.59e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [05:10<01:53,  3.67s/it, pg=0.0502, rm=0.875, ret=-0.069, glen=144, tlen=833, kl=0.261, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [05:12<01:53,  3.67s/it, pg=0.06, rm=1.06, ret=-0.081, glen=167, tlen=965, kl=0.262, act_lr=9.59e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:12<01:38,  3.29s/it, pg=0.06, rm=1.06, ret=-0.081, glen=167, tlen=965, kl=0.262, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:14<01:38,  3.29s/it, pg=0.195, rm=0.75, ret=-0.211, glen=144, tlen=788, kl=0.234, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:14<01:22,  2.85s/it, pg=0.195, rm=0.75, ret=-0.211, glen=144, tlen=788, kl=0.234, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:16<01:22,  2.85s/it, pg=0.00385, rm=0.875, ret=-0.0231, glen=155, tlen=853, kl=0.266, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:16<01:11,  2.55s/it, pg=0.00385, rm=0.875, ret=-0.0231, glen=155, tlen=853, kl=0.266, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:18<01:11,  2.55s/it, pg=-0.0136, rm=1.19, ret=-0.0045, glen=149, tlen=917, kl=0.263, act_lr=9.59e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:18<01:06,  2.45s/it, pg=-0.0136, rm=1.19, ret=-0.0045, glen=149, tlen=917, kl=0.263, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:20<01:06,  2.45s/it, pg=0.106, rm=0.812, ret=-0.122, glen=159, tlen=861, kl=0.228, act_lr=9.59e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:20<01:00,  2.32s/it, pg=0.106, rm=0.812, ret=-0.122, glen=159, tlen=861, kl=0.228, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:22<01:00,  2.32s/it, pg=0.0393, rm=1.06, ret=-0.0576, glen=150, tlen=839, kl=0.256, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:22<00:54,  2.17s/it, pg=0.0393, rm=1.06, ret=-0.0576, glen=150, tlen=839, kl=0.256, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:31<00:54,  2.17s/it, pg=-0.0335, rm=0.938, ret=0.0163, glen=145, tlen=978, kl=0.247, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:31<01:46,  4.46s/it, pg=-0.0335, rm=0.938, ret=0.0163, glen=145, tlen=978, kl=0.247, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:34<01:46,  4.46s/it, pg=0.0491, rm=0.938, ret=-0.0662, glen=149, tlen=958, kl=0.245, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:34<01:27,  3.82s/it, pg=0.0491, rm=0.938, ret=-0.0662, glen=149, tlen=958, kl=0.245, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:36<01:27,  3.82s/it, pg=0.0325, rm=1, ret=-0.0503, glen=161, tlen=852, kl=0.244, act_lr=9.59e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:36<01:12,  3.29s/it, pg=0.0325, rm=1, ret=-0.0503, glen=161, tlen=852, kl=0.244, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:38<01:12,  3.29s/it, pg=-0.0427, rm=1, ret=0.0226, glen=147, tlen=910, kl=0.278, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:38<01:01,  2.92s/it, pg=-0.0427, rm=1, ret=0.0226, glen=147, tlen=910, kl=0.278, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:40<01:01,  2.92s/it, pg=0.09, rm=0.625, ret=-0.107, glen=157, tlen=929, kl=0.236, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:40<00:52,  2.60s/it, pg=0.09, rm=0.625, ret=-0.107, glen=157, tlen=929, kl=0.236, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:42<00:52,  2.60s/it, pg=-0.0483, rm=0.938, ret=0.0303, glen=157, tlen=842, kl=0.245, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:42<00:46,  2.43s/it, pg=-0.0483, rm=0.938, ret=0.0303, glen=157, tlen=842, kl=0.245, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:44<00:46,  2.43s/it, pg=-0.185, rm=1, ret=0.167, glen=157, tlen=836, kl=0.272, act_lr=9.59e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:44<00:42,  2.36s/it, pg=-0.185, rm=1, ret=0.167, glen=157, tlen=836, kl=0.272, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:46<00:42,  2.36s/it, pg=0.0876, rm=0.875, ret=-0.106, glen=163, tlen=849, kl=0.242, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:46<00:37,  2.21s/it, pg=0.0876, rm=0.875, ret=-0.106, glen=163, tlen=849, kl=0.242, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:55<00:37,  2.21s/it, pg=-0.0325, rm=1, ret=0.0156, glen=158, tlen=878, kl=0.243, act_lr=9.59e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:55<01:09,  4.36s/it, pg=-0.0325, rm=1, ret=0.0156, glen=158, tlen=878, kl=0.243, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:57<01:09,  4.36s/it, pg=0.186, rm=1.06, ret=-0.202, glen=153, tlen=821, kl=0.245, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:57<00:55,  3.67s/it, pg=0.186, rm=1.06, ret=-0.202, glen=153, tlen=821, kl=0.245, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:59<00:55,  3.67s/it, pg=0.092, rm=0.625, ret=-0.112, glen=154, tlen=926, kl=0.27, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:59<00:44,  3.17s/it, pg=0.092, rm=0.625, ret=-0.112, glen=154, tlen=926, kl=0.27, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [06:01<00:44,  3.17s/it, pg=0.00203, rm=1.12, ret=-0.0205, glen=168, tlen=807, kl=0.238, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [06:01<00:37,  2.87s/it, pg=0.00203, rm=1.12, ret=-0.0205, glen=168, tlen=807, kl=0.238, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [06:03<00:37,  2.87s/it, pg=0.00138, rm=1.12, ret=-0.0177, glen=153, tlen=793, kl=0.242, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [06:03<00:31,  2.62s/it, pg=0.00138, rm=1.12, ret=-0.0177, glen=153, tlen=793, kl=0.242, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [06:06<00:31,  2.62s/it, pg=-0.151, rm=1, ret=0.136, glen=157, tlen=871, kl=0.242, act_lr=9.59e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [06:06<00:27,  2.46s/it, pg=-0.151, rm=1, ret=0.136, glen=157, tlen=871, kl=0.242, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [06:08<00:27,  2.46s/it, pg=-0.235, rm=0.875, ret=0.218, glen=150, tlen=977, kl=0.25, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [06:08<00:23,  2.33s/it, pg=-0.235, rm=0.875, ret=0.218, glen=150, tlen=977, kl=0.25, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [06:09<00:23,  2.33s/it, pg=0.0901, rm=0.875, ret=-0.109, glen=162, tlen=848, kl=0.263, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:09<00:19,  2.19s/it, pg=0.0901, rm=0.875, ret=-0.109, glen=162, tlen=848, kl=0.263, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:19<00:19,  2.19s/it, pg=-0.0815, rm=0.75, ret=0.0624, glen=160, tlen=863, kl=0.273, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:19<00:35,  4.47s/it, pg=-0.0815, rm=0.75, ret=0.0624, glen=160, tlen=863, kl=0.273, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:21<00:35,  4.47s/it, pg=0.0703, rm=0.938, ret=-0.0899, glen=155, tlen=914, kl=0.277, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:21<00:25,  3.71s/it, pg=0.0703, rm=0.938, ret=-0.0899, glen=155, tlen=914, kl=0.277, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:23<00:25,  3.71s/it, pg=0.115, rm=1, ret=-0.127, glen=145, tlen=968, kl=0.239, act_lr=9.59e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:23<00:19,  3.24s/it, pg=0.115, rm=1, ret=-0.127, glen=145, tlen=968, kl=0.239, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:25<00:19,  3.24s/it, pg=0.0569, rm=1.06, ret=-0.0753, glen=159, tlen=957, kl=0.239, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:25<00:14,  2.88s/it, pg=0.0569, rm=1.06, ret=-0.0753, glen=159, tlen=957, kl=0.239, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:27<00:14,  2.88s/it, pg=0.0919, rm=0.812, ret=-0.109, glen=144, tlen=976, kl=0.262, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:27<00:10,  2.65s/it, pg=0.0919, rm=0.812, ret=-0.109, glen=144, tlen=976, kl=0.262, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:30<00:10,  2.65s/it, pg=-0.206, rm=1.06, ret=0.188, glen=149, tlen=1029.75, kl=0.256, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:30<00:07,  2.49s/it, pg=-0.206, rm=1.06, ret=0.188, glen=149, tlen=1029.75, kl=0.256, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:32<00:07,  2.49s/it, pg=-0.0335, rm=1, ret=0.0145, glen=137, tlen=1.01e+3, kl=0.273, act_lr=9.59e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:32<00:04,  2.42s/it, pg=-0.0335, rm=1, ret=0.0145, glen=137, tlen=1.01e+3, kl=0.273, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:34<00:04,  2.42s/it, pg=0.0865, rm=0.75, ret=-0.104, glen=151, tlen=1.04e+3, kl=0.248, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:34<00:02,  2.34s/it, pg=0.0865, rm=0.75, ret=-0.104, glen=151, tlen=1.04e+3, kl=0.248, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:44<00:02,  2.34s/it, pg=-0.207, rm=1.06, ret=0.188, glen=152, tlen=983, kl=0.251, act_lr=9.59e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:44<00:00,  4.69s/it, pg=-0.207, rm=1.06, ret=0.188, glen=152, tlen=983, kl=0.251, act_lr=9.59e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:44<00:00,  3.16s/it, pg=-0.207, rm=1.06, ret=0.188, glen=152, tlen=983, kl=0.251, act_lr=9.59e-7]
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 11:25:47 [executor_base.py:219] It took 1.302837 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279379)[0m 
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279378)[0m INFO 05-28 11:25:49 [executor_base.py:219] It took 3.206140 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.3.self_attn.k_proj.bias, dtype: torch.bfloat16, shape: torch.Size([512])[32m [repeated 3379x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.13.self_attn.q_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 3584])[32m [repeated 950x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.23.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 974x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:26:09 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:26:09 [executor_base.py:208] It took 1.408781 seconds to fall asleep.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:26:11 [executor_base.py:219] It took 1.536169 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 304x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   0%|          | 0/127 [12:52<?, ?it/s, policy_loss=0.0207, actor_lr=9.6e-7, kl=0.252, reward=0.93, response_length=154, total_length=911, acc_rewards=0.43, format_rewards=0.5, return=-0.0389]
+Episode [1/2]:   1%|          | 1/127 [12:52<27:01:55, 772.35s/it, policy_loss=0.0207, actor_lr=9.6e-7, kl=0.252, reward=0.93, response_length=154, total_length=911, acc_rewards=0.43, format_rewards=0.5, return=-0.0389]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 1/256 [00:24<1:42:59, 24.24s/it, est. speed input: 64.00 toks/s, output: 3.18 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   1%|          | 2/256 [00:24<42:41, 10.08s/it, est. speed input: 127.05 toks/s, output: 6.47 toks/s] 
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   3%|▎         | 8/256 [00:24<05:09,  1.25s/it, est. speed input: 499.12 toks/s, output: 27.31 toks/s]
+Processed prompts:   4%|▍         | 10/256 [00:24<03:20,  1.23it/s, est. speed input: 620.64 toks/s, output: 34.61 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  10%|▉         | 25/256 [00:25<00:26,  8.61it/s, est. speed input: 1296.51 toks/s, output: 94.40 toks/s]
+Processed prompts:  12%|█▏        | 30/256 [00:25<00:18, 12.05it/s, est. speed input: 1500.29 toks/s, output: 115.31 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  18%|█▊        | 46/256 [00:26<00:08, 23.74it/s, est. speed input: 2075.65 toks/s, output: 184.72 toks/s]
+Processed prompts:  20%|██        | 52/256 [00:26<00:07, 29.04it/s, est. speed input: 2248.10 toks/s, output: 211.84 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  90%|█████████ | 231/256 [00:28<00:00, 95.62it/s, est. speed input: 6218.50 toks/s, output: 1188.49 toks/s]
+Processed prompts:  95%|█████████▌| 244/256 [00:28<00:00, 99.46it/s, est. speed input: 6431.69 toks/s, output: 1275.04 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:28<00:00, 62.57it/s, est. speed input: 6541.13 toks/s, output: 1339.91 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:28<00:00,  8.92it/s, est. speed input: 6543.14 toks/s, output: 1344.63 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  53%|█████▎    | 136/256 [00:28<00:01, 81.73it/s, est. speed input: 4220.31 toks/s, output: 617.52 toks/s][32m [repeated 63x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:29<00:00, 70.68it/s, est. speed input: 6495.28 toks/s, output: 1332.60 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00,  8.76it/s, est. speed input: 6515.08 toks/s, output: 1340.33 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  21%|██        | 54/256 [00:29<00:09, 21.07it/s, est. speed input: 2026.21 toks/s, output: 216.13 toks/s]
+Processed prompts:  25%|██▍       | 63/256 [00:29<00:06, 30.66it/s, est. speed input: 2275.26 toks/s, output: 256.91 toks/s][32m [repeated 32x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:31<00:00,  8.05it/s, est. speed input: 6445.87 toks/s, output: 1268.03 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  83%|████████▎ | 212/256 [00:32<00:00, 129.78it/s, est. speed input: 5835.40 toks/s, output: 934.82 toks/s][32m [repeated 41x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  69%|██████▉   | 176/256 [00:31<00:00, 118.62it/s, est. speed input: 5059.16 toks/s, output: 745.86 toks/s]
+Processed prompts:  77%|███████▋  | 197/256 [00:31<00:00, 139.70it/s, est. speed input: 5499.54 toks/s, output: 855.49 toks/s][32m [repeated 19x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:26:09 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.33 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:26:09 [executor_base.py:208] It took 1.598125 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:26:13 [executor_base.py:219] It took 3.083138 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 182x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 873x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 873x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 788x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 788x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 11:28:01 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.45 GiB memory is still in use.
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 11:28:01 [executor_base.py:208] It took 1.365586 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287377)[0m ele.get("min_pixels" 3136[32m [repeated 381x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("max_pixels" 1254400[32m [repeated 381x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:33<00:00,  7.73it/s, est. speed input: 6754.05 toks/s, output: 1166.34 toks/s] [32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  88%|████████▊ | 226/256 [00:32<00:00, 119.70it/s, est. speed input: 6155.42 toks/s, output: 1010.76 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<03:34,  1.69s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:03<03:26,  1.64s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<03:17,  1.58s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:06<03:08,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<03:07,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:09<02:59,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:10<02:57,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:12<02:58,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:13<02:52,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:14<02:46,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:16<02:46,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:17<02:41,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:18<02:40,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:20<02:36,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:21<02:36,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:23<02:34,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:24<02:30,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:25<02:30,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:27<02:25,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:28<02:25,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:29<02:21,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:31<02:20,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:32<02:17,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:33<02:27,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:35<02:21,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:36<02:20,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:38<02:20,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:39<02:17,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:40<02:16,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:42<02:18,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:43<02:19,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:45<02:17,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:46<02:11,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:47<02:07,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:49<02:06,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:50<02:02,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:51<02:02,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:53<02:01,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:54<01:58,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:55<01:56,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:57<01:57,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:58<01:56,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [01:00<02:00,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [01:01<02:00,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [01:03<02:02,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:04<02:02,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:06<02:02,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:07<02:00,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:09<02:00,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:10<01:58,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:12<01:56,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:13<01:58,  1.56s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:15<01:54,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:16<01:52,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:18<01:49,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:19<01:48,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:20<01:35,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:21<01:27,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:22<01:20,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:23<01:15,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:24<01:10,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:25<01:07,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:26<01:04,  1.01it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:27<01:02,  1.02it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:28<01:08,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:30<01:11,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:31<01:14,  1.23s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:32<01:16,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:34<01:15,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:35<01:17,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:37<01:17,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:38<01:17,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:40<01:17,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:41<01:18,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:43<01:17,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:44<01:15,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:45<01:13,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:47<01:12,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:48<01:12,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:50<01:11,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:51<01:07,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:53<01:06,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:54<01:08,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:56<01:05,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:57<01:03,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:59<01:01,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [02:00<01:00,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [02:02<00:58,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:03<00:56,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:04<00:54,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:06<00:53,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:07<00:51,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:09<00:50,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:10<00:49,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:12<00:46,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:13<00:45,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:14<00:43,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:16<00:42,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:17<00:40,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:19<00:39,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:20<00:37,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:21<00:36,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:23<00:35,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:24<00:34,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:25<00:29,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:26<00:27,  1.23s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:27<00:24,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:28<00:22,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:29<00:20,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:31<00:23,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:33<00:24,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:34<00:20,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:35<00:19,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:37<00:19,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:38<00:18,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:40<00:16,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:41<00:15,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:43<00:14,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:44<00:13,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:46<00:11,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:47<00:10,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:49<00:08,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:50<00:07,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:52<00:06,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:53<00:04,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:55<00:03,  1.55s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:56<00:01,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:58<00:00,  1.54s/it][A
+make_experience: 100%|██████████| 128/128 [02:58<00:00,  1.39s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nHow visually aligned is this with the prompt: "half black character, illustration, portrait"?\nPlease evaluate how well the image matches each element of provided prompt.\n\n And answer with the final alignment rating.\nRate it from 0 to 5 (float, 2 decimals). A rating of 0 represents very poor alignment level, while 5 represents excellent alignment level.\'\nassistant\n<think> The image depicts a character with dark skin, which aligns with the element of "half black character." The style is an illustration, and the composition is a portrait. The elements of the prompt are well-represented, but the term "half black character" might be slightly misleading if the image implies a full representation of a black individual. However, the overall alignment with the provided prompt is quite close.</think>\n<answer>4.00</answer>']
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:28:02 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.27 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:28:02 [executor_base.py:208] It took 1.666023 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("min_pixels" 3136[32m [repeated 4x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("max_pixels" 1254400[32m [repeated 4x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=-0.137, rm=0.875, ret=0.116, glen=172, tlen=889, kl=0.25, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:22,  2.54s/it, pg=-0.137, rm=0.875, ret=0.116, glen=172, tlen=889, kl=0.25, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:04<05:22,  2.54s/it, pg=0.125, rm=0.875, ret=-0.144, glen=153, tlen=767, kl=0.265, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:04<04:59,  2.37s/it, pg=0.125, rm=0.875, ret=-0.144, glen=153, tlen=767, kl=0.265, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:06<04:59,  2.37s/it, pg=0.0198, rm=0.875, ret=-0.0373, glen=151, tlen=1.06e+3, kl=0.25, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:06<04:46,  2.29s/it, pg=0.0198, rm=0.875, ret=-0.0373, glen=151, tlen=1.06e+3, kl=0.25, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<04:46,  2.29s/it, pg=0.135, rm=1, ret=-0.153, glen=167, tlen=786, kl=0.248, act_lr=9.59e-7]         [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:37,  2.24s/it, pg=0.135, rm=1, ret=-0.153, glen=167, tlen=786, kl=0.248, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:37,  2.24s/it, pg=-0.229, rm=1.12, ret=0.21, glen=156, tlen=887, kl=0.253, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:21,  2.13s/it, pg=-0.229, rm=1.12, ret=0.21, glen=156, tlen=887, kl=0.253, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:21,  2.13s/it, pg=0.187, rm=0.875, ret=-0.207, glen=169, tlen=800, kl=0.246, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:24,  2.17s/it, pg=0.187, rm=0.875, ret=-0.207, glen=169, tlen=800, kl=0.246, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:24,  2.17s/it, pg=-0.0105, rm=1.25, ret=-0.00929, glen=151, tlen=970, kl=0.269, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:16,  2.12s/it, pg=-0.0105, rm=1.25, ret=-0.00929, glen=151, tlen=970, kl=0.269, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:25<04:16,  2.12s/it, pg=0.0152, rm=0.938, ret=-0.0351, glen=158, tlen=928, kl=0.28, act_lr=9.59e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:25<09:16,  4.63s/it, pg=0.0152, rm=0.938, ret=-0.0351, glen=158, tlen=928, kl=0.28, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:27<09:16,  4.63s/it, pg=0.0193, rm=0.875, ret=-0.039, glen=150, tlen=1.06e+3, kl=0.261, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:27<07:47,  3.93s/it, pg=0.0193, rm=0.875, ret=-0.039, glen=150, tlen=1.06e+3, kl=0.261, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:29<07:47,  3.93s/it, pg=0.0527, rm=1, ret=-0.0727, glen=153, tlen=928, kl=0.285, act_lr=9.59e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:29<06:40,  3.40s/it, pg=0.0527, rm=1, ret=-0.0727, glen=153, tlen=928, kl=0.285, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:32<06:40,  3.40s/it, pg=0.0415, rm=0.812, ret=-0.0605, glen=164, tlen=831, kl=0.251, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:32<06:08,  3.15s/it, pg=0.0415, rm=0.812, ret=-0.0605, glen=164, tlen=831, kl=0.251, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:34<06:08,  3.15s/it, pg=-0.105, rm=1.25, ret=0.0849, glen=156, tlen=850, kl=0.268, act_lr=9.59e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:34<05:22,  2.78s/it, pg=-0.105, rm=1.25, ret=0.0849, glen=156, tlen=850, kl=0.268, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:36<05:22,  2.78s/it, pg=-0.046, rm=0.938, ret=0.0264, glen=151, tlen=1.13e+3, kl=0.264, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<05:02,  2.63s/it, pg=-0.046, rm=0.938, ret=0.0264, glen=151, tlen=1.13e+3, kl=0.264, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:38<05:02,  2.63s/it, pg=-0.263, rm=0.812, ret=0.245, glen=155, tlen=991, kl=0.256, act_lr=9.59e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:39,  2.46s/it, pg=-0.263, rm=0.812, ret=0.245, glen=155, tlen=991, kl=0.256, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:40<04:39,  2.46s/it, pg=-0.0148, rm=1.12, ret=-0.00515, glen=160, tlen=901, kl=0.273, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:40<04:28,  2.38s/it, pg=-0.0148, rm=1.12, ret=-0.00515, glen=160, tlen=901, kl=0.273, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:50<04:28,  2.38s/it, pg=-0.123, rm=1.19, ret=0.105, glen=147, tlen=839, kl=0.272, act_lr=9.59e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:38,  4.63s/it, pg=-0.123, rm=1.19, ret=0.105, glen=147, tlen=839, kl=0.272, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:52<08:38,  4.63s/it, pg=0.113, rm=1.06, ret=-0.129, glen=142, tlen=956, kl=0.248, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<07:10,  3.88s/it, pg=0.113, rm=1.06, ret=-0.129, glen=142, tlen=956, kl=0.248, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:55<07:10,  3.88s/it, pg=0.313, rm=0.812, ret=-0.331, glen=150, tlen=1.06e+3, kl=0.263, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:55<06:05,  3.33s/it, pg=0.313, rm=0.812, ret=-0.331, glen=150, tlen=1.06e+3, kl=0.263, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:57<06:05,  3.33s/it, pg=-0.152, rm=0.875, ret=0.132, glen=160, tlen=1.01e+3, kl=0.257, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:57<05:22,  2.96s/it, pg=-0.152, rm=0.875, ret=0.132, glen=160, tlen=1.01e+3, kl=0.257, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:59<05:22,  2.96s/it, pg=0.198, rm=1.19, ret=-0.218, glen=156, tlen=791, kl=0.271, act_lr=9.59e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:59<04:52,  2.71s/it, pg=0.198, rm=1.19, ret=-0.218, glen=156, tlen=791, kl=0.271, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:01<04:52,  2.71s/it, pg=0.0341, rm=1, ret=-0.0525, glen=149, tlen=1.08e+3, kl=0.262, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:01<04:36,  2.59s/it, pg=0.0341, rm=1, ret=-0.0525, glen=149, tlen=1.08e+3, kl=0.262, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:03<04:36,  2.59s/it, pg=0.0857, rm=1, ret=-0.105, glen=158, tlen=899, kl=0.247, act_lr=9.59e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:03<04:17,  2.43s/it, pg=0.0857, rm=1, ret=-0.105, glen=158, tlen=899, kl=0.247, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:06<04:17,  2.43s/it, pg=-0.0272, rm=0.688, ret=0.01, glen=145, tlen=961, kl=0.239, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:06<04:20,  2.48s/it, pg=-0.0272, rm=0.688, ret=0.01, glen=145, tlen=961, kl=0.239, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:16<04:20,  2.48s/it, pg=0.0814, rm=0.938, ret=-0.0972, glen=174, tlen=927, kl=0.223, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:16<08:07,  4.69s/it, pg=0.0814, rm=0.938, ret=-0.0972, glen=174, tlen=927, kl=0.223, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:18<08:07,  4.69s/it, pg=0.265, rm=1.16, ret=-0.284, glen=155, tlen=710, kl=0.266, act_lr=9.59e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:18<06:46,  3.94s/it, pg=0.265, rm=1.16, ret=-0.284, glen=155, tlen=710, kl=0.266, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:20<06:46,  3.94s/it, pg=-0.0537, rm=1.12, ret=0.0318, glen=165, tlen=733, kl=0.28, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:20<05:38,  3.31s/it, pg=-0.0537, rm=1.12, ret=0.0318, glen=165, tlen=733, kl=0.28, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:22<05:38,  3.31s/it, pg=-0.146, rm=1.12, ret=0.126, glen=157, tlen=777, kl=0.268, act_lr=9.59e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:22<05:00,  2.97s/it, pg=-0.146, rm=1.12, ret=0.126, glen=157, tlen=777, kl=0.268, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:24<05:00,  2.97s/it, pg=-0.256, rm=1.12, ret=0.237, glen=155, tlen=769, kl=0.264, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:24<04:22,  2.63s/it, pg=-0.256, rm=1.12, ret=0.237, glen=155, tlen=769, kl=0.264, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:26<04:22,  2.63s/it, pg=0.116, rm=1, ret=-0.137, glen=162, tlen=795, kl=0.277, act_lr=9.59e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:26<04:05,  2.48s/it, pg=0.116, rm=1, ret=-0.137, glen=162, tlen=795, kl=0.277, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:28<04:05,  2.48s/it, pg=-0.0558, rm=1.12, ret=0.0368, glen=159, tlen=989, kl=0.262, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:28<03:46,  2.31s/it, pg=-0.0558, rm=1.12, ret=0.0368, glen=159, tlen=989, kl=0.262, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:30<03:46,  2.31s/it, pg=-0.0425, rm=1.19, ret=0.022, glen=163, tlen=718, kl=0.279, act_lr=9.59e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:30<03:38,  2.25s/it, pg=-0.0425, rm=1.19, ret=0.022, glen=163, tlen=718, kl=0.279, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:40<03:38,  2.25s/it, pg=-0.116, rm=1.12, ret=0.101, glen=133, tlen=1.07e+3, kl=0.235, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:40<07:20,  4.59s/it, pg=-0.116, rm=1.12, ret=0.101, glen=133, tlen=1.07e+3, kl=0.235, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:42<07:20,  4.59s/it, pg=0.0652, rm=1.06, ret=-0.0833, glen=144, tlen=833, kl=0.26, act_lr=9.59e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:42<05:59,  3.79s/it, pg=0.0652, rm=1.06, ret=-0.0833, glen=144, tlen=833, kl=0.26, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:44<05:59,  3.79s/it, pg=0.0451, rm=1.12, ret=-0.0628, glen=144, tlen=900, kl=0.26, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:44<05:07,  3.27s/it, pg=0.0451, rm=1.12, ret=-0.0628, glen=144, tlen=900, kl=0.26, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:46<05:07,  3.27s/it, pg=0.116, rm=1.06, ret=-0.135, glen=144, tlen=784, kl=0.283, act_lr=9.59e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:46<04:38,  2.99s/it, pg=0.116, rm=1.06, ret=-0.135, glen=144, tlen=784, kl=0.283, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:48<04:38,  2.99s/it, pg=0.0778, rm=0.875, ret=-0.0937, glen=142, tlen=972, kl=0.252, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:48<04:13,  2.75s/it, pg=0.0778, rm=0.875, ret=-0.0937, glen=142, tlen=972, kl=0.252, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:50<04:13,  2.75s/it, pg=0.0904, rm=0.938, ret=-0.11, glen=160, tlen=1.19e+3, kl=0.262, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:50<03:52,  2.56s/it, pg=0.0904, rm=0.938, ret=-0.11, glen=160, tlen=1.19e+3, kl=0.262, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:53<03:52,  2.56s/it, pg=-0.122, rm=1, ret=0.103, glen=155, tlen=944, kl=0.256, act_lr=9.59e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:53<03:44,  2.50s/it, pg=-0.122, rm=1, ret=0.103, glen=155, tlen=944, kl=0.256, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:55<03:44,  2.50s/it, pg=-0.242, rm=0.812, ret=0.223, glen=153, tlen=1.06e+3, kl=0.259, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:55<03:32,  2.39s/it, pg=-0.242, rm=0.812, ret=0.223, glen=153, tlen=1.06e+3, kl=0.259, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:05<03:32,  2.39s/it, pg=0.0138, rm=1.19, ret=-0.0327, glen=150, tlen=705, kl=0.266, act_lr=9.59e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:05<06:49,  4.65s/it, pg=0.0138, rm=1.19, ret=-0.0327, glen=150, tlen=705, kl=0.266, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:07<06:49,  4.65s/it, pg=-0.11, rm=1.25, ret=0.0892, glen=152, tlen=672, kl=0.273, act_lr=9.59e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:07<05:31,  3.81s/it, pg=-0.11, rm=1.25, ret=0.0892, glen=152, tlen=672, kl=0.273, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:09<05:31,  3.81s/it, pg=-0.0416, rm=0.875, ret=0.023, glen=146, tlen=910, kl=0.262, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:09<04:45,  3.32s/it, pg=-0.0416, rm=0.875, ret=0.023, glen=146, tlen=910, kl=0.262, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:11<04:45,  3.32s/it, pg=0.0148, rm=1.19, ret=-0.0346, glen=151, tlen=671, kl=0.267, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:11<04:04,  2.87s/it, pg=0.0148, rm=1.19, ret=-0.0346, glen=151, tlen=671, kl=0.267, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:13<04:04,  2.87s/it, pg=-0.299, rm=1, ret=0.281, glen=146, tlen=1124.5, kl=0.244, act_lr=9.59e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:13<03:45,  2.69s/it, pg=-0.299, rm=1, ret=0.281, glen=146, tlen=1124.5, kl=0.244, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:15<03:45,  2.69s/it, pg=0.347, rm=0.812, ret=-0.361, glen=158, tlen=891, kl=0.216, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:15<03:22,  2.44s/it, pg=0.347, rm=0.812, ret=-0.361, glen=158, tlen=891, kl=0.216, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:17<03:22,  2.44s/it, pg=-0.0861, rm=0.938, ret=0.0683, glen=148, tlen=1.18e+3, kl=0.264, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:17<03:16,  2.40s/it, pg=-0.0861, rm=0.938, ret=0.0683, glen=148, tlen=1.18e+3, kl=0.264, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:20<03:16,  2.40s/it, pg=0.273, rm=0.875, ret=-0.29, glen=164, tlen=934, kl=0.274, act_lr=9.59e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:20<03:26,  2.55s/it, pg=0.273, rm=0.875, ret=-0.29, glen=164, tlen=934, kl=0.274, act_lr=9.59e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:33:36,092] [WARNING] [stage3.py:2139:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:30<03:26,  2.55s/it, pg=-0.0379, rm=1.19, ret=0.019, glen=148, tlen=957, kl=0.27, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:30<06:22,  4.79s/it, pg=-0.0379, rm=1.19, ret=0.019, glen=148, tlen=957, kl=0.27, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:32<06:22,  4.79s/it, pg=-0.0651, rm=0.812, ret=0.0474, glen=157, tlen=919, kl=0.243, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:32<05:10,  3.93s/it, pg=-0.0651, rm=0.812, ret=0.0474, glen=157, tlen=919, kl=0.243, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:34<05:10,  3.93s/it, pg=0.0188, rm=1.06, ret=-0.0394, glen=157, tlen=914, kl=0.264, act_lr=9.58e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:34<04:25,  3.41s/it, pg=0.0188, rm=1.06, ret=-0.0394, glen=157, tlen=914, kl=0.264, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:36<04:25,  3.41s/it, pg=-0.062, rm=1.12, ret=0.0427, glen=157, tlen=956, kl=0.279, act_lr=9.58e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:36<03:51,  3.01s/it, pg=-0.062, rm=1.12, ret=0.0427, glen=157, tlen=956, kl=0.279, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:38<03:51,  3.01s/it, pg=-0.017, rm=1, ret=-0.00117, glen=150, tlen=836, kl=0.265, act_lr=9.58e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:38<03:22,  2.67s/it, pg=-0.017, rm=1, ret=-0.00117, glen=150, tlen=836, kl=0.265, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:40<03:22,  2.67s/it, pg=0.0729, rm=0.938, ret=-0.0916, glen=158, tlen=888, kl=0.266, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:40<03:08,  2.51s/it, pg=0.0729, rm=0.938, ret=-0.0916, glen=158, tlen=888, kl=0.266, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:42<03:08,  2.51s/it, pg=0.3, rm=0.938, ret=-0.318, glen=151, tlen=734, kl=0.249, act_lr=9.58e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:42<02:51,  2.31s/it, pg=0.3, rm=0.938, ret=-0.318, glen=151, tlen=734, kl=0.249, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:44<02:51,  2.31s/it, pg=0.0639, rm=1.06, ret=-0.0836, glen=162, tlen=992, kl=0.253, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:44<02:44,  2.26s/it, pg=0.0639, rm=1.06, ret=-0.0836, glen=162, tlen=992, kl=0.253, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:53<02:44,  2.26s/it, pg=-0.00855, rm=1.31, ret=-0.0118, glen=158, tlen=649, kl=0.273, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:53<05:11,  4.33s/it, pg=-0.00855, rm=1.31, ret=-0.0118, glen=158, tlen=649, kl=0.273, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:56<05:11,  4.33s/it, pg=0.0919, rm=0.875, ret=-0.108, glen=142, tlen=1.12e+3, kl=0.24, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:56<04:20,  3.67s/it, pg=0.0919, rm=0.875, ret=-0.108, glen=142, tlen=1.12e+3, kl=0.24, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:58<04:20,  3.67s/it, pg=0.483, rm=0.812, ret=-0.501, glen=149, tlen=1.01e+3, kl=0.254, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:58<03:43,  3.19s/it, pg=0.483, rm=0.812, ret=-0.501, glen=149, tlen=1.01e+3, kl=0.254, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [03:00<03:43,  3.19s/it, pg=-0.0524, rm=1.06, ret=0.0342, glen=152, tlen=928, kl=0.246, act_lr=9.58e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:00<03:18,  2.88s/it, pg=-0.0524, rm=1.06, ret=0.0342, glen=152, tlen=928, kl=0.246, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:02<03:18,  2.88s/it, pg=0.00464, rm=1.25, ret=-0.0224, glen=144, tlen=808, kl=0.264, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:02<02:58,  2.63s/it, pg=0.00464, rm=1.25, ret=-0.0224, glen=144, tlen=808, kl=0.264, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:04<02:58,  2.63s/it, pg=-0.0168, rm=1.12, ret=-0.00223, glen=154, tlen=896, kl=0.264, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:04<02:47,  2.49s/it, pg=-0.0168, rm=1.12, ret=-0.00223, glen=154, tlen=896, kl=0.264, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:06<02:47,  2.49s/it, pg=-0.126, rm=1.19, ret=0.106, glen=145, tlen=838, kl=0.268, act_lr=9.58e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:06<02:37,  2.38s/it, pg=-0.126, rm=1.19, ret=0.106, glen=145, tlen=838, kl=0.268, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:08<02:37,  2.38s/it, pg=0.233, rm=0.938, ret=-0.251, glen=153, tlen=893, kl=0.269, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:08<02:28,  2.29s/it, pg=0.233, rm=0.938, ret=-0.251, glen=153, tlen=893, kl=0.269, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:18<02:28,  2.29s/it, pg=0.0872, rm=0.938, ret=-0.104, glen=154, tlen=1.05e+3, kl=0.242, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:18<04:56,  4.63s/it, pg=0.0872, rm=0.938, ret=-0.104, glen=154, tlen=1.05e+3, kl=0.242, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:20<04:56,  4.63s/it, pg=0.0745, rm=0.812, ret=-0.0935, glen=162, tlen=847, kl=0.26, act_lr=9.58e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:20<04:00,  3.82s/it, pg=0.0745, rm=0.812, ret=-0.0935, glen=162, tlen=847, kl=0.26, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:22<04:00,  3.82s/it, pg=0.0206, rm=0.812, ret=-0.0384, glen=150, tlen=1122.5, kl=0.255, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:22<03:28,  3.36s/it, pg=0.0206, rm=0.812, ret=-0.0384, glen=150, tlen=1122.5, kl=0.255, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:24<03:28,  3.36s/it, pg=0.0945, rm=0.938, ret=-0.114, glen=152, tlen=1.05e+3, kl=0.245, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:24<02:58,  2.92s/it, pg=0.0945, rm=0.938, ret=-0.114, glen=152, tlen=1.05e+3, kl=0.245, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:26<02:58,  2.92s/it, pg=-0.0113, rm=0.812, ret=-0.00726, glen=164, tlen=880, kl=0.255, act_lr=9.58e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:26<02:35,  2.60s/it, pg=-0.0113, rm=0.812, ret=-0.00726, glen=164, tlen=880, kl=0.255, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:28<02:35,  2.60s/it, pg=0.0512, rm=1, ret=-0.0722, glen=155, tlen=930, kl=0.278, act_lr=9.58e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:28<02:21,  2.40s/it, pg=0.0512, rm=1, ret=-0.0722, glen=155, tlen=930, kl=0.278, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:30<02:21,  2.40s/it, pg=-0.018, rm=1, ret=-0.000602, glen=163, tlen=850, kl=0.24, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:30<02:14,  2.32s/it, pg=-0.018, rm=1, ret=-0.000602, glen=163, tlen=850, kl=0.24, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:33<02:14,  2.32s/it, pg=0.064, rm=1.12, ret=-0.0803, glen=139, tlen=895, kl=0.268, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:33<02:11,  2.31s/it, pg=0.064, rm=1.12, ret=-0.0803, glen=139, tlen=895, kl=0.268, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:42<02:11,  2.31s/it, pg=-0.0653, rm=1.31, ret=0.0475, glen=136, tlen=729, kl=0.274, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:42<04:14,  4.54s/it, pg=-0.0653, rm=1.31, ret=0.0475, glen=136, tlen=729, kl=0.274, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:44<04:14,  4.54s/it, pg=0.225, rm=0.812, ret=-0.241, glen=153, tlen=936, kl=0.266, act_lr=9.58e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:44<03:29,  3.80s/it, pg=0.225, rm=0.812, ret=-0.241, glen=153, tlen=936, kl=0.266, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:46<03:29,  3.80s/it, pg=-0.0181, rm=1.19, ret=-0.00343, glen=170, tlen=823, kl=0.275, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:46<02:56,  3.27s/it, pg=-0.0181, rm=1.19, ret=-0.00343, glen=170, tlen=823, kl=0.275, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:49<02:56,  3.27s/it, pg=-0.0254, rm=1, ret=0.00642, glen=156, tlen=819, kl=0.252, act_lr=9.58e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:49<02:37,  2.96s/it, pg=-0.0254, rm=1, ret=0.00642, glen=156, tlen=819, kl=0.252, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:51<02:37,  2.96s/it, pg=0.0921, rm=0.938, ret=-0.112, glen=166, tlen=797, kl=0.264, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:51<02:17,  2.64s/it, pg=0.0921, rm=0.938, ret=-0.112, glen=166, tlen=797, kl=0.264, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:53<02:17,  2.64s/it, pg=0.143, rm=1, ret=-0.163, glen=151, tlen=1.01e+3, kl=0.27, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:53<02:07,  2.49s/it, pg=0.143, rm=1, ret=-0.163, glen=151, tlen=1.01e+3, kl=0.27, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:55<02:07,  2.49s/it, pg=-0.118, rm=0.938, ret=0.101, glen=143, tlen=858, kl=0.261, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:55<01:57,  2.36s/it, pg=-0.118, rm=0.938, ret=0.101, glen=143, tlen=858, kl=0.261, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:57<01:57,  2.36s/it, pg=0.191, rm=0.938, ret=-0.211, glen=156, tlen=932, kl=0.26, act_lr=9.58e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:57<01:48,  2.22s/it, pg=0.191, rm=0.938, ret=-0.211, glen=156, tlen=932, kl=0.26, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:06<01:48,  2.22s/it, pg=-0.0313, rm=1.25, ret=0.0122, glen=145, tlen=756, kl=0.284, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:06<03:31,  4.41s/it, pg=-0.0313, rm=1.25, ret=0.0122, glen=145, tlen=756, kl=0.284, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:09<03:31,  4.41s/it, pg=-0.135, rm=1.12, ret=0.117, glen=155, tlen=912, kl=0.261, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:09<02:58,  3.80s/it, pg=-0.135, rm=1.12, ret=0.117, glen=155, tlen=912, kl=0.261, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:11<02:58,  3.80s/it, pg=0.0188, rm=1.06, ret=-0.0385, glen=152, tlen=909, kl=0.268, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:11<02:30,  3.28s/it, pg=0.0188, rm=1.06, ret=-0.0385, glen=152, tlen=909, kl=0.268, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:12<02:30,  3.28s/it, pg=-0.0983, rm=1.06, ret=0.0814, glen=149, tlen=938, kl=0.248, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:12<02:08,  2.86s/it, pg=-0.0983, rm=1.06, ret=0.0814, glen=149, tlen=938, kl=0.248, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:15<02:08,  2.86s/it, pg=-0.00576, rm=1.06, ret=-0.0131, glen=155, tlen=861, kl=0.272, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:15<01:58,  2.70s/it, pg=-0.00576, rm=1.06, ret=-0.0131, glen=155, tlen=861, kl=0.272, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:17<01:58,  2.70s/it, pg=0.0583, rm=0.75, ret=-0.0751, glen=139, tlen=902, kl=0.255, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:17<01:45,  2.45s/it, pg=0.0583, rm=0.75, ret=-0.0751, glen=139, tlen=902, kl=0.255, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:19<01:45,  2.45s/it, pg=-0.091, rm=1.19, ret=0.0696, glen=168, tlen=896, kl=0.28, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:19<01:39,  2.38s/it, pg=-0.091, rm=1.19, ret=0.0696, glen=168, tlen=896, kl=0.28, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:21<01:39,  2.38s/it, pg=0.0191, rm=0.812, ret=-0.0351, glen=164, tlen=1.14e+3, kl=0.213, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:21<01:34,  2.31s/it, pg=0.0191, rm=0.812, ret=-0.0351, glen=164, tlen=1.14e+3, kl=0.213, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:31<01:34,  2.31s/it, pg=0.0556, rm=1.25, ret=-0.0723, glen=138, tlen=731, kl=0.253, act_lr=9.58e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:31<03:03,  4.59s/it, pg=0.0556, rm=1.25, ret=-0.0723, glen=138, tlen=731, kl=0.253, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:33<03:03,  4.59s/it, pg=-0.0623, rm=1.06, ret=0.043, glen=146, tlen=955, kl=0.27, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:33<02:30,  3.85s/it, pg=-0.0623, rm=1.06, ret=0.043, glen=146, tlen=955, kl=0.27, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:35<02:30,  3.85s/it, pg=0.073, rm=1.19, ret=-0.0911, glen=141, tlen=908, kl=0.27, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:35<02:05,  3.31s/it, pg=0.073, rm=1.19, ret=-0.0911, glen=141, tlen=908, kl=0.27, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:37<02:05,  3.31s/it, pg=0.323, rm=0.812, ret=-0.343, glen=154, tlen=1.13e+3, kl=0.248, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:37<01:48,  2.94s/it, pg=0.323, rm=0.812, ret=-0.343, glen=154, tlen=1.13e+3, kl=0.248, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:39<01:48,  2.94s/it, pg=0.0796, rm=0.938, ret=-0.098, glen=157, tlen=909, kl=0.252, act_lr=9.58e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:39<01:35,  2.66s/it, pg=0.0796, rm=0.938, ret=-0.098, glen=157, tlen=909, kl=0.252, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:42<01:35,  2.66s/it, pg=-0.0498, rm=1.25, ret=0.0315, glen=145, tlen=912, kl=0.259, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:42<01:29,  2.56s/it, pg=-0.0498, rm=1.25, ret=0.0315, glen=145, tlen=912, kl=0.259, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:44<01:29,  2.56s/it, pg=0.179, rm=0.688, ret=-0.196, glen=141, tlen=1.1e+3, kl=0.244, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:44<01:25,  2.50s/it, pg=0.179, rm=0.688, ret=-0.196, glen=141, tlen=1.1e+3, kl=0.244, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:46<01:25,  2.50s/it, pg=-0.0304, rm=1.25, ret=0.00961, glen=147, tlen=758, kl=0.298, act_lr=9.58e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:46<01:15,  2.30s/it, pg=-0.0304, rm=1.25, ret=0.00961, glen=147, tlen=758, kl=0.298, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:56<01:15,  2.30s/it, pg=-0.0645, rm=0.812, ret=0.0471, glen=158, tlen=921, kl=0.243, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:56<02:34,  4.82s/it, pg=-0.0645, rm=0.812, ret=0.0471, glen=158, tlen=921, kl=0.243, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:59<02:34,  4.82s/it, pg=-0.0731, rm=1.12, ret=0.0557, glen=151, tlen=1.14e+3, kl=0.254, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:59<02:04,  4.01s/it, pg=-0.0731, rm=1.12, ret=0.0557, glen=151, tlen=1.14e+3, kl=0.254, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [05:01<02:04,  4.01s/it, pg=-0.0559, rm=1.12, ret=0.0348, glen=158, tlen=725, kl=0.275, act_lr=9.58e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:01<01:44,  3.49s/it, pg=-0.0559, rm=1.12, ret=0.0348, glen=158, tlen=725, kl=0.275, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:03<01:44,  3.49s/it, pg=0.174, rm=0.875, ret=-0.191, glen=163, tlen=898, kl=0.246, act_lr=9.58e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:03<01:27,  3.00s/it, pg=0.174, rm=0.875, ret=-0.191, glen=163, tlen=898, kl=0.246, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:05<01:27,  3.00s/it, pg=-0.0749, rm=1.19, ret=0.0577, glen=142, tlen=898, kl=0.274, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:05<01:16,  2.72s/it, pg=-0.0749, rm=1.19, ret=0.0577, glen=142, tlen=898, kl=0.274, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:07<01:16,  2.72s/it, pg=0.0756, rm=0.875, ret=-0.094, glen=149, tlen=988, kl=0.275, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:07<01:08,  2.53s/it, pg=0.0756, rm=0.875, ret=-0.094, glen=149, tlen=988, kl=0.275, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:09<01:08,  2.53s/it, pg=-0.1, rm=1.19, ret=0.0822, glen=145, tlen=802, kl=0.268, act_lr=9.58e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:09<01:02,  2.38s/it, pg=-0.1, rm=1.19, ret=0.0822, glen=145, tlen=802, kl=0.268, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:11<01:02,  2.38s/it, pg=-0.0305, rm=0.938, ret=0.0116, glen=152, tlen=935, kl=0.265, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:11<00:56,  2.26s/it, pg=-0.0305, rm=0.938, ret=0.0116, glen=152, tlen=935, kl=0.265, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:21<00:56,  2.26s/it, pg=-0.0012, rm=0.938, ret=-0.0167, glen=153, tlen=947, kl=0.251, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:21<01:47,  4.50s/it, pg=-0.0012, rm=0.938, ret=-0.0167, glen=153, tlen=947, kl=0.251, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:23<01:47,  4.50s/it, pg=0.0759, rm=1.06, ret=-0.0936, glen=155, tlen=985, kl=0.268, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:23<01:27,  3.80s/it, pg=0.0759, rm=1.06, ret=-0.0936, glen=155, tlen=985, kl=0.268, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:25<01:27,  3.80s/it, pg=-0.0835, rm=0.938, ret=0.0667, glen=152, tlen=884, kl=0.26, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:25<01:10,  3.21s/it, pg=-0.0835, rm=0.938, ret=0.0667, glen=152, tlen=884, kl=0.26, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:27<01:10,  3.21s/it, pg=0.235, rm=0.938, ret=-0.255, glen=150, tlen=837, kl=0.286, act_lr=9.58e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:27<01:01,  2.95s/it, pg=0.235, rm=0.938, ret=-0.255, glen=150, tlen=837, kl=0.286, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:29<01:01,  2.95s/it, pg=0.391, rm=1.06, ret=-0.408, glen=167, tlen=722, kl=0.267, act_lr=9.58e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:29<00:52,  2.61s/it, pg=0.391, rm=1.06, ret=-0.408, glen=167, tlen=722, kl=0.267, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:31<00:52,  2.61s/it, pg=-0.0556, rm=0.875, ret=0.0368, glen=174, tlen=859, kl=0.244, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:31<00:49,  2.59s/it, pg=-0.0556, rm=0.875, ret=0.0368, glen=174, tlen=859, kl=0.244, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:33<00:49,  2.59s/it, pg=-0.0964, rm=1.06, ret=0.079, glen=158, tlen=948, kl=0.248, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:33<00:42,  2.37s/it, pg=-0.0964, rm=1.06, ret=0.079, glen=158, tlen=948, kl=0.248, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:35<00:42,  2.37s/it, pg=-0.0376, rm=1.12, ret=0.0186, glen=157, tlen=845, kl=0.265, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:35<00:37,  2.22s/it, pg=-0.0376, rm=1.12, ret=0.0186, glen=157, tlen=845, kl=0.265, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:44<00:37,  2.22s/it, pg=-0.246, rm=1.06, ret=0.228, glen=157, tlen=806, kl=0.263, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:44<01:10,  4.39s/it, pg=-0.246, rm=1.06, ret=0.228, glen=157, tlen=806, kl=0.263, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:46<01:10,  4.39s/it, pg=-0.064, rm=0.812, ret=0.0456, glen=144, tlen=906, kl=0.276, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:46<00:54,  3.65s/it, pg=-0.064, rm=0.812, ret=0.0456, glen=144, tlen=906, kl=0.276, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:48<00:54,  3.65s/it, pg=0.115, rm=0.75, ret=-0.132, glen=161, tlen=878, kl=0.221, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:48<00:44,  3.19s/it, pg=0.115, rm=0.75, ret=-0.132, glen=161, tlen=878, kl=0.221, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:51<00:44,  3.19s/it, pg=-0.143, rm=0.812, ret=0.124, glen=168, tlen=1e+3, kl=0.249, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:51<00:38,  2.93s/it, pg=-0.143, rm=0.812, ret=0.124, glen=168, tlen=1e+3, kl=0.249, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:53<00:38,  2.93s/it, pg=0.178, rm=0.75, ret=-0.195, glen=152, tlen=868, kl=0.269, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:53<00:31,  2.60s/it, pg=0.178, rm=0.75, ret=-0.195, glen=152, tlen=868, kl=0.269, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:55<00:31,  2.60s/it, pg=0.134, rm=0.875, ret=-0.151, glen=161, tlen=1e+3, kl=0.25, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:55<00:27,  2.54s/it, pg=0.134, rm=0.875, ret=-0.151, glen=161, tlen=1e+3, kl=0.25, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:57<00:27,  2.54s/it, pg=-0.051, rm=0.812, ret=0.0373, glen=153, tlen=1036.75, kl=0.197, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:57<00:24,  2.40s/it, pg=-0.051, rm=0.812, ret=0.0373, glen=153, tlen=1036.75, kl=0.197, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:59<00:24,  2.40s/it, pg=0.179, rm=1, ret=-0.196, glen=133, tlen=1.12e+3, kl=0.292, act_lr=9.58e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:59<00:21,  2.35s/it, pg=0.179, rm=1, ret=-0.196, glen=133, tlen=1.12e+3, kl=0.292, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:09<00:21,  2.35s/it, pg=0.141, rm=0.875, ret=-0.16, glen=162, tlen=801, kl=0.256, act_lr=9.58e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:09<00:36,  4.53s/it, pg=0.141, rm=0.875, ret=-0.16, glen=162, tlen=801, kl=0.256, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:11<00:36,  4.53s/it, pg=0.0954, rm=0.938, ret=-0.11, glen=159, tlen=1.05e+3, kl=0.237, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:11<00:26,  3.76s/it, pg=0.0954, rm=0.938, ret=-0.11, glen=159, tlen=1.05e+3, kl=0.237, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:13<00:26,  3.76s/it, pg=-0.279, rm=0.938, ret=0.268, glen=130, tlen=1.14e+3, kl=0.248, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:13<00:19,  3.25s/it, pg=-0.279, rm=0.938, ret=0.268, glen=130, tlen=1.14e+3, kl=0.248, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:15<00:19,  3.25s/it, pg=0.00411, rm=1.06, ret=-0.0242, glen=155, tlen=837, kl=0.272, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:15<00:14,  2.84s/it, pg=0.00411, rm=1.06, ret=-0.0242, glen=155, tlen=837, kl=0.272, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:17<00:14,  2.84s/it, pg=0.159, rm=0.625, ret=-0.176, glen=145, tlen=961, kl=0.259, act_lr=9.58e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:17<00:10,  2.60s/it, pg=0.159, rm=0.625, ret=-0.176, glen=145, tlen=961, kl=0.259, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:19<00:10,  2.60s/it, pg=0.0378, rm=0.938, ret=-0.0587, glen=167, tlen=799, kl=0.288, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:19<00:07,  2.38s/it, pg=0.0378, rm=0.938, ret=-0.0587, glen=167, tlen=799, kl=0.288, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:21<00:07,  2.38s/it, pg=0.00383, rm=1.12, ret=-0.0217, glen=151, tlen=907, kl=0.262, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:21<00:04,  2.36s/it, pg=0.00383, rm=1.12, ret=-0.0217, glen=151, tlen=907, kl=0.262, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:23<00:04,  2.36s/it, pg=0.165, rm=1.12, ret=-0.179, glen=154, tlen=847, kl=0.285, act_lr=9.58e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:23<00:02,  2.21s/it, pg=0.165, rm=1.12, ret=-0.179, glen=154, tlen=847, kl=0.285, act_lr=9.58e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:33<00:02,  2.21s/it, pg=-0.0867, rm=1.12, ret=0.0683, glen=167, tlen=867, kl=0.255, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:33<00:00,  4.45s/it, pg=-0.0867, rm=1.12, ret=0.0683, glen=167, tlen=867, kl=0.255, act_lr=9.57e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:33<00:00,  3.07s/it, pg=-0.0867, rm=1.12, ret=0.0683, glen=167, tlen=867, kl=0.255, act_lr=9.57e-7]
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 11:37:40 [executor_base.py:219] It took 1.383073 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279378)[0m INFO 05-28 11:37:42 [executor_base.py:219] It took 3.240496 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3271x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.12.self_attn.k_proj.weight, dtype: torch.bfloat16, shape: torch.Size([512, 3584])[32m [repeated 955x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.21.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 940x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 11:38:03 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.40 GiB memory is still in use.
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 11:38:03 [executor_base.py:208] It took 1.345840 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 607x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   1%|          | 1/127 [24:45<27:01:55, 772.35s/it, policy_loss=0.0215, actor_lr=9.58e-7, kl=0.26, reward=1, response_length=154, total_length=909, acc_rewards=0.501, format_rewards=0.5, return=-0.04]    
+Episode [1/2]:   2%|▏         | 2/127 [24:46<25:37:09, 737.84s/it, policy_loss=0.0215, actor_lr=9.58e-7, kl=0.26, reward=1, response_length=154, total_length=909, acc_rewards=0.501, format_rewards=0.5, return=-0.04]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:38:05 [executor_base.py:219] It took 1.521083 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   0%|          | 1/256 [00:19<1:23:21, 19.61s/it, est. speed input: 78.37 toks/s, output: 4.79 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   1%|          | 3/256 [00:19<21:42,  5.15s/it, est. speed input: 175.09 toks/s, output: 14.56 toks/s]
+Processed prompts:   2%|▏         | 5/256 [00:19<10:35,  2.53s/it, est. speed input: 213.15 toks/s, output: 24.56 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:20<06:10,  1.49s/it, est. speed input: 251.19 toks/s, output: 34.64 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   4%|▎         | 9/256 [00:20<03:56,  1.04it/s, est. speed input: 288.09 toks/s, output: 44.93 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   5%|▍         | 12/256 [00:20<02:14,  1.82it/s, est. speed input: 400.31 toks/s, output: 60.83 toks/s]
+Processed prompts:   7%|▋         | 17/256 [00:20<01:06,  3.58it/s, est. speed input: 493.56 toks/s, output: 87.93 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   8%|▊         | 21/256 [00:20<00:46,  5.03it/s, est. speed input: 563.77 toks/s, output: 109.28 toks/s]
+Processed prompts:  11%|█         | 28/256 [00:20<00:25,  8.97it/s, est. speed input: 692.01 toks/s, output: 149.35 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  14%|█▍        | 36/256 [00:20<00:15, 14.47it/s, est. speed input: 892.90 toks/s, output: 195.92 toks/s]
+Processed prompts:  16%|█▋        | 42/256 [00:21<00:11, 18.72it/s, est. speed input: 998.52 toks/s, output: 231.11 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  20%|█▉        | 50/256 [00:21<00:07, 25.87it/s, est. speed input: 1208.93 toks/s, output: 279.07 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  25%|██▌       | 64/256 [00:21<00:04, 39.99it/s, est. speed input: 1728.59 toks/s, output: 364.63 toks/s]
+Processed prompts:  30%|███       | 77/256 [00:21<00:03, 54.12it/s, est. speed input: 2238.37 toks/s, output: 445.74 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  36%|███▌      | 91/256 [00:21<00:02, 70.22it/s, est. speed input: 2705.21 toks/s, output: 534.71 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  42%|████▏     | 107/256 [00:21<00:01, 83.97it/s, est. speed input: 3065.18 toks/s, output: 637.57 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  48%|████▊     | 124/256 [00:21<00:01, 97.16it/s, est. speed input: 3563.34 toks/s, output: 748.96 toks/s]
+Processed prompts:  56%|█████▌    | 143/256 [00:21<00:00, 116.86it/s, est. speed input: 3970.04 toks/s, output: 876.83 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  64%|██████▍   | 164/256 [00:22<00:00, 132.42it/s, est. speed input: 4442.86 toks/s, output: 1020.79 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  75%|███████▍  | 191/256 [00:22<00:00, 162.04it/s, est. speed input: 5188.22 toks/s, output: 1212.50 toks/s]
+Processed prompts:  83%|████████▎ | 213/256 [00:22<00:00, 168.89it/s, est. speed input: 5638.31 toks/s, output: 1370.94 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  90%|█████████ | 231/256 [00:22<00:00, 151.86it/s, est. speed input: 6067.54 toks/s, output: 1501.57 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  97%|█████████▋| 248/256 [00:22<00:00, 105.67it/s, est. speed input: 6403.76 toks/s, output: 1623.43 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:23<00:00, 11.08it/s, est. speed input: 6477.48 toks/s, output: 1667.57 toks/s] 
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 1/256 [00:20<1:28:57, 20.93s/it, est. speed input: 74.06 toks/s, output: 2.48 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   0%|          | 1/256 [00:21<1:30:56, 21.40s/it, est. speed input: 24.07 toks/s, output: 3.83 toks/s]
+Processed prompts:   1%|          | 2/256 [00:21<37:56,  8.96s/it, est. speed input: 47.56 toks/s, output: 7.85 toks/s]  
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   4%|▍         | 10/256 [00:22<03:30,  1.17it/s, est. speed input: 231.07 toks/s, output: 41.51 toks/s]
+Processed prompts:   5%|▍         | 12/256 [00:22<02:30,  1.62it/s, est. speed input: 274.37 toks/s, output: 50.09 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  12%|█▏        | 31/256 [00:22<00:21, 10.23it/s, est. speed input: 788.07 toks/s, output: 139.05 toks/s]
+Processed prompts:  15%|█▍        | 38/256 [00:22<00:13, 15.76it/s, est. speed input: 1014.53 toks/s, output: 173.64 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  90%|████████▉ | 230/256 [00:24<00:00, 109.30it/s, est. speed input: 6031.72 toks/s, output: 1330.23 toks/s]
+Processed prompts:  95%|█████████▍| 242/256 [00:25<00:00, 94.97it/s, est. speed input: 6237.30 toks/s, output: 1415.64 toks/s] 
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  98%|█████████▊| 252/256 [00:25<00:00, 79.87it/s, est. speed input: 6435.31 toks/s, output: 1489.71 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  69%|██████▉   | 177/256 [00:26<00:00, 123.06it/s, est. speed input: 4903.03 toks/s, output: 978.95 toks/s][32m [repeated 33x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:25<00:00, 43.01it/s, est. speed input: 6264.32 toks/s, output: 1572.81 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [00:25<00:00,  9.91it/s, est. speed input: 6264.32 toks/s, output: 1572.81 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  75%|███████▍  | 191/256 [00:26<00:00, 124.32it/s, est. speed input: 5232.89 toks/s, output: 1069.40 toks/s]
+Processed prompts:  80%|████████  | 205/256 [00:26<00:00, 128.42it/s, est. speed input: 5535.06 toks/s, output: 1162.20 toks/s][32m [repeated 20x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.37it/s, est. speed input: 6360.24 toks/s, output: 1492.26 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  21%|██        | 54/256 [00:25<00:09, 20.31it/s, est. speed input: 2268.03 toks/s, output: 223.06 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  30%|███       | 78/256 [00:25<00:04, 39.65it/s, est. speed input: 3041.33 toks/s, output: 338.42 toks/s]
+Processed prompts:  33%|███▎      | 84/256 [00:25<00:03, 43.23it/s, est. speed input: 3174.07 toks/s, output: 368.29 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:32<00:00, 32.37it/s, est. speed input: 6505.87 toks/s, output: 1165.95 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:32<00:00,  7.87it/s, est. speed input: 6505.87 toks/s, output: 1165.95 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  96%|█████████▌| 245/256 [00:31<00:00, 91.88it/s, est. speed input: 6526.80 toks/s, output: 1123.41 toks/s] [32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  91%|█████████ | 232/256 [00:31<00:00, 115.09it/s, est. speed input: 6370.48 toks/s, output: 1090.22 toks/s][32m [repeated 26x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  71%|███████▏  | 183/256 [00:30<00:00, 126.73it/s, est. speed input: 5408.96 toks/s, output: 826.63 toks/s]
+Processed prompts:  78%|███████▊  | 200/256 [00:31<00:00, 134.91it/s, est. speed input: 5766.96 toks/s, output: 916.53 toks/s][32m [repeated 16x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:32<00:00,  7.88it/s, est. speed input: 6589.72 toks/s, output: 1205.90 toks/s] [32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 1/256 [00:27<1:56:19, 27.37s/it, est. speed input: 56.34 toks/s, output: 2.37 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   3%|▎         | 8/256 [00:28<06:55,  1.68s/it, est. speed input: 437.87 toks/s, output: 21.58 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   1%|          | 2/256 [00:27<48:36, 11.48s/it, est. speed input: 111.22 toks/s, output: 4.98 toks/s] 
+Processed prompts:   2%|▏         | 5/256 [00:27<13:51,  3.31s/it, est. speed input: 275.83 toks/s, output: 13.06 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   4%|▍         | 10/256 [00:28<04:48,  1.17s/it, est. speed input: 542.25 toks/s, output: 27.60 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   5%|▌         | 14/256 [00:28<02:35,  1.56it/s, est. speed input: 752.34 toks/s, output: 40.03 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   6%|▋         | 16/256 [00:28<01:58,  2.02it/s, est. speed input: 856.02 toks/s, output: 46.60 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   8%|▊         | 20/256 [00:29<01:11,  3.28it/s, est. speed input: 1024.18 toks/s, output: 60.10 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   9%|▊         | 22/256 [00:29<00:59,  3.93it/s, est. speed input: 1045.15 toks/s, output: 67.00 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  11%|█▏        | 29/256 [00:29<00:29,  7.62it/s, est. speed input: 1368.02 toks/s, output: 92.27 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  13%|█▎        | 34/256 [00:29<00:20, 10.64it/s, est. speed input: 1585.23 toks/s, output: 110.84 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  15%|█▌        | 39/256 [00:29<00:16, 13.50it/s, est. speed input: 1797.81 toks/s, output: 129.54 toks/s]
+Processed prompts:  18%|█▊        | 46/256 [00:29<00:10, 19.37it/s, est. speed input: 2037.91 toks/s, output: 156.90 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  21%|██        | 53/256 [00:29<00:07, 25.53it/s, est. speed input: 2275.94 toks/s, output: 184.80 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  23%|██▎       | 58/256 [00:30<00:07, 26.78it/s, est. speed input: 2368.05 toks/s, output: 204.55 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  27%|██▋       | 70/256 [00:30<00:04, 41.67it/s, est. speed input: 2820.90 toks/s, output: 254.69 toks/s]
+Processed prompts:  32%|███▏      | 81/256 [00:30<00:03, 53.45it/s, est. speed input: 3055.97 toks/s, output: 301.30 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  37%|███▋      | 94/256 [00:30<00:02, 68.59it/s, est. speed input: 3414.10 toks/s, output: 357.59 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  40%|████      | 103/256 [00:30<00:02, 62.76it/s, est. speed input: 3590.52 toks/s, output: 396.31 toks/s]
+Processed prompts:  46%|████▌     | 118/256 [00:30<00:01, 81.75it/s, est. speed input: 3865.98 toks/s, output: 464.66 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  52%|█████▏    | 132/256 [00:30<00:01, 90.25it/s, est. speed input: 4109.50 toks/s, output: 529.35 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  57%|█████▋    | 145/256 [00:30<00:01, 97.45it/s, est. speed input: 4418.57 toks/s, output: 590.47 toks/s]
+Processed prompts:  62%|██████▎   | 160/256 [00:31<00:00, 109.70it/s, est. speed input: 4757.64 toks/s, output: 662.95 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  67%|██████▋   | 172/256 [00:31<00:00, 106.16it/s, est. speed input: 5042.81 toks/s, output: 721.42 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  72%|███████▏  | 184/256 [00:31<00:00, 105.17it/s, est. speed input: 5250.42 toks/s, output: 781.49 toks/s]
+Processed prompts:  76%|███████▌  | 195/256 [00:31<00:00, 98.49it/s, est. speed input: 5463.35 toks/s, output: 837.15 toks/s] 
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  80%|████████  | 206/256 [00:31<00:00, 100.69it/s, est. speed input: 5648.13 toks/s, output: 895.41 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  88%|████████▊ | 224/256 [00:31<00:00, 118.02it/s, est. speed input: 6061.38 toks/s, output: 994.18 toks/s]
+Processed prompts:  93%|█████████▎| 237/256 [00:31<00:00, 117.28it/s, est. speed input: 6335.02 toks/s, output: 1067.10 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:32<00:00,  7.86it/s, est. speed input: 6526.22 toks/s, output: 1159.81 toks/s][32m [repeated 2x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:38:03 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.33 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:38:03 [executor_base.py:208] It took 1.617582 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:38:06 [executor_base.py:219] It took 3.075089 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 853x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 853x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m  1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 927x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 927x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:39:58 [worker.py:133] Sleep mode freed 38.24 GiB memory, 22.49 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:39:58 [executor_base.py:208] It took 1.436647 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<03:02,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:56,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<03:03,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<02:59,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<02:55,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:50,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:09<02:45,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:42,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:43,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:14<02:47,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:15<02:42,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:16<02:42,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:18<02:40,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:19<02:38,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:20<02:37,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:22<02:40,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:23<02:35,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:25<02:31,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:26<02:29,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:27<02:27,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:29<02:27,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:30<02:27,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:32<02:23,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:33<02:27,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:36<03:12,  1.87s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:37<02:55,  1.72s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:39<02:42,  1.61s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:40<02:32,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:41<02:25,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:43<02:19,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:44<02:19,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:45<02:10,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:47<02:08,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:48<02:07,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:49<02:07,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:51<02:05,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:52<02:04,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:54<02:03,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:55<02:00,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:56<02:01,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:58<02:01,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:59<01:56,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [01:00<01:55,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [01:02<01:53,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [01:03<01:50,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:04<01:51,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:06<01:47,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:07<01:46,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:08<01:46,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:10<01:47,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:11<01:48,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:13<01:47,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:14<01:47,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:16<01:48,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:17<01:46,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:19<01:44,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:20<01:44,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:22<01:43,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:23<01:42,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:25<01:42,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:26<01:40,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:28<01:41,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:29<01:37,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:31<01:35,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:32<01:32,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:34<01:29,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:35<01:25,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:36<01:23,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:38<01:21,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:39<01:21,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:41<01:22,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:42<01:19,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:43<01:11,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:44<01:04,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:45<01:00,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:46<00:57,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:47<00:56,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:48<00:55,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:49<00:53,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:50<00:50,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:51<00:48,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:52<00:46,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:53<00:45,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:54<00:43,  1.01it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:55<00:42,  1.01it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:56<00:41,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:57<00:41,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:58<00:40,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:00<00:44,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:01<00:47,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:03<00:48,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:04<00:50,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:06<00:50,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:07<00:49,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:09<00:48,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:10<00:47,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:11<00:44,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:13<00:41,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:14<00:38,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:15<00:37,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:17<00:35,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:18<00:34,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:19<00:33,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:21<00:31,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:22<00:31,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:24<00:30,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:25<00:29,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:26<00:28,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:28<00:27,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:29<00:26,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:31<00:25,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:32<00:23,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:34<00:21,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:35<00:20,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:37<00:18,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:38<00:17,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:39<00:15,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:41<00:14,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:42<00:12,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:44<00:11,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:45<00:10,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:47<00:08,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:48<00:06,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:49<00:05,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:51<00:04,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:52<00:02,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:54<00:01,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:55<00:00,  1.48s/it][A
+make_experience: 100%|██████████| 128/128 [02:55<00:00,  1.37s/it]
+[36m(ActorModelRayActor pid=286523)[0m ["system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nPlease rate the aesthetics of this picture on a scale from 0 to 5, as a float rounded to two decimal places. A rating of 0 represents very poor aesthetic quality, while 5 represents excellent aesthetic quality.\nassistant\n<think>The image showcases a structure with classical architectural elements, including columns and arched windows, which suggest it may be a significant or governmental building. The dome, particularly the golden underside, adds a sense of grandeur and historical significance to the structure. The lighting in the image is somewhat artificial, possibly due to the time of day, as it does not appear to be direct sunlight, and this might give the image a slightly artificial look. The composition is vertical, focusing on the height of the structure, but the image is not particularly dynamic due to the lack of movement or action. The tree on the right adds a natural element to the image, but it is somewhat overwhelming and directs the viewer's focus away from the building. The image does not seem to have a strong or clear message or narrative, which can make it feel somewhat flat or static in terms of storytelling or visual communication.</think>\n<answer>3.00</answer>"]
+[36m(ActorModelRayActor pid=287376)[0m ele.get("min_pixels" 3136[32m [repeated 267x across cluster][0m
+[36m(ActorModelRayActor pid=287376)[0m ele.get("max_pixels" 1254400[32m [repeated 267x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:39:58 [worker.py:133] Sleep mode freed 38.19 GiB memory, 22.30 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:39:58 [executor_base.py:208] It took 1.701456 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.0352, rm=0.688, ret=-0.0524, glen=141, tlen=889, kl=0.261, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:26,  2.57s/it, pg=0.0352, rm=0.688, ret=-0.0524, glen=141, tlen=889, kl=0.261, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:05<05:26,  2.57s/it, pg=-0.0862, rm=1.19, ret=0.0664, glen=152, tlen=883, kl=0.268, act_lr=9.57e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:05<05:24,  2.58s/it, pg=-0.0862, rm=1.19, ret=0.0664, glen=152, tlen=883, kl=0.268, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<05:24,  2.58s/it, pg=0.118, rm=0.75, ret=-0.138, glen=150, tlen=711, kl=0.265, act_lr=9.57e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<05:01,  2.41s/it, pg=0.118, rm=0.75, ret=-0.138, glen=150, tlen=711, kl=0.265, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<05:01,  2.41s/it, pg=-0.0244, rm=1, ret=0.00468, glen=156, tlen=1e+3, kl=0.243, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:45,  2.30s/it, pg=-0.0244, rm=1, ret=0.00468, glen=156, tlen=1e+3, kl=0.243, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:45,  2.30s/it, pg=0.0866, rm=0.938, ret=-0.103, glen=151, tlen=1.01e+3, kl=0.245, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:38,  2.26s/it, pg=0.0866, rm=0.938, ret=-0.103, glen=151, tlen=1.01e+3, kl=0.245, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:38,  2.26s/it, pg=0.393, rm=0.812, ret=-0.413, glen=161, tlen=909, kl=0.269, act_lr=9.57e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:25,  2.17s/it, pg=0.393, rm=0.812, ret=-0.413, glen=161, tlen=909, kl=0.269, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:25,  2.17s/it, pg=0.0191, rm=0.812, ret=-0.0386, glen=162, tlen=794, kl=0.261, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:17,  2.13s/it, pg=0.0191, rm=0.812, ret=-0.0386, glen=162, tlen=794, kl=0.261, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:25<04:17,  2.13s/it, pg=0.0522, rm=1, ret=-0.0712, glen=154, tlen=910, kl=0.257, act_lr=9.57e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:25<08:55,  4.47s/it, pg=0.0522, rm=1, ret=-0.0712, glen=154, tlen=910, kl=0.257, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:27<08:55,  4.47s/it, pg=0.0299, rm=0.938, ret=-0.0519, glen=154, tlen=801, kl=0.296, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:27<07:24,  3.74s/it, pg=0.0299, rm=0.938, ret=-0.0519, glen=154, tlen=801, kl=0.296, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:29<07:24,  3.74s/it, pg=0.0013, rm=0.938, ret=-0.0202, glen=156, tlen=889, kl=0.253, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:29<06:19,  3.22s/it, pg=0.0013, rm=0.938, ret=-0.0202, glen=156, tlen=889, kl=0.253, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:31<06:19,  3.22s/it, pg=-0.128, rm=0.75, ret=0.108, glen=161, tlen=896, kl=0.256, act_lr=9.57e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:31<05:45,  2.95s/it, pg=-0.128, rm=0.75, ret=0.108, glen=161, tlen=896, kl=0.256, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:34<05:45,  2.95s/it, pg=0.0499, rm=0.75, ret=-0.0648, glen=140, tlen=762, kl=0.239, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:34<05:20,  2.77s/it, pg=0.0499, rm=0.75, ret=-0.0648, glen=140, tlen=762, kl=0.239, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:36<05:20,  2.77s/it, pg=-0.126, rm=1.12, ret=0.107, glen=160, tlen=1e+3, kl=0.263, act_lr=9.57e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<04:54,  2.56s/it, pg=-0.126, rm=1.12, ret=0.107, glen=160, tlen=1e+3, kl=0.263, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:38<04:54,  2.56s/it, pg=0.103, rm=0.812, ret=-0.12, glen=146, tlen=834, kl=0.257, act_lr=9.57e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:39,  2.45s/it, pg=0.103, rm=0.812, ret=-0.12, glen=146, tlen=834, kl=0.257, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:40<04:39,  2.45s/it, pg=-0.0212, rm=0.75, ret=0.0056, glen=142, tlen=1021.25, kl=0.231, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:40<04:23,  2.33s/it, pg=-0.0212, rm=0.75, ret=0.0056, glen=142, tlen=1021.25, kl=0.231, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:50<04:23,  2.33s/it, pg=-0.0515, rm=1, ret=0.03, glen=166, tlen=807, kl=0.275, act_lr=9.57e-7]         [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:29,  4.55s/it, pg=-0.0515, rm=1, ret=0.03, glen=166, tlen=807, kl=0.275, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:52<08:29,  4.55s/it, pg=0.145, rm=1, ret=-0.165, glen=146, tlen=864, kl=0.273, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<07:13,  3.90s/it, pg=0.145, rm=1, ret=-0.165, glen=146, tlen=864, kl=0.273, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:54<07:13,  3.90s/it, pg=-0.178, rm=0.812, ret=0.158, glen=155, tlen=697, kl=0.277, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:54<06:07,  3.34s/it, pg=-0.178, rm=0.812, ret=0.158, glen=155, tlen=697, kl=0.277, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:56<06:07,  3.34s/it, pg=-0.089, rm=0.875, ret=0.0707, glen=158, tlen=659, kl=0.262, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:56<05:02,  2.78s/it, pg=-0.089, rm=0.875, ret=0.0707, glen=158, tlen=659, kl=0.262, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:58<05:02,  2.78s/it, pg=0.0336, rm=0.812, ret=-0.0518, glen=144, tlen=893, kl=0.251, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:58<04:42,  2.62s/it, pg=0.0336, rm=0.812, ret=-0.0518, glen=144, tlen=893, kl=0.251, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:00<04:42,  2.62s/it, pg=0.17, rm=0.75, ret=-0.189, glen=156, tlen=809, kl=0.258, act_lr=9.57e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:00<04:16,  2.40s/it, pg=0.17, rm=0.75, ret=-0.189, glen=156, tlen=809, kl=0.258, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:02<04:16,  2.40s/it, pg=-0.0248, rm=1.06, ret=0.00639, glen=144, tlen=954, kl=0.266, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:02<04:21,  2.47s/it, pg=-0.0248, rm=1.06, ret=0.00639, glen=144, tlen=954, kl=0.266, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:04<04:21,  2.47s/it, pg=-0.23, rm=0.875, ret=0.214, glen=158, tlen=790, kl=0.25, act_lr=9.57e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:04<04:09,  2.37s/it, pg=-0.23, rm=0.875, ret=0.214, glen=158, tlen=790, kl=0.25, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:15<04:09,  2.37s/it, pg=-0.184, rm=1.06, ret=0.163, glen=154, tlen=987, kl=0.286, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:15<08:10,  4.72s/it, pg=-0.184, rm=1.06, ret=0.163, glen=154, tlen=987, kl=0.286, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:17<08:10,  4.72s/it, pg=-0.019, rm=1, ret=0.00181, glen=148, tlen=679, kl=0.255, act_lr=9.57e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:17<06:44,  3.93s/it, pg=-0.019, rm=1, ret=0.00181, glen=148, tlen=679, kl=0.255, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:19<06:44,  3.93s/it, pg=0.306, rm=0.875, ret=-0.327, glen=145, tlen=978, kl=0.28, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:19<05:38,  3.32s/it, pg=0.306, rm=0.875, ret=-0.327, glen=145, tlen=978, kl=0.28, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:21<05:38,  3.32s/it, pg=-0.071, rm=1.19, ret=0.0502, glen=152, tlen=972, kl=0.283, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:21<04:52,  2.90s/it, pg=-0.071, rm=1.19, ret=0.0502, glen=152, tlen=972, kl=0.283, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:23<04:52,  2.90s/it, pg=0.0809, rm=0.938, ret=-0.0986, glen=141, tlen=938, kl=0.256, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:23<04:24,  2.64s/it, pg=0.0809, rm=0.938, ret=-0.0986, glen=141, tlen=938, kl=0.256, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:25<04:24,  2.64s/it, pg=0.0866, rm=0.875, ret=-0.104, glen=160, tlen=824, kl=0.257, act_lr=9.57e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:25<04:03,  2.46s/it, pg=0.0866, rm=0.875, ret=-0.104, glen=160, tlen=824, kl=0.257, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:27<04:03,  2.46s/it, pg=-0.0287, rm=1, ret=0.00967, glen=169, tlen=923, kl=0.256, act_lr=9.57e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:27<03:46,  2.31s/it, pg=-0.0287, rm=1, ret=0.00967, glen=169, tlen=923, kl=0.256, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:29<03:46,  2.31s/it, pg=0.0184, rm=0.75, ret=-0.0358, glen=140, tlen=946, kl=0.257, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:29<03:41,  2.28s/it, pg=0.0184, rm=0.75, ret=-0.0358, glen=140, tlen=946, kl=0.257, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:38<03:41,  2.28s/it, pg=-0.0579, rm=1.19, ret=0.0362, glen=153, tlen=878, kl=0.283, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:38<07:08,  4.46s/it, pg=-0.0579, rm=1.19, ret=0.0362, glen=153, tlen=878, kl=0.283, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:41<07:08,  4.46s/it, pg=-0.0204, rm=0.875, ret=0.00603, glen=150, tlen=1.1e+3, kl=0.217, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:41<06:05,  3.85s/it, pg=-0.0204, rm=0.875, ret=0.00603, glen=150, tlen=1.1e+3, kl=0.217, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:43<06:05,  3.85s/it, pg=-0.00807, rm=1, ret=-0.00865, glen=144, tlen=826, kl=0.262, act_lr=9.57e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:43<05:22,  3.43s/it, pg=-0.00807, rm=1, ret=-0.00865, glen=144, tlen=826, kl=0.262, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:45<05:22,  3.43s/it, pg=-0.0638, rm=1.12, ret=0.0472, glen=156, tlen=1e+3, kl=0.241, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:45<04:43,  3.05s/it, pg=-0.0638, rm=1.12, ret=0.0472, glen=156, tlen=1e+3, kl=0.241, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:47<04:43,  3.05s/it, pg=-0.0205, rm=1, ret=0.00188, glen=152, tlen=720, kl=0.256, act_lr=9.57e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:47<04:07,  2.69s/it, pg=-0.0205, rm=1, ret=0.00188, glen=152, tlen=720, kl=0.256, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:49<04:07,  2.69s/it, pg=-0.102, rm=1.12, ret=0.0829, glen=157, tlen=875, kl=0.268, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:49<03:50,  2.54s/it, pg=-0.102, rm=1.12, ret=0.0829, glen=157, tlen=875, kl=0.268, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:51<03:50,  2.54s/it, pg=0.273, rm=1.06, ret=-0.293, glen=151, tlen=900, kl=0.27, act_lr=9.57e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:51<03:34,  2.39s/it, pg=0.273, rm=1.06, ret=-0.293, glen=151, tlen=900, kl=0.27, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:53<03:34,  2.39s/it, pg=-0.127, rm=1.12, ret=0.107, glen=151, tlen=990, kl=0.28, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:53<03:23,  2.29s/it, pg=-0.127, rm=1.12, ret=0.107, glen=151, tlen=990, kl=0.28, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:03<03:23,  2.29s/it, pg=0.119, rm=0.75, ret=-0.139, glen=162, tlen=815, kl=0.267, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:03<06:32,  4.46s/it, pg=0.119, rm=0.75, ret=-0.139, glen=162, tlen=815, kl=0.267, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:05<06:32,  4.46s/it, pg=-0.0777, rm=1.12, ret=0.0576, glen=147, tlen=859, kl=0.271, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:05<05:27,  3.77s/it, pg=-0.0777, rm=1.12, ret=0.0576, glen=147, tlen=859, kl=0.271, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:07<05:27,  3.77s/it, pg=0.0331, rm=0.688, ret=-0.0485, glen=138, tlen=818, kl=0.238, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:07<04:34,  3.20s/it, pg=0.0331, rm=0.688, ret=-0.0485, glen=138, tlen=818, kl=0.238, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:09<04:34,  3.20s/it, pg=-0.13, rm=0.75, ret=0.11, glen=144, tlen=879, kl=0.267, act_lr=9.57e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:09<04:03,  2.86s/it, pg=-0.13, rm=0.75, ret=0.11, glen=144, tlen=879, kl=0.267, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:11<04:03,  2.86s/it, pg=-0.132, rm=1.06, ret=0.112, glen=162, tlen=893, kl=0.261, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:11<03:40,  2.63s/it, pg=-0.132, rm=1.06, ret=0.112, glen=162, tlen=893, kl=0.261, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:13<03:40,  2.63s/it, pg=-0.0144, rm=0.938, ret=-0.00634, glen=161, tlen=884, kl=0.258, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:13<03:25,  2.48s/it, pg=-0.0144, rm=0.938, ret=-0.00634, glen=161, tlen=884, kl=0.258, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:15<03:25,  2.48s/it, pg=-0.00473, rm=0.812, ret=-0.0122, glen=143, tlen=742, kl=0.26, act_lr=9.57e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:15<03:07,  2.28s/it, pg=-0.00473, rm=0.812, ret=-0.0122, glen=143, tlen=742, kl=0.26, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:17<03:07,  2.28s/it, pg=-0.0814, rm=1.25, ret=0.0622, glen=144, tlen=984, kl=0.282, act_lr=9.57e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:17<03:03,  2.27s/it, pg=-0.0814, rm=1.25, ret=0.0622, glen=144, tlen=984, kl=0.282, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:27<03:03,  2.27s/it, pg=0.159, rm=0.75, ret=-0.177, glen=165, tlen=797, kl=0.249, act_lr=9.57e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:27<05:53,  4.41s/it, pg=0.159, rm=0.75, ret=-0.177, glen=165, tlen=797, kl=0.249, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:29<05:53,  4.41s/it, pg=0.0188, rm=0.625, ret=-0.0364, glen=151, tlen=889, kl=0.241, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:29<04:59,  3.79s/it, pg=0.0188, rm=0.625, ret=-0.0364, glen=151, tlen=889, kl=0.241, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:31<04:59,  3.79s/it, pg=0.139, rm=0.938, ret=-0.159, glen=139, tlen=876, kl=0.303, act_lr=9.57e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:31<04:10,  3.21s/it, pg=0.139, rm=0.938, ret=-0.159, glen=139, tlen=876, kl=0.303, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:33<04:10,  3.21s/it, pg=-0.199, rm=0.812, ret=0.18, glen=155, tlen=845, kl=0.251, act_lr=9.57e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:33<03:42,  2.89s/it, pg=-0.199, rm=0.812, ret=0.18, glen=155, tlen=845, kl=0.251, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:35<03:42,  2.89s/it, pg=0.0147, rm=0.875, ret=-0.0358, glen=157, tlen=778, kl=0.286, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:35<03:19,  2.63s/it, pg=0.0147, rm=0.875, ret=-0.0358, glen=157, tlen=778, kl=0.286, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:37<03:19,  2.63s/it, pg=-0.0171, rm=1, ret=-0.00322, glen=151, tlen=682, kl=0.284, act_lr=9.57e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:37<02:59,  2.39s/it, pg=-0.0171, rm=1, ret=-0.00322, glen=151, tlen=682, kl=0.284, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:39<02:59,  2.39s/it, pg=0.133, rm=0.812, ret=-0.15, glen=153, tlen=775, kl=0.244, act_lr=9.57e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:39<02:45,  2.23s/it, pg=0.133, rm=0.812, ret=-0.15, glen=153, tlen=775, kl=0.244, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:41<02:45,  2.23s/it, pg=-0.0568, rm=1.19, ret=0.0355, glen=158, tlen=883, kl=0.279, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:41<02:34,  2.12s/it, pg=-0.0568, rm=1.19, ret=0.0355, glen=158, tlen=883, kl=0.279, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:51<02:34,  2.12s/it, pg=0.0588, rm=0.688, ret=-0.0774, glen=157, tlen=791, kl=0.248, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:51<05:20,  4.45s/it, pg=0.0588, rm=0.688, ret=-0.0774, glen=157, tlen=791, kl=0.248, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:53<05:20,  4.45s/it, pg=0.0211, rm=0.875, ret=-0.0415, glen=146, tlen=796, kl=0.284, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:53<04:34,  3.87s/it, pg=0.0211, rm=0.875, ret=-0.0415, glen=146, tlen=796, kl=0.284, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:55<04:34,  3.87s/it, pg=-0.0383, rm=0.938, ret=0.0184, glen=165, tlen=1051.75, kl=0.283, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:55<03:49,  3.27s/it, pg=-0.0383, rm=0.938, ret=0.0184, glen=165, tlen=1051.75, kl=0.283, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:57<03:49,  3.27s/it, pg=0.0122, rm=0.875, ret=-0.028, glen=145, tlen=767, kl=0.255, act_lr=9.57e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:57<03:20,  2.91s/it, pg=0.0122, rm=0.875, ret=-0.028, glen=145, tlen=767, kl=0.255, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:59<03:20,  2.91s/it, pg=0.12, rm=0.75, ret=-0.139, glen=156, tlen=785, kl=0.266, act_lr=9.57e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:59<02:57,  2.61s/it, pg=0.12, rm=0.75, ret=-0.139, glen=156, tlen=785, kl=0.266, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:01<02:57,  2.61s/it, pg=-0.0844, rm=1, ret=0.0645, glen=155, tlen=759, kl=0.278, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:01<02:43,  2.44s/it, pg=-0.0844, rm=1, ret=0.0645, glen=155, tlen=759, kl=0.278, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:03<02:43,  2.44s/it, pg=0.0247, rm=0.812, ret=-0.0423, glen=152, tlen=955, kl=0.238, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:03<02:34,  2.35s/it, pg=0.0247, rm=0.812, ret=-0.0423, glen=152, tlen=955, kl=0.238, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:05<02:34,  2.35s/it, pg=0.145, rm=0.938, ret=-0.163, glen=143, tlen=894, kl=0.257, act_lr=9.57e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:05<02:32,  2.34s/it, pg=0.145, rm=0.938, ret=-0.163, glen=143, tlen=894, kl=0.257, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:46:15,146] [INFO] [logging.py:128:log_dist] [Rank 0] step=1000, skipped=0, lr=[9.566327622738275e-07, 9.566327622738275e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:15<02:32,  2.34s/it, pg=-0.0516, rm=1, ret=0.0318, glen=160, tlen=1.02e+3, kl=0.261, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:15<04:45,  4.45s/it, pg=-0.0516, rm=1, ret=0.0318, glen=160, tlen=1.02e+3, kl=0.261, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:17<04:45,  4.45s/it, pg=-0.0184, rm=0.75, ret=-0.00132, glen=168, tlen=1.05e+3, kl=0.237, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:17<04:04,  3.88s/it, pg=-0.0184, rm=0.75, ret=-0.00132, glen=168, tlen=1.05e+3, kl=0.237, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:20<04:04,  3.88s/it, pg=-0.0361, rm=1.06, ret=0.0191, glen=147, tlen=1052.5, kl=0.266, act_lr=9.57e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:20<03:35,  3.47s/it, pg=-0.0361, rm=1.06, ret=0.0191, glen=147, tlen=1052.5, kl=0.266, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:22<03:35,  3.47s/it, pg=0.188, rm=0.688, ret=-0.205, glen=146, tlen=911, kl=0.257, act_lr=9.57e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:22<03:13,  3.18s/it, pg=0.188, rm=0.688, ret=-0.205, glen=146, tlen=911, kl=0.257, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:24<03:13,  3.18s/it, pg=0.0435, rm=0.625, ret=-0.0633, glen=152, tlen=776, kl=0.266, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:24<02:50,  2.85s/it, pg=0.0435, rm=0.625, ret=-0.0633, glen=152, tlen=776, kl=0.266, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:27<02:50,  2.85s/it, pg=0.131, rm=0.875, ret=-0.151, glen=145, tlen=863, kl=0.276, act_lr=9.57e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:27<02:35,  2.63s/it, pg=0.131, rm=0.875, ret=-0.151, glen=145, tlen=863, kl=0.276, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:29<02:35,  2.63s/it, pg=0.211, rm=1.06, ret=-0.232, glen=163, tlen=803, kl=0.276, act_lr=9.57e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:29<02:22,  2.45s/it, pg=0.211, rm=1.06, ret=-0.232, glen=163, tlen=803, kl=0.276, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:31<02:22,  2.45s/it, pg=0.0258, rm=0.688, ret=-0.0445, glen=141, tlen=876, kl=0.271, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:31<02:17,  2.41s/it, pg=0.0258, rm=0.688, ret=-0.0445, glen=141, tlen=876, kl=0.271, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 11:46:40,820] [WARNING] [stage3.py:2139:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:40<02:17,  2.41s/it, pg=0.0509, rm=0.75, ret=-0.0664, glen=142, tlen=764, kl=0.248, act_lr=9.57e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:40<04:15,  4.56s/it, pg=0.0509, rm=0.75, ret=-0.0664, glen=142, tlen=764, kl=0.248, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:43<04:15,  4.56s/it, pg=-0.00962, rm=1, ret=-0.00864, glen=150, tlen=901, kl=0.252, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:43<03:34,  3.90s/it, pg=-0.00962, rm=1, ret=-0.00864, glen=150, tlen=901, kl=0.252, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:45<03:34,  3.90s/it, pg=-0.0209, rm=0.75, ret=0.00249, glen=146, tlen=803, kl=0.262, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:45<03:04,  3.41s/it, pg=-0.0209, rm=0.75, ret=0.00249, glen=146, tlen=803, kl=0.262, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:47<03:04,  3.41s/it, pg=-0.051, rm=1, ret=0.0339, glen=152, tlen=1.01e+3, kl=0.261, act_lr=9.57e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:47<02:36,  2.96s/it, pg=-0.051, rm=1, ret=0.0339, glen=152, tlen=1.01e+3, kl=0.261, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:49<02:36,  2.96s/it, pg=0.176, rm=1.03, ret=-0.192, glen=149, tlen=1126.5, kl=0.257, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:49<02:20,  2.70s/it, pg=0.176, rm=1.03, ret=-0.192, glen=149, tlen=1126.5, kl=0.257, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:51<02:20,  2.70s/it, pg=0.0752, rm=1, ret=-0.0909, glen=161, tlen=897, kl=0.25, act_lr=9.57e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:51<02:04,  2.45s/it, pg=0.0752, rm=1, ret=-0.0909, glen=161, tlen=897, kl=0.25, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:53<02:04,  2.45s/it, pg=0.147, rm=0.938, ret=-0.162, glen=152, tlen=903, kl=0.239, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:53<02:00,  2.41s/it, pg=0.147, rm=0.938, ret=-0.162, glen=152, tlen=903, kl=0.239, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:56<02:00,  2.41s/it, pg=-0.0546, rm=0.875, ret=0.0375, glen=152, tlen=835, kl=0.252, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:56<01:56,  2.39s/it, pg=-0.0546, rm=0.875, ret=0.0375, glen=152, tlen=835, kl=0.252, act_lr=9.57e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:06<01:56,  2.39s/it, pg=0.0218, rm=1.06, ret=-0.0421, glen=145, tlen=864, kl=0.29, act_lr=9.56e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:06<03:42,  4.63s/it, pg=0.0218, rm=1.06, ret=-0.0421, glen=145, tlen=864, kl=0.29, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:07<03:42,  4.63s/it, pg=-0.095, rm=1.06, ret=0.0761, glen=148, tlen=770, kl=0.278, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:07<02:59,  3.82s/it, pg=-0.095, rm=1.06, ret=0.0761, glen=148, tlen=770, kl=0.278, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:09<02:59,  3.82s/it, pg=0.233, rm=0.938, ret=-0.251, glen=156, tlen=1.13e+3, kl=0.241, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:09<02:31,  3.29s/it, pg=0.233, rm=0.938, ret=-0.251, glen=156, tlen=1.13e+3, kl=0.241, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:12<02:31,  3.29s/it, pg=-0.18, rm=0.812, ret=0.163, glen=145, tlen=909, kl=0.245, act_lr=9.56e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:12<02:12,  2.93s/it, pg=-0.18, rm=0.812, ret=0.163, glen=145, tlen=909, kl=0.245, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:14<02:12,  2.93s/it, pg=-0.0574, rm=0.875, ret=0.0407, glen=156, tlen=954, kl=0.247, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:14<01:59,  2.72s/it, pg=-0.0574, rm=0.875, ret=0.0407, glen=156, tlen=954, kl=0.247, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:16<01:59,  2.72s/it, pg=0.122, rm=0.812, ret=-0.138, glen=154, tlen=891, kl=0.261, act_lr=9.56e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:16<01:48,  2.52s/it, pg=0.122, rm=0.812, ret=-0.138, glen=154, tlen=891, kl=0.261, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:18<01:48,  2.52s/it, pg=0.045, rm=0.75, ret=-0.063, glen=158, tlen=851, kl=0.254, act_lr=9.56e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:18<01:37,  2.32s/it, pg=0.045, rm=0.75, ret=-0.063, glen=158, tlen=851, kl=0.254, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:20<01:37,  2.32s/it, pg=0.0871, rm=1.06, ret=-0.107, glen=148, tlen=788, kl=0.298, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:20<01:31,  2.23s/it, pg=0.0871, rm=1.06, ret=-0.107, glen=148, tlen=788, kl=0.298, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:29<01:31,  2.23s/it, pg=-0.0177, rm=0.875, ret=0.000154, glen=144, tlen=832, kl=0.273, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:29<02:57,  4.43s/it, pg=-0.0177, rm=0.875, ret=0.000154, glen=144, tlen=832, kl=0.273, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:31<02:57,  4.43s/it, pg=0.402, rm=0.75, ret=-0.42, glen=160, tlen=787, kl=0.263, act_lr=9.56e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:31<02:26,  3.76s/it, pg=0.402, rm=0.75, ret=-0.42, glen=160, tlen=787, kl=0.263, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:34<02:26,  3.76s/it, pg=-0.299, rm=0.938, ret=0.283, glen=152, tlen=903, kl=0.281, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:34<02:04,  3.29s/it, pg=-0.299, rm=0.938, ret=0.283, glen=152, tlen=903, kl=0.281, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:36<02:04,  3.29s/it, pg=-0.0319, rm=0.938, ret=0.011, glen=155, tlen=880, kl=0.292, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:36<01:49,  2.96s/it, pg=-0.0319, rm=0.938, ret=0.011, glen=155, tlen=880, kl=0.292, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:38<01:49,  2.96s/it, pg=0.129, rm=0.75, ret=-0.147, glen=154, tlen=820, kl=0.269, act_lr=9.56e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:38<01:34,  2.63s/it, pg=0.129, rm=0.75, ret=-0.147, glen=154, tlen=820, kl=0.269, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:40<01:34,  2.63s/it, pg=0.0405, rm=0.625, ret=-0.0585, glen=146, tlen=770, kl=0.243, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:40<01:23,  2.39s/it, pg=0.0405, rm=0.625, ret=-0.0585, glen=146, tlen=770, kl=0.243, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:42<01:23,  2.39s/it, pg=-0.238, rm=0.938, ret=0.22, glen=156, tlen=844, kl=0.262, act_lr=9.56e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:42<01:17,  2.28s/it, pg=-0.238, rm=0.938, ret=0.22, glen=156, tlen=844, kl=0.262, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:44<01:17,  2.28s/it, pg=0.133, rm=0.875, ret=-0.154, glen=153, tlen=872, kl=0.279, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:44<01:12,  2.20s/it, pg=0.133, rm=0.875, ret=-0.154, glen=153, tlen=872, kl=0.279, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:54<01:12,  2.20s/it, pg=0.149, rm=0.812, ret=-0.168, glen=160, tlen=768, kl=0.253, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:54<02:26,  4.57s/it, pg=0.149, rm=0.812, ret=-0.168, glen=160, tlen=768, kl=0.253, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:56<02:26,  4.57s/it, pg=-0.016, rm=0.875, ret=-0.00443, glen=153, tlen=767, kl=0.287, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:56<01:59,  3.85s/it, pg=-0.016, rm=0.875, ret=-0.00443, glen=153, tlen=767, kl=0.287, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:58<01:59,  3.85s/it, pg=0.119, rm=0.75, ret=-0.136, glen=135, tlen=696, kl=0.28, act_lr=9.56e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:58<01:36,  3.22s/it, pg=0.119, rm=0.75, ret=-0.136, glen=135, tlen=696, kl=0.28, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:00<01:36,  3.22s/it, pg=0.0539, rm=0.875, ret=-0.0745, glen=157, tlen=966, kl=0.28, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:00<01:23,  2.86s/it, pg=0.0539, rm=0.875, ret=-0.0745, glen=157, tlen=966, kl=0.28, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:02<01:23,  2.86s/it, pg=-0.0222, rm=1.19, ret=0.00182, glen=148, tlen=800, kl=0.291, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:02<01:14,  2.64s/it, pg=-0.0222, rm=1.19, ret=0.00182, glen=148, tlen=800, kl=0.291, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:04<01:14,  2.64s/it, pg=-0.00559, rm=0.812, ret=-0.0126, glen=151, tlen=818, kl=0.249, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:04<01:07,  2.51s/it, pg=-0.00559, rm=0.812, ret=-0.0126, glen=151, tlen=818, kl=0.249, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:06<01:07,  2.51s/it, pg=-0.105, rm=1.06, ret=0.0847, glen=164, tlen=889, kl=0.254, act_lr=9.56e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:06<01:00,  2.33s/it, pg=-0.105, rm=1.06, ret=0.0847, glen=164, tlen=889, kl=0.254, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:08<01:00,  2.33s/it, pg=0.186, rm=1, ret=-0.203, glen=149, tlen=771, kl=0.252, act_lr=9.56e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:08<00:56,  2.26s/it, pg=0.186, rm=1, ret=-0.203, glen=149, tlen=771, kl=0.252, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:18<00:56,  2.26s/it, pg=-0.0243, rm=1.06, ret=0.00647, glen=144, tlen=954, kl=0.265, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:18<01:50,  4.58s/it, pg=-0.0243, rm=1.06, ret=0.00647, glen=144, tlen=954, kl=0.265, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:20<01:50,  4.58s/it, pg=0.0118, rm=0.875, ret=-0.0296, glen=154, tlen=911, kl=0.263, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:20<01:27,  3.79s/it, pg=0.0118, rm=0.875, ret=-0.0296, glen=154, tlen=911, kl=0.263, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:22<01:27,  3.79s/it, pg=0.0548, rm=1, ret=-0.0729, glen=162, tlen=814, kl=0.262, act_lr=9.56e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:22<01:12,  3.29s/it, pg=0.0548, rm=1, ret=-0.0729, glen=162, tlen=814, kl=0.262, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:24<01:12,  3.29s/it, pg=0.03, rm=0.938, ret=-0.0508, glen=156, tlen=802, kl=0.286, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:24<01:01,  2.92s/it, pg=0.03, rm=0.938, ret=-0.0508, glen=156, tlen=802, kl=0.286, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:26<01:01,  2.92s/it, pg=0.0114, rm=0.875, ret=-0.0307, glen=165, tlen=824, kl=0.248, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:26<00:51,  2.59s/it, pg=0.0114, rm=0.875, ret=-0.0307, glen=165, tlen=824, kl=0.248, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:28<00:51,  2.59s/it, pg=-0.035, rm=1.19, ret=0.017, glen=159, tlen=907, kl=0.26, act_lr=9.56e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:28<00:47,  2.49s/it, pg=-0.035, rm=1.19, ret=0.017, glen=159, tlen=907, kl=0.26, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:30<00:47,  2.49s/it, pg=-0.0042, rm=0.812, ret=-0.0147, glen=153, tlen=820, kl=0.26, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:30<00:41,  2.31s/it, pg=-0.0042, rm=0.812, ret=-0.0147, glen=153, tlen=820, kl=0.26, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:32<00:41,  2.31s/it, pg=-0.0139, rm=1, ret=-0.00361, glen=153, tlen=944, kl=0.252, act_lr=9.56e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:32<00:37,  2.18s/it, pg=-0.0139, rm=1, ret=-0.00361, glen=153, tlen=944, kl=0.252, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:42<00:37,  2.18s/it, pg=0.0724, rm=0.812, ret=-0.0915, glen=159, tlen=734, kl=0.268, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:42<01:12,  4.51s/it, pg=0.0724, rm=0.812, ret=-0.0915, glen=159, tlen=734, kl=0.268, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:44<01:12,  4.51s/it, pg=0.0225, rm=1, ret=-0.0456, glen=167, tlen=891, kl=0.3, act_lr=9.56e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:44<00:58,  3.92s/it, pg=0.0225, rm=1, ret=-0.0456, glen=167, tlen=891, kl=0.3, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:46<00:58,  3.92s/it, pg=0.139, rm=0.875, ret=-0.156, glen=154, tlen=969, kl=0.277, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:46<00:46,  3.36s/it, pg=0.139, rm=0.875, ret=-0.156, glen=154, tlen=969, kl=0.277, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:49<00:46,  3.36s/it, pg=0.0442, rm=0.938, ret=-0.0646, glen=153, tlen=1.02e+3, kl=0.265, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:49<00:38,  2.96s/it, pg=0.0442, rm=0.938, ret=-0.0646, glen=153, tlen=1.02e+3, kl=0.265, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:51<00:38,  2.96s/it, pg=0.0372, rm=0.812, ret=-0.0551, glen=149, tlen=898, kl=0.264, act_lr=9.56e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:51<00:32,  2.67s/it, pg=0.0372, rm=0.812, ret=-0.0551, glen=149, tlen=898, kl=0.264, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:53<00:32,  2.67s/it, pg=0.0375, rm=0.938, ret=-0.0563, glen=156, tlen=816, kl=0.261, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:53<00:27,  2.47s/it, pg=0.0375, rm=0.938, ret=-0.0563, glen=156, tlen=816, kl=0.261, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:55<00:27,  2.47s/it, pg=0.135, rm=0.938, ret=-0.149, glen=157, tlen=936, kl=0.233, act_lr=9.56e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:55<00:23,  2.38s/it, pg=0.135, rm=0.938, ret=-0.149, glen=157, tlen=936, kl=0.233, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:57<00:23,  2.38s/it, pg=-0.0161, rm=1, ret=-0.00479, glen=154, tlen=891, kl=0.282, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:57<00:21,  2.34s/it, pg=-0.0161, rm=1, ret=-0.00479, glen=154, tlen=891, kl=0.282, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:07<00:21,  2.34s/it, pg=-0.00179, rm=0.938, ret=-0.0183, glen=161, tlen=976, kl=0.279, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:07<00:36,  4.56s/it, pg=-0.00179, rm=0.938, ret=-0.0183, glen=161, tlen=976, kl=0.279, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:09<00:36,  4.56s/it, pg=-0.00189, rm=0.812, ret=-0.0163, glen=149, tlen=1.04e+3, kl=0.263, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:09<00:27,  3.91s/it, pg=-0.00189, rm=0.812, ret=-0.0163, glen=149, tlen=1.04e+3, kl=0.263, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:11<00:27,  3.91s/it, pg=0.0207, rm=0.625, ret=-0.0402, glen=154, tlen=892, kl=0.261, act_lr=9.56e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:11<00:20,  3.34s/it, pg=0.0207, rm=0.625, ret=-0.0402, glen=154, tlen=892, kl=0.261, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:13<00:20,  3.34s/it, pg=0.0446, rm=0.875, ret=-0.0636, glen=156, tlen=692, kl=0.26, act_lr=9.56e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:13<00:15,  3.06s/it, pg=0.0446, rm=0.875, ret=-0.0636, glen=156, tlen=692, kl=0.26, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:16<00:15,  3.06s/it, pg=-0.00119, rm=0.938, ret=-0.0155, glen=151, tlen=778, kl=0.247, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|███████���█▋| 124/128 [06:16<00:11,  2.76s/it, pg=-0.00119, rm=0.938, ret=-0.0155, glen=151, tlen=778, kl=0.247, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:18<00:11,  2.76s/it, pg=-0.0431, rm=0.938, ret=0.028, glen=158, tlen=1.04e+3, kl=0.235, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:18<00:07,  2.57s/it, pg=-0.0431, rm=0.938, ret=0.028, glen=158, tlen=1.04e+3, kl=0.235, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:19<00:07,  2.57s/it, pg=0.0454, rm=0.875, ret=-0.0673, glen=148, tlen=684, kl=0.3, act_lr=9.56e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:19<00:04,  2.34s/it, pg=0.0454, rm=0.875, ret=-0.0673, glen=148, tlen=684, kl=0.3, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:21<00:04,  2.34s/it, pg=0.197, rm=0.812, ret=-0.214, glen=149, tlen=1.03e+3, kl=0.263, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:21<00:02,  2.19s/it, pg=0.197, rm=0.812, ret=-0.214, glen=149, tlen=1.03e+3, kl=0.263, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:31<00:02,  2.19s/it, pg=0.0358, rm=0.938, ret=-0.0522, glen=139, tlen=731, kl=0.264, act_lr=9.56e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:31<00:00,  4.39s/it, pg=0.0358, rm=0.938, ret=-0.0522, glen=139, tlen=731, kl=0.264, act_lr=9.56e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:31<00:00,  3.06s/it, pg=0.0358, rm=0.938, ret=-0.0522, glen=139, tlen=731, kl=0.264, act_lr=9.56e-7]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:49:33 [executor_base.py:219] It took 1.540454 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:49:34 [executor_base.py:219] It took 3.342328 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 3350x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.12.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 888x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.22.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 1000x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:49:55 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:49:55 [executor_base.py:208] It took 1.422352 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 542x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   2%|▏         | 2/127 [36:38<25:37:09, 737.84s/it, policy_loss=0.0216, actor_lr=9.57e-7, kl=0.263, reward=0.908, response_length=153, total_length=871, acc_rewards=0.408, format_rewards=0.5, return=-0.0402]
+Episode [1/2]:   2%|▏         | 3/127 [36:38<25:00:38, 726.11s/it, policy_loss=0.0216, actor_lr=9.57e-7, kl=0.263, reward=0.908, response_length=153, total_length=871, acc_rewards=0.408, format_rewards=0.5, return=-0.0402]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 11:49:57 [executor_base.py:219] It took 1.478342 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   0%|          | 1/256 [00:19<1:24:55, 19.98s/it, est. speed input: 19.52 toks/s, output: 4.05 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   1%|          | 2/256 [00:20<35:49,  8.46s/it, est. speed input: 94.75 toks/s, output: 8.39 toks/s]  
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   1%|          | 3/256 [00:20<20:14,  4.80s/it, est. speed input: 111.92 toks/s, output: 13.02 toks/s]
+Processed prompts:   2%|▏         | 6/256 [00:20<06:52,  1.65s/it, est. speed input: 229.16 toks/s, output: 27.49 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   3%|▎         | 8/256 [00:21<04:17,  1.04s/it, est. speed input: 319.74 toks/s, output: 37.28 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   5%|▍         | 12/256 [00:21<02:06,  1.94it/s, est. speed input: 562.44 toks/s, output: 57.16 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   7%|▋         | 17/256 [00:21<01:06,  3.58it/s, est. speed input: 811.64 toks/s, output: 82.90 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   9%|▉         | 24/256 [00:21<00:35,  6.50it/s, est. speed input: 1039.77 toks/s, output: 119.40 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  12%|█▎        | 32/256 [00:21<00:21, 10.57it/s, est. speed input: 1341.61 toks/s, output: 162.03 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  15%|█▌        | 39/256 [00:21<00:14, 14.93it/s, est. speed input: 1469.87 toks/s, output: 200.36 toks/s]
+Processed prompts:  17%|█▋        | 44/256 [00:21<00:11, 18.06it/s, est. speed input: 1662.44 toks/s, output: 227.83 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  21%|██        | 53/256 [00:22<00:07, 26.25it/s, est. speed input: 1930.13 toks/s, output: 278.85 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  23%|██▎       | 59/256 [00:22<00:06, 30.51it/s, est. speed input: 2093.60 toks/s, output: 312.83 toks/s]
+Processed prompts:  25%|██▌       | 65/256 [00:22<00:05, 34.82it/s, est. speed input: 2202.63 toks/s, output: 347.40 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  29%|██▉       | 74/256 [00:22<00:04, 44.35it/s, est. speed input: 2420.93 toks/s, output: 400.62 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  36%|███▌      | 91/256 [00:22<00:02, 69.51it/s, est. speed input: 2797.60 toks/s, output: 504.46 toks/s]
+Processed prompts:  40%|████      | 103/256 [00:22<00:01, 80.85it/s, est. speed input: 3040.81 toks/s, output: 578.31 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  48%|████▊     | 124/256 [00:22<00:01, 104.90it/s, est. speed input: 3636.16 toks/s, output: 710.36 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  53%|█████▎    | 136/256 [00:22<00:01, 98.28it/s, est. speed input: 3874.94 toks/s, output: 785.58 toks/s] 
+Processed prompts:  58%|█████▊    | 148/256 [00:23<00:01, 101.89it/s, est. speed input: 4215.88 toks/s, output: 863.05 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  66%|██████▌   | 169/256 [00:23<00:00, 122.65it/s, est. speed input: 4732.49 toks/s, output: 1004.01 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  72%|███████▏  | 185/256 [00:23<00:00, 127.83it/s, est. speed input: 5072.55 toks/s, output: 1112.92 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  78%|███████▊  | 199/256 [00:23<00:00, 109.78it/s, est. speed input: 5331.00 toks/s, output: 1207.91 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  85%|████████▌ | 218/256 [00:23<00:00, 119.36it/s, est. speed input: 5701.86 toks/s, output: 1345.27 toks/s]
+Processed prompts:  91%|█████████ | 233/256 [00:23<00:00, 122.24it/s, est. speed input: 6034.09 toks/s, output: 1456.75 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  96%|█████████▌| 246/256 [00:23<00:00, 84.41it/s, est. speed input: 6273.70 toks/s, output: 1546.29 toks/s] 
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:24<00:00, 10.52it/s, est. speed input: 6378.08 toks/s, output: 1613.51 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   4%|▍         | 11/256 [00:22<03:01,  1.35it/s, est. speed input: 430.24 toks/s, output: 51.22 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  16%|█▌        | 41/256 [00:22<00:16, 13.38it/s, est. speed input: 1533.86 toks/s, output: 206.20 toks/s]
+Processed prompts:  18%|█▊        | 47/256 [00:23<00:11, 17.45it/s, est. speed input: 1739.69 toks/s, output: 239.04 toks/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  88%|████████▊ | 226/256 [00:24<00:00, 110.46it/s, est. speed input: 5840.63 toks/s, output: 1376.99 toks/s]
+Processed prompts:  93%|█████████▎| 238/256 [00:24<00:00, 110.33it/s, est. speed input: 6087.99 toks/s, output: 1465.98 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:25<00:00, 10.10it/s, est. speed input: 6357.46 toks/s, output: 1587.75 toks/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   2%|▏         | 4/256 [00:25<16:24,  3.91s/it, est. speed input: 246.22 toks/s, output: 14.43 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:25<06:17,  1.52s/it, est. speed input: 333.74 toks/s, output: 26.05 toks/s]
+Processed prompts:   5%|▍         | 12/256 [00:25<02:22,  1.71it/s, est. speed input: 544.16 toks/s, output: 46.55 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  30%|███       | 77/256 [00:27<00:08, 21.37it/s, est. speed input: 3202.40 toks/s, output: 335.89 toks/s]
+Processed prompts:  34%|███▍      | 87/256 [00:27<00:05, 30.75it/s, est. speed input: 3470.04 toks/s, output: 384.80 toks/s]
+Processed prompts:  36%|███▋      | 93/256 [00:27<00:04, 34.56it/s, est. speed input: 3598.12 toks/s, output: 414.08 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00,  8.66it/s, est. speed input: 6554.53 toks/s, output: 1322.51 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   2%|▏         | 4/256 [00:26<17:25,  4.15s/it, est. speed input: 233.76 toks/s, output: 11.55 toks/s][32m [repeated 22x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  54%|█████▍    | 139/256 [00:26<00:01, 95.48it/s, est. speed input: 4169.44 toks/s, output: 722.60 toks/s]
+Processed prompts:  61%|██████    | 156/256 [00:26<00:00, 111.91it/s, est. speed input: 4547.18 toks/s, output: 823.84 toks/s][32m [repeated 10x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  89%|████████▉ | 228/256 [00:31<00:00, 115.57it/s, est. speed input: 6442.02 toks/s, output: 985.25 toks/s]
+Processed prompts:  94%|█████████▍| 241/256 [00:32<00:00, 117.53it/s, est. speed input: 6635.03 toks/s, output: 1056.34 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:32<00:00,  7.88it/s, est. speed input: 6793.35 toks/s, output: 1134.58 toks/s][32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  77%|███████▋  | 196/256 [00:26<00:00, 114.00it/s, est. speed input: 5154.34 toks/s, output: 1128.80 toks/s][32m [repeated 43x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 1/256 [00:28<2:01:44, 28.64s/it, est. speed input: 17.18 toks/s, output: 2.97 toks/s]
+Processed prompts:   1%|          | 3/256 [00:28<31:36,  7.50s/it, est. speed input: 51.88 toks/s, output: 9.05 toks/s]  [32m [repeated 20x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.41it/s, est. speed input: 6158.92 toks/s, output: 1527.08 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  15%|█▍        | 38/256 [00:30<00:18, 11.75it/s, est. speed input: 1263.50 toks/s, output: 135.72 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  88%|████████▊ | 226/256 [00:32<00:00, 97.58it/s, est. speed input: 5895.84 toks/s, output: 1012.68 toks/s]
+Processed prompts:  93%|█████████▎| 238/256 [00:32<00:00, 96.93it/s, est. speed input: 6178.40 toks/s, output: 1079.99 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 11:49:55 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.41 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 11:49:55 [executor_base.py:208] It took 1.636346 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:49:59 [executor_base.py:219] It took 3.077582 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 921x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 921x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 755x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 755x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m  
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 11:51:52 [worker.py:133] Sleep mode freed 38.29 GiB memory, 22.62 GiB memory is still in use.
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 11:51:52 [executor_base.py:208] It took 1.413997 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287377)[0m ele.get("min_pixels" 3136[32m [repeated 348x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("max_pixels" 1254400[32m [repeated 348x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  61%|██████    | 155/256 [00:31<00:00, 107.06it/s, est. speed input: 4389.93 toks/s, output: 651.31 toks/s]
+Processed prompts:  66%|██████▌   | 169/256 [00:31<00:00, 115.07it/s, est. speed input: 4588.90 toks/s, output: 719.75 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:33<00:00,  7.75it/s, est. speed input: 6508.25 toks/s, output: 1178.99 toks/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  84%|████████▍ | 215/256 [00:32<00:00, 101.14it/s, est. speed input: 5636.93 toks/s, output: 952.99 toks/s][32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:56,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:55,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<03:00,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<02:57,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<02:54,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:50,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:09<02:48,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:46,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:46,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:14<02:48,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:15<02:47,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:16<02:45,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:18<02:43,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:19<02:42,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:21<02:39,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:22<02:38,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:23<02:34,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:25<02:30,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:26<02:28,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:27<02:24,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:29<02:22,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:30<02:20,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:31<02:20,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:33<02:19,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:34<02:18,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:35<02:15,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:37<02:16,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:38<02:14,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:40<02:14,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:41<02:14,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:42<02:13,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:44<02:13,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:45<02:12,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:47<02:11,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:48<02:08,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:49<02:07,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:51<02:05,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:52<02:03,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:53<02:02,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:55<02:06,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:56<01:55,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:57<01:44,  1.21s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:58<01:37,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:59<01:32,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [01:00<01:28,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:01<01:26,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:02<01:23,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:03<01:21,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:04<01:26,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:06<01:32,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:07<01:34,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:08<01:37,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:10<01:37,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:11<01:36,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:12<01:35,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:14<01:33,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:15<01:35,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:17<01:37,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:18<01:36,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:19<01:36,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:21<01:34,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:22<01:34,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:24<01:33,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:25<01:32,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:27<01:29,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:28<01:26,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:29<01:24,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:31<01:22,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:32<01:20,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:33<01:20,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:35<01:17,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:36<01:15,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:37<01:13,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:39<01:12,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:40<01:12,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:42<01:11,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:43<01:10,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:44<01:10,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:46<01:11,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:47<01:09,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:49<01:07,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:50<01:06,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:52<01:04,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:53<01:03,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:55<01:02,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:56<01:01,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:57<00:59,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:59<00:58,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:00<00:53,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:01<00:51,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:03<00:50,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:04<00:50,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:06<00:47,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:07<00:46,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:08<00:43,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:09<00:42,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:11<00:42,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:12<00:42,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:14<00:40,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:15<00:40,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:17<00:40,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:19<00:38,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:20<00:37,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:22<00:36,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:23<00:33,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:25<00:32,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:26<00:31,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:27<00:29,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:29<00:28,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:30<00:26,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:32<00:24,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:33<00:23,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:34<00:20,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:35<00:17,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:36<00:15,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:37<00:13,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:38<00:11,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:39<00:10,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:40<00:09,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:41<00:08,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:43<00:08,  1.19s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:45<00:07,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:46<00:06,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:48<00:05,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:49<00:04,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:51<00:02,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:52<00:01,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:54<00:00,  1.50s/it][A
+make_experience: 100%|██████████| 128/128 [02:54<00:00,  1.36s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nGive an overall aesthetic rating for this image, between 0 and 5, rounded to two decimal points. A rating of 0 represents very poor aesthetic quality, while 5 represents excellent aesthetic quality.\nassistant\n<think>The image showcases a cruise ship in the background, with a foreground featuring a bollard and a chain, suggesting a dock or pier setting. The composition is balanced, with the ship centered in the image, providing a clear subject. The lighting appears natural, indicating the photo was taken during the day, possibly with some level of overcast sky given the soft shadows. The colors are vivid, with the deep blue of the water and the contrasting tones of the ship against the soft orange platform. However, the image seems a bit flat and lacks the dynamic energy that might come with more action or a sense of movement. The composition is straightforward, not particularly evocative or artistic, which may contribute to a slightly flat aesthetic. The image might be improved with a stronger composition or a focus on a more dynamic element.</think>\n<answer>3.00</answer>']
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:51:53 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.69 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 11:51:53 [executor_base.py:208] It took 1.656377 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("min_pixels" 3136[32m [repeated 20x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("max_pixels" 1254400[32m [repeated 20x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.0199, rm=1.12, ret=-0.0387, glen=146, tlen=958, kl=0.264, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:12,  2.46s/it, pg=0.0199, rm=1.12, ret=-0.0387, glen=146, tlen=958, kl=0.264, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:05<05:12,  2.46s/it, pg=0.0288, rm=1.19, ret=-0.0476, glen=156, tlen=880, kl=0.258, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:05<05:32,  2.64s/it, pg=0.0288, rm=1.19, ret=-0.0476, glen=156, tlen=880, kl=0.258, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<05:32,  2.64s/it, pg=-0.0143, rm=0.938, ret=-0.00398, glen=145, tlen=600, kl=0.269, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<04:46,  2.29s/it, pg=-0.0143, rm=0.938, ret=-0.00398, glen=145, tlen=600, kl=0.269, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<04:46,  2.29s/it, pg=-0.0488, rm=1.06, ret=0.0284, glen=150, tlen=744, kl=0.276, act_lr=9.56e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:34,  2.21s/it, pg=-0.0488, rm=1.06, ret=0.0284, glen=150, tlen=744, kl=0.276, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:34,  2.21s/it, pg=0.132, rm=1, ret=-0.151, glen=152, tlen=822, kl=0.281, act_lr=9.56e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:27,  2.17s/it, pg=0.132, rm=1, ret=-0.151, glen=152, tlen=822, kl=0.281, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:27,  2.17s/it, pg=0.254, rm=0.812, ret=-0.273, glen=168, tlen=924, kl=0.23, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:20,  2.14s/it, pg=0.254, rm=0.812, ret=-0.273, glen=168, tlen=924, kl=0.23, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:20,  2.14s/it, pg=-0.0549, rm=0.812, ret=0.0366, glen=154, tlen=972, kl=0.256, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:10,  2.07s/it, pg=-0.0549, rm=0.812, ret=0.0366, glen=154, tlen=972, kl=0.256, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:25<04:10,  2.07s/it, pg=-0.0693, rm=0.938, ret=0.0518, glen=154, tlen=681, kl=0.246, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:25<09:06,  4.55s/it, pg=-0.0693, rm=0.938, ret=0.0518, glen=154, tlen=681, kl=0.246, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:27<09:06,  4.55s/it, pg=0.00598, rm=0.875, ret=-0.0243, glen=158, tlen=914, kl=0.253, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:27<07:40,  3.87s/it, pg=0.00598, rm=0.875, ret=-0.0243, glen=158, tlen=914, kl=0.253, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:29<07:40,  3.87s/it, pg=-0.0366, rm=1.25, ret=0.0152, glen=166, tlen=847, kl=0.272, act_lr=9.56e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:29<06:28,  3.29s/it, pg=-0.0366, rm=1.25, ret=0.0152, glen=166, tlen=847, kl=0.272, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:31<06:28,  3.29s/it, pg=0.143, rm=1.19, ret=-0.163, glen=168, tlen=959, kl=0.242, act_lr=9.56e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:31<05:46,  2.96s/it, pg=0.143, rm=1.19, ret=-0.163, glen=168, tlen=959, kl=0.242, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:34<05:46,  2.96s/it, pg=-0.0439, rm=1, ret=0.0272, glen=146, tlen=1.03e+3, kl=0.23, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:34<05:19,  2.75s/it, pg=-0.0439, rm=1, ret=0.0272, glen=146, tlen=1.03e+3, kl=0.23, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:36<05:19,  2.75s/it, pg=-0.309, rm=1.31, ret=0.288, glen=156, tlen=825, kl=0.271, act_lr=9.56e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<05:09,  2.69s/it, pg=-0.309, rm=1.31, ret=0.288, glen=156, tlen=825, kl=0.271, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:38<05:09,  2.69s/it, pg=0.132, rm=0.938, ret=-0.15, glen=148, tlen=811, kl=0.254, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:49,  2.54s/it, pg=0.132, rm=0.938, ret=-0.15, glen=148, tlen=811, kl=0.254, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:41<04:49,  2.54s/it, pg=-0.00826, rm=1.19, ret=-0.00868, glen=149, tlen=942, kl=0.268, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:41<04:43,  2.50s/it, pg=-0.00826, rm=1.19, ret=-0.00868, glen=149, tlen=942, kl=0.268, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:51<04:43,  2.50s/it, pg=-0.0977, rm=1.25, ret=0.079, glen=158, tlen=922, kl=0.264, act_lr=9.56e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:51<08:53,  4.76s/it, pg=-0.0977, rm=1.25, ret=0.079, glen=158, tlen=922, kl=0.264, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:53<08:53,  4.76s/it, pg=-0.0139, rm=1.12, ret=-0.00591, glen=148, tlen=824, kl=0.277, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:53<07:14,  3.92s/it, pg=-0.0139, rm=1.12, ret=-0.00591, glen=148, tlen=824, kl=0.277, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:55<07:14,  3.92s/it, pg=0.342, rm=0.875, ret=-0.359, glen=152, tlen=963, kl=0.26, act_lr=9.56e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:55<06:04,  3.32s/it, pg=0.342, rm=0.875, ret=-0.359, glen=152, tlen=963, kl=0.26, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:56<06:04,  3.32s/it, pg=0.216, rm=1.06, ret=-0.235, glen=156, tlen=824, kl=0.247, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:56<05:13,  2.87s/it, pg=0.216, rm=1.06, ret=-0.235, glen=156, tlen=824, kl=0.247, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:58<05:13,  2.87s/it, pg=0.0227, rm=1.06, ret=-0.0446, glen=159, tlen=802, kl=0.281, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:58<04:44,  2.64s/it, pg=0.0227, rm=1.06, ret=-0.0446, glen=159, tlen=802, kl=0.281, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:01<04:44,  2.64s/it, pg=0.208, rm=1.06, ret=-0.226, glen=130, tlen=871, kl=0.293, act_lr=9.56e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:01<04:22,  2.46s/it, pg=0.208, rm=1.06, ret=-0.226, glen=130, tlen=871, kl=0.293, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:03<04:22,  2.46s/it, pg=-0.0405, rm=1.12, ret=0.0202, glen=150, tlen=891, kl=0.283, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:03<04:20,  2.46s/it, pg=-0.0405, rm=1.12, ret=0.0202, glen=150, tlen=891, kl=0.283, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:05<04:20,  2.46s/it, pg=-0.0651, rm=1.06, ret=0.0464, glen=158, tlen=898, kl=0.246, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:05<04:02,  2.31s/it, pg=-0.0651, rm=1.06, ret=0.0464, glen=158, tlen=898, kl=0.246, act_lr=9.56e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:14<04:02,  2.31s/it, pg=0.128, rm=1.19, ret=-0.147, glen=157, tlen=813, kl=0.271, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:14<07:46,  4.49s/it, pg=0.128, rm=1.19, ret=-0.147, glen=157, tlen=813, kl=0.271, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:17<07:46,  4.49s/it, pg=0.129, rm=1, ret=-0.15, glen=161, tlen=831, kl=0.257, act_lr=9.55e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:17<06:52,  4.00s/it, pg=0.129, rm=1, ret=-0.15, glen=161, tlen=831, kl=0.257, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:20<06:52,  4.00s/it, pg=0.12, rm=1.19, ret=-0.141, glen=179, tlen=860, kl=0.258, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:20<05:53,  3.46s/it, pg=0.12, rm=1.19, ret=-0.141, glen=179, tlen=860, kl=0.258, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:21<05:53,  3.46s/it, pg=-0.0492, rm=0.875, ret=0.031, glen=151, tlen=832, kl=0.257, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:21<05:00,  2.98s/it, pg=-0.0492, rm=0.875, ret=0.031, glen=151, tlen=832, kl=0.257, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:23<05:00,  2.98s/it, pg=-0.051, rm=0.875, ret=0.0336, glen=137, tlen=861, kl=0.264, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:23<04:29,  2.69s/it, pg=-0.051, rm=0.875, ret=0.0336, glen=137, tlen=861, kl=0.264, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:25<04:29,  2.69s/it, pg=0.0421, rm=0.812, ret=-0.0618, glen=156, tlen=878, kl=0.273, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:25<04:02,  2.45s/it, pg=0.0421, rm=0.812, ret=-0.0618, glen=156, tlen=878, kl=0.273, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:27<04:02,  2.45s/it, pg=0.0891, rm=0.938, ret=-0.105, glen=151, tlen=962, kl=0.23, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:27<03:44,  2.29s/it, pg=0.0891, rm=0.938, ret=-0.105, glen=151, tlen=962, kl=0.23, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:29<03:44,  2.29s/it, pg=0.0224, rm=1.25, ret=-0.0421, glen=166, tlen=833, kl=0.253, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:29<03:39,  2.26s/it, pg=0.0224, rm=1.25, ret=-0.0421, glen=166, tlen=833, kl=0.253, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:39<03:39,  2.26s/it, pg=-0.00569, rm=1.19, ret=-0.0143, glen=161, tlen=846, kl=0.269, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:39<07:13,  4.52s/it, pg=-0.00569, rm=1.19, ret=-0.0143, glen=161, tlen=846, kl=0.269, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:42<07:13,  4.52s/it, pg=0.0917, rm=0.938, ret=-0.109, glen=149, tlen=956, kl=0.249, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:42<06:13,  3.93s/it, pg=0.0917, rm=0.938, ret=-0.109, glen=149, tlen=956, kl=0.249, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:44<06:13,  3.93s/it, pg=0.0798, rm=1, ret=-0.0957, glen=149, tlen=888, kl=0.241, act_lr=9.55e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:44<05:10,  3.31s/it, pg=0.0798, rm=1, ret=-0.0957, glen=149, tlen=888, kl=0.241, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:46<05:10,  3.31s/it, pg=0.11, rm=1.06, ret=-0.126, glen=154, tlen=946, kl=0.265, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:46<04:28,  2.89s/it, pg=0.11, rm=1.06, ret=-0.126, glen=154, tlen=946, kl=0.265, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:48<04:28,  2.89s/it, pg=0.0531, rm=0.875, ret=-0.0716, glen=154, tlen=681, kl=0.26, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:48<04:03,  2.65s/it, pg=0.0531, rm=0.875, ret=-0.0716, glen=154, tlen=681, kl=0.26, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:50<04:03,  2.65s/it, pg=0.0898, rm=1.19, ret=-0.109, glen=155, tlen=757, kl=0.28, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:50<03:52,  2.56s/it, pg=0.0898, rm=1.19, ret=-0.109, glen=155, tlen=757, kl=0.28, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:52<03:52,  2.56s/it, pg=-0.138, rm=1, ret=0.121, glen=152, tlen=931, kl=0.248, act_lr=9.55e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:52<03:32,  2.36s/it, pg=-0.138, rm=1, ret=0.121, glen=152, tlen=931, kl=0.248, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:54<03:32,  2.36s/it, pg=0.0186, rm=1.19, ret=-0.0384, glen=158, tlen=694, kl=0.264, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:54<03:15,  2.19s/it, pg=0.0186, rm=1.19, ret=-0.0384, glen=158, tlen=694, kl=0.264, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:04<03:15,  2.19s/it, pg=0.0246, rm=1, ret=-0.0455, glen=150, tlen=1.04e+3, kl=0.273, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:04<06:41,  4.57s/it, pg=0.0246, rm=1, ret=-0.0455, glen=150, tlen=1.04e+3, kl=0.273, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:06<06:41,  4.57s/it, pg=-0.0576, rm=0.812, ret=0.0413, glen=153, tlen=972, kl=0.226, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:06<05:28,  3.78s/it, pg=-0.0576, rm=0.812, ret=0.0413, glen=153, tlen=972, kl=0.226, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:08<05:28,  3.78s/it, pg=0.0862, rm=0.625, ret=-0.101, glen=142, tlen=878, kl=0.221, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:08<04:45,  3.32s/it, pg=0.0862, rm=0.625, ret=-0.101, glen=142, tlen=878, kl=0.221, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:10<04:45,  3.32s/it, pg=-0.0332, rm=0.812, ret=0.0151, glen=157, tlen=750, kl=0.248, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:10<04:09,  2.93s/it, pg=-0.0332, rm=0.812, ret=0.0151, glen=157, tlen=750, kl=0.248, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:12<04:09,  2.93s/it, pg=-0.193, rm=1.31, ret=0.175, glen=161, tlen=887, kl=0.225, act_lr=9.55e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:12<03:47,  2.71s/it, pg=-0.193, rm=1.31, ret=0.175, glen=161, tlen=887, kl=0.225, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:14<03:47,  2.71s/it, pg=0.156, rm=0.938, ret=-0.173, glen=144, tlen=809, kl=0.255, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:14<03:23,  2.45s/it, pg=0.156, rm=0.938, ret=-0.173, glen=144, tlen=809, kl=0.255, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:16<03:23,  2.45s/it, pg=0.0542, rm=0.938, ret=-0.0699, glen=144, tlen=1.02e+3, kl=0.254, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:16<03:11,  2.34s/it, pg=0.0542, rm=0.938, ret=-0.0699, glen=144, tlen=1.02e+3, kl=0.254, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:19<03:11,  2.34s/it, pg=0.0185, rm=1.25, ret=-0.0381, glen=148, tlen=994, kl=0.258, act_lr=9.55e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:19<03:17,  2.44s/it, pg=0.0185, rm=1.25, ret=-0.0381, glen=148, tlen=994, kl=0.258, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:29<03:17,  2.44s/it, pg=0.159, rm=0.625, ret=-0.175, glen=146, tlen=1.17e+3, kl=0.245, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:29<06:15,  4.69s/it, pg=0.159, rm=0.625, ret=-0.175, glen=146, tlen=1.17e+3, kl=0.245, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:31<06:15,  4.69s/it, pg=-0.0841, rm=1.12, ret=0.0668, glen=143, tlen=852, kl=0.265, act_lr=9.55e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:31<05:09,  3.92s/it, pg=-0.0841, rm=1.12, ret=0.0668, glen=143, tlen=852, kl=0.265, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:33<05:09,  3.92s/it, pg=-0.101, rm=1.25, ret=0.0795, glen=155, tlen=691, kl=0.291, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:33<04:15,  3.27s/it, pg=-0.101, rm=1.25, ret=0.0795, glen=155, tlen=691, kl=0.291, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:34<04:15,  3.27s/it, pg=0.00319, rm=1, ret=-0.0224, glen=150, tlen=885, kl=0.254, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:34<03:39,  2.85s/it, pg=0.00319, rm=1, ret=-0.0224, glen=150, tlen=885, kl=0.254, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:37<03:39,  2.85s/it, pg=-0.0887, rm=1, ret=0.0706, glen=148, tlen=885, kl=0.255, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:37<03:17,  2.60s/it, pg=-0.0887, rm=1, ret=0.0706, glen=148, tlen=885, kl=0.255, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:39<03:17,  2.60s/it, pg=-0.0405, rm=1.25, ret=0.0204, glen=159, tlen=964, kl=0.251, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:39<03:10,  2.54s/it, pg=-0.0405, rm=1.25, ret=0.0204, glen=159, tlen=964, kl=0.251, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:41<03:10,  2.54s/it, pg=0.0195, rm=0.938, ret=-0.0381, glen=163, tlen=754, kl=0.233, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:41<02:52,  2.33s/it, pg=0.0195, rm=0.938, ret=-0.0381, glen=163, tlen=754, kl=0.233, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:43<02:52,  2.33s/it, pg=0.0974, rm=0.938, ret=-0.111, glen=145, tlen=883, kl=0.253, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:43<02:50,  2.33s/it, pg=0.0974, rm=0.938, ret=-0.111, glen=145, tlen=883, kl=0.253, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:53<02:50,  2.33s/it, pg=0.209, rm=0.812, ret=-0.226, glen=148, tlen=675, kl=0.267, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:53<05:26,  4.53s/it, pg=0.209, rm=0.812, ret=-0.226, glen=148, tlen=675, kl=0.267, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:55<05:26,  4.53s/it, pg=-0.0675, rm=1.19, ret=0.0491, glen=163, tlen=916, kl=0.26, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:55<04:29,  3.79s/it, pg=-0.0675, rm=1.19, ret=0.0491, glen=163, tlen=916, kl=0.26, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:57<04:29,  3.79s/it, pg=0.0198, rm=1.12, ret=-0.037, glen=148, tlen=1015.0, kl=0.249, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:57<03:54,  3.35s/it, pg=0.0198, rm=1.12, ret=-0.037, glen=148, tlen=1015.0, kl=0.249, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:59<03:54,  3.35s/it, pg=0.014, rm=0.938, ret=-0.0326, glen=160, tlen=773, kl=0.257, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:59<03:19,  2.89s/it, pg=0.014, rm=0.938, ret=-0.0326, glen=160, tlen=773, kl=0.257, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:01<03:19,  2.89s/it, pg=0.036, rm=0.938, ret=-0.0527, glen=147, tlen=763, kl=0.251, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:01<02:59,  2.64s/it, pg=0.036, rm=0.938, ret=-0.0527, glen=147, tlen=763, kl=0.251, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:03<02:59,  2.64s/it, pg=0.18, rm=0.938, ret=-0.198, glen=160, tlen=1.05e+3, kl=0.239, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:03<02:50,  2.54s/it, pg=0.18, rm=0.938, ret=-0.198, glen=160, tlen=1.05e+3, kl=0.239, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:05<02:50,  2.54s/it, pg=-0.00472, rm=1, ret=-0.0128, glen=142, tlen=952, kl=0.266, act_lr=9.55e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:05<02:37,  2.39s/it, pg=-0.00472, rm=1, ret=-0.0128, glen=142, tlen=952, kl=0.266, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:07<02:37,  2.39s/it, pg=-0.0126, rm=1.25, ret=-0.0062, glen=160, tlen=691, kl=0.257, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:07<02:23,  2.21s/it, pg=-0.0126, rm=1.25, ret=-0.0062, glen=160, tlen=691, kl=0.257, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:16<02:23,  2.21s/it, pg=0.0304, rm=0.875, ret=-0.0492, glen=164, tlen=688, kl=0.256, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:16<04:38,  4.35s/it, pg=0.0304, rm=0.875, ret=-0.0492, glen=164, tlen=688, kl=0.256, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:19<04:38,  4.35s/it, pg=-0.228, rm=1, ret=0.207, glen=165, tlen=687, kl=0.259, act_lr=9.55e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:19<03:58,  3.78s/it, pg=-0.228, rm=1, ret=0.207, glen=165, tlen=687, kl=0.259, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:21<03:58,  3.78s/it, pg=0.197, rm=0.938, ret=-0.213, glen=161, tlen=856, kl=0.244, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:21<03:24,  3.29s/it, pg=0.197, rm=0.938, ret=-0.213, glen=161, tlen=856, kl=0.244, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:23<03:24,  3.29s/it, pg=-0.166, rm=1, ret=0.147, glen=150, tlen=966, kl=0.247, act_lr=9.55e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:23<02:57,  2.92s/it, pg=-0.166, rm=1, ret=0.147, glen=150, tlen=966, kl=0.247, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:25<02:57,  2.92s/it, pg=-0.104, rm=1.31, ret=0.086, glen=155, tlen=946, kl=0.231, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:25<02:36,  2.61s/it, pg=-0.104, rm=1.31, ret=0.086, glen=155, tlen=946, kl=0.231, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:27<02:36,  2.61s/it, pg=0.0207, rm=0.812, ret=-0.0386, glen=162, tlen=829, kl=0.238, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:27<02:24,  2.45s/it, pg=0.0207, rm=0.812, ret=-0.0386, glen=162, tlen=829, kl=0.238, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:29<02:24,  2.45s/it, pg=0.0209, rm=1.12, ret=-0.0398, glen=149, tlen=891, kl=0.267, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:29<02:12,  2.28s/it, pg=0.0209, rm=1.12, ret=-0.0398, glen=149, tlen=891, kl=0.267, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:31<02:12,  2.28s/it, pg=0.244, rm=1.12, ret=-0.257, glen=157, tlen=896, kl=0.246, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:31<02:02,  2.15s/it, pg=0.244, rm=1.12, ret=-0.257, glen=157, tlen=896, kl=0.246, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:41<02:02,  2.15s/it, pg=-0.0321, rm=0.812, ret=0.0125, glen=162, tlen=754, kl=0.257, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:41<04:07,  4.42s/it, pg=-0.0321, rm=0.812, ret=0.0125, glen=162, tlen=754, kl=0.257, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:42<04:07,  4.42s/it, pg=-0.0138, rm=1.12, ret=-0.00604, glen=160, tlen=836, kl=0.256, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:42<03:22,  3.68s/it, pg=-0.0138, rm=1.12, ret=-0.00604, glen=160, tlen=836, kl=0.256, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:44<03:22,  3.68s/it, pg=0.0206, rm=1.25, ret=-0.0405, glen=152, tlen=943, kl=0.266, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:44<02:49,  3.14s/it, pg=0.0206, rm=1.25, ret=-0.0405, glen=152, tlen=943, kl=0.266, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:46<02:49,  3.14s/it, pg=-0.0316, rm=1.12, ret=0.013, glen=154, tlen=822, kl=0.267, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:46<02:26,  2.76s/it, pg=-0.0316, rm=1.12, ret=0.013, glen=154, tlen=822, kl=0.267, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:48<02:26,  2.76s/it, pg=0.437, rm=1.06, ret=-0.451, glen=159, tlen=759, kl=0.245, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:48<02:11,  2.53s/it, pg=0.437, rm=1.06, ret=-0.451, glen=159, tlen=759, kl=0.245, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:51<02:11,  2.53s/it, pg=0.0255, rm=1, ret=-0.0445, glen=155, tlen=936, kl=0.263, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:51<02:10,  2.56s/it, pg=0.0255, rm=1, ret=-0.0445, glen=155, tlen=936, kl=0.263, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:53<02:10,  2.56s/it, pg=-0.00824, rm=1, ret=-0.0101, glen=147, tlen=809, kl=0.258, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:53<01:59,  2.39s/it, pg=-0.00824, rm=1, ret=-0.0101, glen=147, tlen=809, kl=0.258, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:55<01:59,  2.39s/it, pg=-0.171, rm=1.12, ret=0.154, glen=153, tlen=866, kl=0.266, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:55<01:49,  2.23s/it, pg=-0.171, rm=1.12, ret=0.154, glen=153, tlen=866, kl=0.266, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:05<01:49,  2.23s/it, pg=0.0414, rm=0.812, ret=-0.0607, glen=159, tlen=882, kl=0.26, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:05<03:40,  4.60s/it, pg=0.0414, rm=0.812, ret=-0.0607, glen=159, tlen=882, kl=0.26, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:07<03:40,  4.60s/it, pg=0.0231, rm=0.812, ret=-0.0443, glen=162, tlen=830, kl=0.273, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:07<02:58,  3.80s/it, pg=0.0231, rm=0.812, ret=-0.0443, glen=162, tlen=830, kl=0.273, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:09<02:58,  3.80s/it, pg=-0.103, rm=1.31, ret=0.0855, glen=156, tlen=947, kl=0.234, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:09<02:28,  3.23s/it, pg=-0.103, rm=1.31, ret=0.0855, glen=156, tlen=947, kl=0.234, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:11<02:28,  3.23s/it, pg=-0.179, rm=1.12, ret=0.161, glen=160, tlen=830, kl=0.256, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:11<02:12,  2.95s/it, pg=-0.179, rm=1.12, ret=0.161, glen=160, tlen=830, kl=0.256, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:13<02:12,  2.95s/it, pg=-0.0501, rm=0.875, ret=0.0321, glen=145, tlen=869, kl=0.26, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:13<02:00,  2.74s/it, pg=-0.0501, rm=0.875, ret=0.0321, glen=145, tlen=869, kl=0.26, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:15<02:00,  2.74s/it, pg=-0.0137, rm=1.12, ret=-0.00574, glen=146, tlen=822, kl=0.279, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:15<01:46,  2.48s/it, pg=-0.0137, rm=1.12, ret=-0.00574, glen=146, tlen=822, kl=0.279, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:17<01:46,  2.48s/it, pg=-0.0795, rm=0.75, ret=0.0591, glen=161, tlen=985, kl=0.26, act_lr=9.55e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:17<01:37,  2.32s/it, pg=-0.0795, rm=0.75, ret=0.0591, glen=161, tlen=985, kl=0.26, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:19<01:37,  2.32s/it, pg=0.0562, rm=1.06, ret=-0.0755, glen=158, tlen=936, kl=0.257, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:19<01:29,  2.19s/it, pg=0.0562, rm=1.06, ret=-0.0755, glen=158, tlen=936, kl=0.257, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:29<01:29,  2.19s/it, pg=0.0546, rm=1, ret=-0.0734, glen=155, tlen=1.04e+3, kl=0.251, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:29<03:03,  4.60s/it, pg=0.0546, rm=1, ret=-0.0734, glen=155, tlen=1.04e+3, kl=0.251, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:31<03:03,  4.60s/it, pg=-0.0746, rm=0.812, ret=0.0566, glen=153, tlen=1.03e+3, kl=0.255, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:31<02:32,  3.91s/it, pg=-0.0746, rm=0.812, ret=0.0566, glen=153, tlen=1.03e+3, kl=0.255, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:34<02:32,  3.91s/it, pg=0.0911, rm=0.938, ret=-0.11, glen=153, tlen=1.09e+3, kl=0.264, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:34<02:07,  3.36s/it, pg=0.0911, rm=0.938, ret=-0.11, glen=153, tlen=1.09e+3, kl=0.264, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:36<02:07,  3.36s/it, pg=-0.0689, rm=0.938, ret=0.0507, glen=145, tlen=672, kl=0.268, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:36<01:50,  2.98s/it, pg=-0.0689, rm=0.938, ret=0.0507, glen=145, tlen=672, kl=0.268, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:38<01:50,  2.98s/it, pg=0.0909, rm=0.875, ret=-0.107, glen=163, tlen=1038.0, kl=0.234, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:38<01:40,  2.79s/it, pg=0.0909, rm=0.875, ret=-0.107, glen=163, tlen=1038.0, kl=0.234, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:40<01:40,  2.79s/it, pg=0.028, rm=1, ret=-0.0477, glen=173, tlen=954, kl=0.255, act_lr=9.55e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:40<01:28,  2.53s/it, pg=0.028, rm=1, ret=-0.0477, glen=173, tlen=954, kl=0.255, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:42<01:28,  2.53s/it, pg=-0.0486, rm=1.06, ret=0.0289, glen=150, tlen=744, kl=0.272, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:42<01:19,  2.33s/it, pg=-0.0486, rm=1.06, ret=0.0289, glen=150, tlen=744, kl=0.272, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:44<01:19,  2.33s/it, pg=0.0901, rm=0.938, ret=-0.109, glen=151, tlen=963, kl=0.255, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:44<01:17,  2.35s/it, pg=0.0901, rm=0.938, ret=-0.109, glen=151, tlen=963, kl=0.255, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:54<01:17,  2.35s/it, pg=0.0285, rm=1.06, ret=-0.0464, glen=160, tlen=905, kl=0.245, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:54<02:27,  4.60s/it, pg=0.0285, rm=1.06, ret=-0.0464, glen=160, tlen=905, kl=0.245, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:56<02:27,  4.60s/it, pg=-0.125, rm=1, ret=0.111, glen=152, tlen=1.05e+3, kl=0.228, act_lr=9.55e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:56<01:57,  3.81s/it, pg=-0.125, rm=1, ret=0.111, glen=152, tlen=1.05e+3, kl=0.228, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:58<01:57,  3.81s/it, pg=0.0285, rm=1.06, ret=-0.0461, glen=153, tlen=898, kl=0.253, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:58<01:36,  3.22s/it, pg=0.0285, rm=1.06, ret=-0.0461, glen=153, tlen=898, kl=0.253, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:00<01:36,  3.22s/it, pg=0.16, rm=0.812, ret=-0.181, glen=146, tlen=918, kl=0.285, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:00<01:24,  2.92s/it, pg=0.16, rm=0.812, ret=-0.181, glen=146, tlen=918, kl=0.285, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:02<01:24,  2.92s/it, pg=-0.0141, rm=1.06, ret=-0.00198, glen=149, tlen=878, kl=0.248, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:02<01:16,  2.74s/it, pg=-0.0141, rm=1.06, ret=-0.00198, glen=149, tlen=878, kl=0.248, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:05<01:16,  2.74s/it, pg=-0.0109, rm=0.875, ret=-0.00622, glen=143, tlen=737, kl=0.263, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:05<01:09,  2.57s/it, pg=-0.0109, rm=0.875, ret=-0.00622, glen=143, tlen=737, kl=0.263, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:07<01:09,  2.57s/it, pg=0.0417, rm=0.812, ret=-0.0613, glen=151, tlen=874, kl=0.278, act_lr=9.55e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:07<01:03,  2.45s/it, pg=0.0417, rm=0.812, ret=-0.0613, glen=151, tlen=874, kl=0.278, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:09<01:03,  2.45s/it, pg=-0.0102, rm=1.06, ret=-0.00928, glen=151, tlen=966, kl=0.269, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:09<00:58,  2.34s/it, pg=-0.0102, rm=1.06, ret=-0.00928, glen=151, tlen=966, kl=0.269, act_lr=9.55e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:19<00:58,  2.34s/it, pg=0.112, rm=1, ret=-0.128, glen=144, tlen=1.02e+3, kl=0.23, act_lr=9.54e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:19<01:54,  4.77s/it, pg=0.112, rm=1, ret=-0.128, glen=144, tlen=1.02e+3, kl=0.23, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:21<01:54,  4.77s/it, pg=-0.371, rm=1.31, ret=0.353, glen=152, tlen=836, kl=0.247, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:21<01:31,  3.96s/it, pg=-0.371, rm=1.31, ret=0.353, glen=152, tlen=836, kl=0.247, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:23<01:31,  3.96s/it, pg=0.112, rm=1.12, ret=-0.13, glen=160, tlen=953, kl=0.245, act_lr=9.54e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:23<01:14,  3.39s/it, pg=0.112, rm=1.12, ret=-0.13, glen=160, tlen=953, kl=0.245, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:26<01:14,  3.39s/it, pg=0.0724, rm=0.938, ret=-0.0908, glen=153, tlen=769, kl=0.268, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:26<01:04,  3.08s/it, pg=0.0724, rm=0.938, ret=-0.0908, glen=153, tlen=769, kl=0.268, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:28<01:04,  3.08s/it, pg=0.00606, rm=0.875, ret=-0.0242, glen=161, tlen=917, kl=0.248, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:28<00:55,  2.79s/it, pg=0.00606, rm=0.875, ret=-0.0242, glen=161, tlen=917, kl=0.248, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:30<00:55,  2.79s/it, pg=0.0641, rm=1, ret=-0.0817, glen=163, tlen=874, kl=0.242, act_lr=9.54e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:30<00:47,  2.50s/it, pg=0.0641, rm=1, ret=-0.0817, glen=163, tlen=874, kl=0.242, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:32<00:47,  2.50s/it, pg=-0.0439, rm=0.875, ret=0.0288, glen=148, tlen=1.1e+3, kl=0.216, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:32<00:44,  2.45s/it, pg=-0.0439, rm=0.875, ret=0.0288, glen=148, tlen=1.1e+3, kl=0.216, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:34<00:44,  2.45s/it, pg=-0.0504, rm=1.06, ret=0.0342, glen=144, tlen=738, kl=0.248, act_lr=9.54e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:34<00:38,  2.27s/it, pg=-0.0504, rm=1.06, ret=0.0342, glen=144, tlen=738, kl=0.248, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:44<00:38,  2.27s/it, pg=0.323, rm=1, ret=-0.342, glen=160, tlen=761, kl=0.256, act_lr=9.54e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:44<01:11,  4.50s/it, pg=0.323, rm=1, ret=-0.342, glen=160, tlen=761, kl=0.256, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:46<01:11,  4.50s/it, pg=0.00446, rm=1, ret=-0.021, glen=154, tlen=834, kl=0.238, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:46<00:57,  3.83s/it, pg=0.00446, rm=1, ret=-0.021, glen=154, tlen=834, kl=0.238, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:48<00:57,  3.83s/it, pg=-0.0148, rm=1.06, ret=-0.00437, glen=153, tlen=883, kl=0.256, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:48<00:47,  3.36s/it, pg=-0.0148, rm=1.06, ret=-0.00437, glen=153, tlen=883, kl=0.256, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:50<00:47,  3.36s/it, pg=0.0229, rm=0.938, ret=-0.0411, glen=153, tlen=676, kl=0.268, act_lr=9.54e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:50<00:39,  3.03s/it, pg=0.0229, rm=0.938, ret=-0.0411, glen=153, tlen=676, kl=0.268, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:52<00:39,  3.03s/it, pg=-0.0763, rm=0.812, ret=0.0576, glen=140, tlen=1.01e+3, kl=0.272, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:52<00:32,  2.70s/it, pg=-0.0763, rm=0.812, ret=0.0576, glen=140, tlen=1.01e+3, kl=0.272, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:54<00:32,  2.70s/it, pg=0.0592, rm=0.75, ret=-0.0794, glen=158, tlen=792, kl=0.281, act_lr=9.54e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:54<00:26,  2.44s/it, pg=0.0592, rm=0.75, ret=-0.0794, glen=158, tlen=792, kl=0.281, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:56<00:26,  2.44s/it, pg=0.145, rm=1.06, ret=-0.161, glen=150, tlen=1.02e+3, kl=0.261, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:56<00:23,  2.33s/it, pg=0.145, rm=1.06, ret=-0.161, glen=150, tlen=1.02e+3, kl=0.261, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:58<00:23,  2.33s/it, pg=0.0705, rm=1.19, ret=-0.0889, glen=161, tlen=776, kl=0.276, act_lr=9.54e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:58<00:20,  2.24s/it, pg=0.0705, rm=1.19, ret=-0.0889, glen=161, tlen=776, kl=0.276, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:08<00:20,  2.24s/it, pg=0.0872, rm=0.938, ret=-0.102, glen=144, tlen=1.02e+3, kl=0.222, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:08<00:36,  4.54s/it, pg=0.0872, rm=0.938, ret=-0.102, glen=144, tlen=1.02e+3, kl=0.222, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:10<00:36,  4.54s/it, pg=-0.35, rm=0.938, ret=0.335, glen=141, tlen=1.15e+3, kl=0.249, act_lr=9.54e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:10<00:26,  3.84s/it, pg=-0.35, rm=0.938, ret=0.335, glen=141, tlen=1.15e+3, kl=0.249, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:12<00:26,  3.84s/it, pg=-0.00173, rm=1.06, ret=-0.0152, glen=155, tlen=948, kl=0.261, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:12<00:20,  3.34s/it, pg=-0.00173, rm=1.06, ret=-0.0152, glen=155, tlen=948, kl=0.261, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:14<00:20,  3.34s/it, pg=0.123, rm=0.938, ret=-0.14, glen=140, tlen=947, kl=0.27, act_lr=9.54e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:14<00:14,  2.90s/it, pg=0.123, rm=0.938, ret=-0.14, glen=140, tlen=947, kl=0.27, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:17<00:14,  2.90s/it, pg=0.0553, rm=1.19, ret=-0.0734, glen=159, tlen=761, kl=0.264, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:17<00:10,  2.68s/it, pg=0.0553, rm=1.19, ret=-0.0734, glen=159, tlen=761, kl=0.264, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:19<00:10,  2.68s/it, pg=0.119, rm=0.812, ret=-0.136, glen=141, tlen=1057.0, kl=0.256, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:19<00:07,  2.66s/it, pg=0.119, rm=0.812, ret=-0.136, glen=141, tlen=1057.0, kl=0.256, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:21<00:07,  2.66s/it, pg=0.0572, rm=0.875, ret=-0.0741, glen=142, tlen=1.03e+3, kl=0.25, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:21<00:05,  2.51s/it, pg=0.0572, rm=0.875, ret=-0.0741, glen=142, tlen=1.03e+3, kl=0.25, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:23<00:05,  2.51s/it, pg=0.0643, rm=1, ret=-0.0824, glen=154, tlen=893, kl=0.246, act_lr=9.54e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:23<00:02,  2.39s/it, pg=0.0643, rm=1, ret=-0.0824, glen=154, tlen=893, kl=0.246, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:33<00:02,  2.39s/it, pg=0.0936, rm=0.938, ret=-0.111, glen=149, tlen=882, kl=0.25, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:33<00:00,  4.53s/it, pg=0.0936, rm=0.938, ret=-0.111, glen=149, tlen=882, kl=0.25, act_lr=9.54e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:33<00:00,  3.07s/it, pg=0.0936, rm=0.938, ret=-0.111, glen=149, tlen=882, kl=0.25, act_lr=9.54e-7]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:01:27 [executor_base.py:219] It took 1.747140 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279381)[0m INFO 05-28 12:01:29 [executor_base.py:219] It took 3.303666 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.1.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 3266x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m update weight: model.layers.11.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 953x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.21.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 888x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:01:50 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:01:50 [executor_base.py:208] It took 1.399566 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 678x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   2%|▏         | 3/127 [48:33<25:00:38, 726.11s/it, policy_loss=0.0211, actor_lr=9.55e-7, kl=0.256, reward=1.01, response_length=153, total_length=881, acc_rewards=0.511, format_rewards=0.5, return=-0.0393] 
+Episode [1/2]:   3%|▎         | 4/127 [48:33<24:39:36, 721.76s/it, policy_loss=0.0211, actor_lr=9.55e-7, kl=0.256, reward=1.01, response_length=153, total_length=881, acc_rewards=0.511, format_rewards=0.5, return=-0.0393]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:01:52 [executor_base.py:219] It took 1.537958 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 1/256 [00:22<1:36:55, 22.81s/it, est. speed input: 67.70 toks/s, output: 3.86 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   1%|          | 3/256 [00:22<25:13,  5.98s/it, est. speed input: 201.48 toks/s, output: 11.66 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:23<12:36,  3.01s/it, est. speed input: 329.64 toks/s, output: 19.87 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   3%|▎         | 8/256 [00:23<06:01,  1.46s/it, est. speed input: 524.43 toks/s, output: 32.83 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   4%|▍         | 10/256 [00:23<04:10,  1.02s/it, est. speed input: 648.11 toks/s, output: 41.53 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   6%|▋         | 16/256 [00:23<01:43,  2.32it/s, est. speed input: 983.84 toks/s, output: 69.28 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   7%|▋         | 19/256 [00:24<01:14,  3.16it/s, est. speed input: 1128.86 toks/s, output: 83.21 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   9%|▊         | 22/256 [00:24<00:54,  4.26it/s, est. speed input: 1271.36 toks/s, output: 97.46 toks/s]
+Processed prompts:  10%|▉         | 25/256 [00:24<00:40,  5.64it/s, est. speed input: 1407.93 toks/s, output: 111.92 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  11%|█         | 28/256 [00:24<00:31,  7.31it/s, est. speed input: 1500.27 toks/s, output: 126.53 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  12%|█▎        | 32/256 [00:24<00:22, 10.18it/s, est. speed input: 1609.47 toks/s, output: 146.50 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  16%|█▌        | 41/256 [00:24<00:11, 18.97it/s, est. speed input: 1810.60 toks/s, output: 193.03 toks/s]
+Processed prompts:  19%|█▉        | 48/256 [00:24<00:08, 25.40it/s, est. speed input: 1969.33 toks/s, output: 229.43 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  21%|██▏       | 55/256 [00:24<00:06, 31.88it/s, est. speed input: 2131.21 toks/s, output: 266.33 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  24%|██▍       | 61/256 [00:25<00:05, 36.15it/s, est. speed input: 2366.23 toks/s, output: 298.46 toks/s]
+Processed prompts:  26%|██▌       | 67/256 [00:25<00:04, 40.13it/s, est. speed input: 2592.46 toks/s, output: 331.03 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  30%|███       | 78/256 [00:25<00:03, 54.84it/s, est. speed input: 2874.53 toks/s, output: 392.58 toks/s]
+Processed prompts:  35%|███▌      | 90/256 [00:25<00:02, 69.78it/s, est. speed input: 3193.25 toks/s, output: 460.54 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  39%|███▊      | 99/256 [00:25<00:02, 63.47it/s, est. speed input: 3370.53 toks/s, output: 510.76 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  46%|████▋     | 119/256 [00:25<00:01, 88.62it/s, est. speed input: 3786.04 toks/s, output: 629.69 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  52%|█████▏    | 134/256 [00:25<00:01, 99.04it/s, est. speed input: 4128.33 toks/s, output: 719.83 toks/s]
+Processed prompts:  59%|█████▉    | 152/256 [00:25<00:00, 117.86it/s, est. speed input: 4595.35 toks/s, output: 830.95 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  69%|██████▉   | 177/256 [00:26<00:00, 145.47it/s, est. speed input: 5116.24 toks/s, output: 988.97 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  77%|███████▋  | 196/256 [00:26<00:00, 153.99it/s, est. speed input: 5514.29 toks/s, output: 1111.08 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  83%|████████▎ | 212/256 [00:26<00:00, 129.61it/s, est. speed input: 5855.11 toks/s, output: 1213.26 toks/s]
+Processed prompts:  88%|████████▊ | 226/256 [00:26<00:00, 130.46it/s, est. speed input: 6139.75 toks/s, output: 1308.00 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  94%|█████████▍| 240/256 [00:26<00:00, 117.17it/s, est. speed input: 6370.36 toks/s, output: 1403.59 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  99%|█████████▉| 253/256 [00:27<00:00, 57.06it/s, est. speed input: 6502.59 toks/s, output: 1475.29 toks/s] 
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.19it/s, est. speed input: 6374.36 toks/s, output: 1465.23 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   5%|▍         | 12/256 [00:26<02:10,  1.87it/s, est. speed input: 612.98 toks/s, output: 42.81 toks/s][32m [repeated 16x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  32%|███▏      | 82/256 [00:28<00:02, 62.76it/s, est. speed input: 2939.67 toks/s, output: 354.77 toks/s]
+Processed prompts:  38%|███▊      | 97/256 [00:28<00:01, 80.96it/s, est. speed input: 3397.72 toks/s, output: 428.03 toks/s][32m [repeated 11x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  88%|████████▊ | 224/256 [00:24<00:00, 116.95it/s, est. speed input: 5803.06 toks/s, output: 1390.22 toks/s]
+Processed prompts:  92%|█████████▏| 236/256 [00:24<00:00, 111.01it/s, est. speed input: 6047.80 toks/s, output: 1479.60 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  91%|█████████▏| 234/256 [00:28<00:00, 106.52it/s, est. speed input: 6130.99 toks/s, output: 1215.41 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00, 35.31it/s, est. speed input: 6418.94 toks/s, output: 1337.26 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00,  8.65it/s, est. speed input: 6418.94 toks/s, output: 1337.26 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  71%|███████   | 181/256 [00:22<00:00, 123.45it/s, est. speed input: 5192.99 toks/s, output: 1070.70 toks/s][32m [repeated 49x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  76%|███████▌  | 194/256 [00:22<00:00, 110.16it/s, est. speed input: 5416.81 toks/s, output: 1161.87 toks/s]
+Processed prompts:  81%|████████  | 207/256 [00:22<00:00, 110.20it/s, est. speed input: 5656.44 toks/s, output: 1256.50 toks/s][32m [repeated 22x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  89%|████████▉ | 229/256 [00:29<00:00, 105.14it/s, est. speed input: 6426.48 toks/s, output: 1104.22 toks/s]
+Processed prompts:  94%|█████████▍| 241/256 [00:29<00:00, 96.59it/s, est. speed input: 6587.29 toks/s, output: 1178.05 toks/s] 
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:23<00:00, 10.97it/s, est. speed input: 6479.97 toks/s, output: 1633.79 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  45%|████▍     | 115/256 [00:33<00:01, 74.67it/s, est. speed input: 4351.37 toks/s, output: 419.06 toks/s][32m [repeated 25x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  81%|████████  | 207/256 [00:34<00:00, 114.39it/s, est. speed input: 6327.13 toks/s, output: 809.25 toks/s]
+Processed prompts:  86%|████████▋ | 221/256 [00:34<00:00, 118.07it/s, est. speed input: 6545.27 toks/s, output: 877.09 toks/s][32m [repeated 13x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 12:01:50 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.41 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 12:01:50 [executor_base.py:208] It took 1.619843 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:01:54 [executor_base.py:219] It took 3.140440 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 888x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 888x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(ActorModelRayActor pid=287375)[0m 1254400
+[36m(ActorModelRayActor pid=287375)[0m 
+[36m(ActorModelRayActor pid=287372)[0m ele.get("min_pixels" 3136[32m [repeated 762x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("max_pixels" 1254400[32m [repeated 762x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:03:41 [worker.py:133] Sleep mode freed 38.53 GiB memory, 22.31 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:03:41 [executor_base.py:208] It took 1.468965 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287372)[0m ele.get("min_pixels" 3136[32m [repeated 365x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("max_pixels" 1254400[32m [repeated 365x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:36<00:00,  6.99it/s, est. speed input: 6618.37 toks/s, output: 1060.96 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  91%|█████████ | 233/256 [00:34<00:00, 94.77it/s, est. speed input: 6675.86 toks/s, output: 935.14 toks/s] [32m [repeated 6x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<03:00,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:58,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<03:01,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<02:54,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<02:51,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:50,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:09<02:49,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:49,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:43,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:13<02:40,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:15<02:38,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:16<02:34,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:17<02:32,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:19<02:30,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:20<02:28,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:21<02:27,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:23<02:24,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:24<02:23,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:25<02:24,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:27<02:22,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:28<02:22,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:29<02:19,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:31<02:21,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:32<02:19,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:33<02:21,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:35<02:23,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:36<02:21,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:38<02:22,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:39<02:21,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:41<02:18,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:42<02:18,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:43<02:17,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:45<02:13,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:46<02:11,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:48<02:10,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:49<02:07,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:50<02:05,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:52<02:03,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:53<02:01,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:54<02:01,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:56<01:57,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:57<01:55,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:58<01:53,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [01:00<01:54,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [01:01<01:52,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:02<01:51,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:04<01:48,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:05<01:47,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:06<01:44,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:08<01:42,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:09<01:43,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:10<01:42,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:12<01:40,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:13<01:37,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:14<01:37,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:16<01:37,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:17<01:35,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:19<01:36,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:20<01:33,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:21<01:31,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:23<01:30,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:24<01:27,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:25<01:28,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:27<01:27,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:28<01:25,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:29<01:26,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:31<01:26,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:32<01:25,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|████���▍    | 69/128 [01:34<01:23,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:35<01:23,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:37<01:20,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:38<01:18,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:39<01:16,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:41<01:16,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:42<01:14,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:44<01:14,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:45<01:12,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:46<01:10,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:48<01:09,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:52<01:40,  2.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:53<01:28,  1.89s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:56<01:36,  2.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:57<01:27,  1.94s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:59<01:28,  2.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [02:01<01:18,  1.84s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [02:02<01:11,  1.71s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [02:04<01:06,  1.62s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [02:05<01:02,  1.56s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:06<00:58,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:08<00:56,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:09<00:54,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:11<00:52,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:12<00:50,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:14<00:49,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:15<00:48,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:17<00:47,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:18<00:45,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:19<00:44,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:21<00:42,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:22<00:41,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:24<00:40,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:25<00:38,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:27<00:37,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:28<00:36,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:30<00:34,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:31<00:33,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:33<00:31,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:35<00:31,  1.57s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:36<00:29,  1.55s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:38<00:27,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:39<00:26,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:41<00:24,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:42<00:22,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:44<00:20,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:45<00:18,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:46<00:17,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:48<00:16,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:49<00:14,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:51<00:13,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:52<00:11,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:54<00:10,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:55<00:08,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:57<00:07,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:58<00:05,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [03:00<00:04,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [03:01<00:02,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [03:03<00:01,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [03:04<00:00,  1.45s/it][A
+make_experience: 100%|██████████| 128/128 [03:04<00:00,  1.44s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nHow faithful is the image to this prompt: "A large quantity Segway and 3 Lipstick"?\nPlease evaluate how well the image matches each element of provided prompt.\n\n And answer with the final alignment rating.\nRate it from 0 to 5 (float, 2 decimals). A rating of 0 represents very poor alignment level, while 5 represents excellent alignment level.\'\nassistant\n<think> The image shows a total of six scooter-like vehicles, which do not appear to be Segways but could be interpreted as electric scooters. However, the prompt only asks for a "large quantity" of Segway, which is not clear from the image as it does not define Segway specifically. Regarding the lipsticks, there are indeed three, which matches the prompt. However, the number of lipsticks is not in a "large quantity" as defined in the prompt.</think>\n<answer>3.00</answer>']
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:03:41 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.39 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:03:41 [executor_base.py:208] It took 1.692146 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("min_pixels" 3136[32m [repeated 32x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("max_pixels" 1254400[32m [repeated 32x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=-0.013, rm=0.938, ret=-0.00629, glen=163, tlen=1110.5, kl=0.238, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:07,  2.42s/it, pg=-0.013, rm=0.938, ret=-0.00629, glen=163, tlen=1110.5, kl=0.238, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:05<05:07,  2.42s/it, pg=-0.0366, rm=0.812, ret=0.0184, glen=147, tlen=1.16e+3, kl=0.243, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:05<05:47,  2.76s/it, pg=-0.0366, rm=0.812, ret=0.0184, glen=147, tlen=1.16e+3, kl=0.243, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:08<05:47,  2.76s/it, pg=-0.0711, rm=0.938, ret=0.0544, glen=151, tlen=994, kl=0.246, act_lr=9.54e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:08<05:43,  2.75s/it, pg=-0.0711, rm=0.938, ret=0.0544, glen=151, tlen=994, kl=0.246, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:10<05:43,  2.75s/it, pg=-0.000813, rm=1.06, ret=-0.0173, glen=152, tlen=1.12e+3, kl=0.259, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:10<05:02,  2.44s/it, pg=-0.000813, rm=1.06, ret=-0.0173, glen=152, tlen=1.12e+3, kl=0.259, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:12<05:02,  2.44s/it, pg=-0.02, rm=0.812, ret=0.00152, glen=164, tlen=798, kl=0.239, act_lr=9.54e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:12<04:35,  2.24s/it, pg=-0.02, rm=0.812, ret=0.00152, glen=164, tlen=798, kl=0.239, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:14<04:35,  2.24s/it, pg=0.165, rm=1.06, ret=-0.183, glen=138, tlen=1.06e+3, kl=0.254, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:14<04:28,  2.20s/it, pg=0.165, rm=1.06, ret=-0.183, glen=138, tlen=1.06e+3, kl=0.254, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:16<04:28,  2.20s/it, pg=0.0472, rm=0.875, ret=-0.0682, glen=163, tlen=760, kl=0.263, act_lr=9.54e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:16<04:27,  2.21s/it, pg=0.0472, rm=0.875, ret=-0.0682, glen=163, tlen=760, kl=0.263, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:26<04:27,  2.21s/it, pg=0.0356, rm=1, ret=-0.0533, glen=148, tlen=842, kl=0.246, act_lr=9.54e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:26<09:14,  4.62s/it, pg=0.0356, rm=1, ret=-0.0533, glen=148, tlen=842, kl=0.246, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:28<09:14,  4.62s/it, pg=-0.0105, rm=1.06, ret=-0.008, glen=147, tlen=899, kl=0.281, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:28<07:46,  3.92s/it, pg=-0.0105, rm=1.06, ret=-0.008, glen=147, tlen=899, kl=0.281, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:31<07:46,  3.92s/it, pg=-0.0347, rm=0.812, ret=0.0152, glen=162, tlen=1.18e+3, kl=0.241, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:31<06:56,  3.53s/it, pg=-0.0347, rm=0.812, ret=0.0152, glen=162, tlen=1.18e+3, kl=0.241, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:33<06:56,  3.53s/it, pg=-0.0624, rm=0.875, ret=0.0426, glen=162, tlen=807, kl=0.278, act_lr=9.54e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:33<05:53,  3.02s/it, pg=-0.0624, rm=0.875, ret=0.0426, glen=162, tlen=807, kl=0.278, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:35<05:53,  3.02s/it, pg=0.0956, rm=0.875, ret=-0.111, glen=138, tlen=1179.5, kl=0.239, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:35<05:27,  2.82s/it, pg=0.0956, rm=0.875, ret=-0.111, glen=138, tlen=1179.5, kl=0.239, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:37<05:27,  2.82s/it, pg=-0.035, rm=1, ret=0.0151, glen=156, tlen=772, kl=0.289, act_lr=9.54e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:37<04:57,  2.59s/it, pg=-0.035, rm=1, ret=0.0151, glen=156, tlen=772, kl=0.289, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:39<04:57,  2.59s/it, pg=0.178, rm=0.812, ret=-0.196, glen=158, tlen=868, kl=0.251, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:39<04:32,  2.39s/it, pg=0.178, rm=0.812, ret=-0.196, glen=158, tlen=868, kl=0.251, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:41<04:32,  2.39s/it, pg=-0.138, rm=1.12, ret=0.12, glen=148, tlen=900, kl=0.256, act_lr=9.54e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:41<04:29,  2.38s/it, pg=-0.138, rm=1.12, ret=0.12, glen=148, tlen=900, kl=0.256, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:51<04:29,  2.38s/it, pg=0.273, rm=0.688, ret=-0.293, glen=164, tlen=890, kl=0.273, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:51<08:31,  4.56s/it, pg=0.273, rm=0.688, ret=-0.293, glen=164, tlen=890, kl=0.273, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:53<08:31,  4.56s/it, pg=-0.000306, rm=0.875, ret=-0.0182, glen=160, tlen=782, kl=0.257, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:53<06:57,  3.77s/it, pg=-0.000306, rm=0.875, ret=-0.0182, glen=160, tlen=782, kl=0.257, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:55<06:57,  3.77s/it, pg=0.317, rm=0.812, ret=-0.333, glen=150, tlen=722, kl=0.25, act_lr=9.54e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:55<05:57,  3.25s/it, pg=0.317, rm=0.812, ret=-0.333, glen=150, tlen=722, kl=0.25, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:57<05:57,  3.25s/it, pg=0.28, rm=0.75, ret=-0.296, glen=144, tlen=1.1e+3, kl=0.246, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:57<05:09,  2.84s/it, pg=0.28, rm=0.75, ret=-0.296, glen=144, tlen=1.1e+3, kl=0.246, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:59<05:09,  2.84s/it, pg=-0.117, rm=0.875, ret=0.0994, glen=150, tlen=829, kl=0.268, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:59<04:56,  2.74s/it, pg=-0.117, rm=0.875, ret=0.0994, glen=150, tlen=829, kl=0.268, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:01<04:56,  2.74s/it, pg=0.043, rm=0.812, ret=-0.0612, glen=150, tlen=921, kl=0.241, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:01<04:36,  2.58s/it, pg=0.043, rm=0.812, ret=-0.0612, glen=150, tlen=921, kl=0.241, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:04<04:36,  2.58s/it, pg=-0.107, rm=0.812, ret=0.0895, glen=152, tlen=834, kl=0.241, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:04<04:20,  2.46s/it, pg=-0.107, rm=0.812, ret=0.0895, glen=152, tlen=834, kl=0.241, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:06<04:20,  2.46s/it, pg=-0.0852, rm=1.12, ret=0.0689, glen=140, tlen=1.06e+3, kl=0.239, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:06<04:16,  2.44s/it, pg=-0.0852, rm=1.12, ret=0.0689, glen=140, tlen=1.06e+3, kl=0.239, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:16<04:16,  2.44s/it, pg=0.0244, rm=0.875, ret=-0.0437, glen=147, tlen=856, kl=0.288, act_lr=9.54e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:16<08:15,  4.77s/it, pg=0.0244, rm=0.875, ret=-0.0437, glen=147, tlen=856, kl=0.288, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:18<08:15,  4.77s/it, pg=0.12, rm=0.75, ret=-0.139, glen=149, tlen=1.05e+3, kl=0.254, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:18<06:49,  3.98s/it, pg=0.12, rm=0.75, ret=-0.139, glen=149, tlen=1.05e+3, kl=0.254, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:20<06:49,  3.98s/it, pg=-0.00179, rm=0.812, ret=-0.0189, glen=151, tlen=883, kl=0.277, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:20<05:45,  3.39s/it, pg=-0.00179, rm=0.812, ret=-0.0189, glen=151, tlen=883, kl=0.277, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:23<05:45,  3.39s/it, pg=-0.0571, rm=1.06, ret=0.0393, glen=151, tlen=945, kl=0.253, act_lr=9.54e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:23<05:15,  3.12s/it, pg=-0.0571, rm=1.06, ret=0.0393, glen=151, tlen=945, kl=0.253, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:25<05:15,  3.12s/it, pg=-0.244, rm=0.938, ret=0.223, glen=156, tlen=827, kl=0.276, act_lr=9.54e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:25<04:35,  2.75s/it, pg=-0.244, rm=0.938, ret=0.223, glen=156, tlen=827, kl=0.276, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:27<04:35,  2.75s/it, pg=0.0166, rm=0.875, ret=-0.0341, glen=141, tlen=1295.0, kl=0.243, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:27<04:13,  2.56s/it, pg=0.0166, rm=0.875, ret=-0.0341, glen=141, tlen=1295.0, kl=0.243, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:29<04:13,  2.56s/it, pg=0.236, rm=0.812, ret=-0.256, glen=177, tlen=1.03e+3, kl=0.24, act_lr=9.54e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:29<03:52,  2.37s/it, pg=0.236, rm=0.812, ret=-0.256, glen=177, tlen=1.03e+3, kl=0.24, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:31<03:52,  2.37s/it, pg=-0.0415, rm=1, ret=0.0246, glen=164, tlen=780, kl=0.216, act_lr=9.54e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:31<03:39,  2.27s/it, pg=-0.0415, rm=1, ret=0.0246, glen=164, tlen=780, kl=0.216, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:41<03:39,  2.27s/it, pg=-0.0718, rm=0.875, ret=0.0548, glen=152, tlen=909, kl=0.247, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:41<07:27,  4.66s/it, pg=-0.0718, rm=0.875, ret=0.0548, glen=152, tlen=909, kl=0.247, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:44<07:27,  4.66s/it, pg=0.0769, rm=0.875, ret=-0.0953, glen=161, tlen=802, kl=0.274, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:44<06:25,  4.05s/it, pg=0.0769, rm=0.875, ret=-0.0953, glen=161, tlen=802, kl=0.274, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:46<06:25,  4.05s/it, pg=-0.302, rm=0.938, ret=0.286, glen=153, tlen=914, kl=0.273, act_lr=9.54e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:46<05:28,  3.50s/it, pg=-0.302, rm=0.938, ret=0.286, glen=153, tlen=914, kl=0.273, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:48<05:28,  3.50s/it, pg=0.0346, rm=0.812, ret=-0.0513, glen=146, tlen=958, kl=0.253, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:48<04:49,  3.11s/it, pg=0.0346, rm=0.812, ret=-0.0513, glen=146, tlen=958, kl=0.253, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:50<04:49,  3.11s/it, pg=0.00918, rm=1.06, ret=-0.0245, glen=139, tlen=1.02e+3, kl=0.229, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:50<04:18,  2.81s/it, pg=0.00918, rm=1.06, ret=-0.0245, glen=139, tlen=1.02e+3, kl=0.229, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:52<04:18,  2.81s/it, pg=0.00672, rm=0.875, ret=-0.0231, glen=157, tlen=821, kl=0.233, act_lr=9.54e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:52<03:49,  2.52s/it, pg=0.00672, rm=0.875, ret=-0.0231, glen=157, tlen=821, kl=0.233, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:54<03:49,  2.52s/it, pg=-0.165, rm=1.31, ret=0.146, glen=148, tlen=915, kl=0.264, act_lr=9.54e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:54<03:34,  2.39s/it, pg=-0.165, rm=1.31, ret=0.146, glen=148, tlen=915, kl=0.264, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:57<03:34,  2.39s/it, pg=0.00596, rm=0.812, ret=-0.0234, glen=147, tlen=931, kl=0.24, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:57<03:33,  2.40s/it, pg=0.00596, rm=0.812, ret=-0.0234, glen=147, tlen=931, kl=0.24, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:06<03:33,  2.40s/it, pg=-0.00389, rm=1, ret=-0.012, glen=145, tlen=1.03e+3, kl=0.241, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:06<06:41,  4.56s/it, pg=-0.00389, rm=1, ret=-0.012, glen=145, tlen=1.03e+3, kl=0.241, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:08<06:41,  4.56s/it, pg=0.103, rm=1.06, ret=-0.121, glen=150, tlen=807, kl=0.255, act_lr=9.54e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:08<05:28,  3.78s/it, pg=0.103, rm=1.06, ret=-0.121, glen=150, tlen=807, kl=0.255, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:10<05:28,  3.78s/it, pg=0.0186, rm=1, ret=-0.0383, glen=155, tlen=751, kl=0.271, act_lr=9.54e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:10<04:41,  3.27s/it, pg=0.0186, rm=1, ret=-0.0383, glen=155, tlen=751, kl=0.271, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:12<04:41,  3.27s/it, pg=0.181, rm=1, ret=-0.198, glen=159, tlen=817, kl=0.252, act_lr=9.54e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:12<04:02,  2.85s/it, pg=0.181, rm=1, ret=-0.198, glen=159, tlen=817, kl=0.252, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:14<04:02,  2.85s/it, pg=0.0463, rm=0.875, ret=-0.0669, glen=153, tlen=750, kl=0.272, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:14<03:41,  2.63s/it, pg=0.0463, rm=0.875, ret=-0.0669, glen=153, tlen=750, kl=0.272, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:17<03:41,  2.63s/it, pg=0.104, rm=0.75, ret=-0.122, glen=138, tlen=1.16e+3, kl=0.263, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:17<03:31,  2.55s/it, pg=0.104, rm=0.75, ret=-0.122, glen=138, tlen=1.16e+3, kl=0.263, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:19<03:31,  2.55s/it, pg=0.235, rm=1, ret=-0.255, glen=149, tlen=782, kl=0.265, act_lr=9.54e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:19<03:23,  2.48s/it, pg=0.235, rm=1, ret=-0.255, glen=149, tlen=782, kl=0.265, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:21<03:23,  2.48s/it, pg=0.122, rm=0.75, ret=-0.142, glen=161, tlen=1.06e+3, kl=0.255, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:21<03:11,  2.36s/it, pg=0.122, rm=0.75, ret=-0.142, glen=161, tlen=1.06e+3, kl=0.255, act_lr=9.54e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:31<03:11,  2.36s/it, pg=0.0614, rm=1, ret=-0.0778, glen=153, tlen=885, kl=0.235, act_lr=9.53e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:31<06:01,  4.52s/it, pg=0.0614, rm=1, ret=-0.0778, glen=153, tlen=885, kl=0.235, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:32<06:01,  4.52s/it, pg=0.105, rm=0.812, ret=-0.124, glen=162, tlen=904, kl=0.258, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:32<04:56,  3.76s/it, pg=0.105, rm=0.812, ret=-0.124, glen=162, tlen=904, kl=0.258, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:35<04:56,  3.76s/it, pg=0.12, rm=1, ret=-0.14, glen=143, tlen=940, kl=0.256, act_lr=9.53e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:35<04:13,  3.25s/it, pg=0.12, rm=1, ret=-0.14, glen=143, tlen=940, kl=0.256, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:37<04:13,  3.25s/it, pg=0.0399, rm=1, ret=-0.0592, glen=148, tlen=1.23e+3, kl=0.252, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:37<03:53,  3.04s/it, pg=0.0399, rm=1, ret=-0.0592, glen=148, tlen=1.23e+3, kl=0.252, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:39<03:53,  3.04s/it, pg=-0.0555, rm=1.12, ret=0.0344, glen=156, tlen=788, kl=0.29, act_lr=9.53e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:39<03:28,  2.75s/it, pg=-0.0555, rm=1.12, ret=0.0344, glen=156, tlen=788, kl=0.29, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:41<03:28,  2.75s/it, pg=-0.13, rm=1.12, ret=0.113, glen=148, tlen=1.12e+3, kl=0.231, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:41<03:14,  2.59s/it, pg=-0.13, rm=1.12, ret=0.113, glen=148, tlen=1.12e+3, kl=0.231, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:43<03:14,  2.59s/it, pg=-0.0912, rm=0.875, ret=0.0748, glen=149, tlen=961, kl=0.239, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:43<02:59,  2.43s/it, pg=-0.0912, rm=0.875, ret=0.0748, glen=149, tlen=961, kl=0.239, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:45<02:59,  2.43s/it, pg=-0.128, rm=1.12, ret=0.114, glen=153, tlen=1125.0, kl=0.214, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:45<02:46,  2.28s/it, pg=-0.128, rm=1.12, ret=0.114, glen=153, tlen=1125.0, kl=0.214, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:55<02:46,  2.28s/it, pg=-0.00983, rm=0.812, ret=-0.00957, glen=151, tlen=791, kl=0.278, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:55<05:26,  4.53s/it, pg=-0.00983, rm=0.812, ret=-0.00957, glen=151, tlen=791, kl=0.278, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:58<05:26,  4.53s/it, pg=-0.169, rm=0.875, ret=0.15, glen=154, tlen=812, kl=0.27, act_lr=9.53e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:58<04:40,  3.95s/it, pg=-0.169, rm=0.875, ret=0.15, glen=154, tlen=812, kl=0.27, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [03:00<04:40,  3.95s/it, pg=0.0578, rm=0.812, ret=-0.0761, glen=151, tlen=796, kl=0.258, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [03:00<03:56,  3.39s/it, pg=0.0578, rm=0.812, ret=-0.0761, glen=151, tlen=796, kl=0.258, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [03:02<03:56,  3.39s/it, pg=-0.0769, rm=0.938, ret=0.0586, glen=156, tlen=798, kl=0.273, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:02<03:21,  2.92s/it, pg=-0.0769, rm=0.938, ret=0.0586, glen=156, tlen=798, kl=0.273, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:04<03:21,  2.92s/it, pg=-0.00655, rm=1, ret=-0.00834, glen=144, tlen=899, kl=0.218, act_lr=9.53e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:04<02:57,  2.61s/it, pg=-0.00655, rm=1, ret=-0.00834, glen=144, tlen=899, kl=0.218, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:06<02:57,  2.61s/it, pg=-0.0171, rm=0.812, ret=-0.00399, glen=154, tlen=1.06e+3, kl=0.276, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:06<02:44,  2.45s/it, pg=-0.0171, rm=0.812, ret=-0.00399, glen=154, tlen=1.06e+3, kl=0.276, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:08<02:44,  2.45s/it, pg=-0.0665, rm=0.875, ret=0.0479, glen=165, tlen=810, kl=0.242, act_lr=9.53e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:08<02:34,  2.35s/it, pg=-0.0665, rm=0.875, ret=0.0479, glen=165, tlen=810, kl=0.242, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:10<02:34,  2.35s/it, pg=0.107, rm=0.875, ret=-0.127, glen=157, tlen=1.01e+3, kl=0.279, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:10<02:28,  2.29s/it, pg=0.107, rm=0.875, ret=-0.127, glen=157, tlen=1.01e+3, kl=0.279, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:20<02:28,  2.29s/it, pg=-0.0593, rm=1.06, ret=0.0401, glen=154, tlen=922, kl=0.27, act_lr=9.53e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:20<04:50,  4.54s/it, pg=-0.0593, rm=1.06, ret=0.0401, glen=154, tlen=922, kl=0.27, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:22<04:50,  4.54s/it, pg=0.0918, rm=1, ret=-0.108, glen=148, tlen=861, kl=0.251, act_lr=9.53e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:22<03:57,  3.77s/it, pg=0.0918, rm=1, ret=-0.108, glen=148, tlen=861, kl=0.251, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:24<03:57,  3.77s/it, pg=-0.0183, rm=1, ret=0.00133, glen=154, tlen=995, kl=0.237, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:24<03:21,  3.25s/it, pg=-0.0183, rm=1, ret=0.00133, glen=154, tlen=995, kl=0.237, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:26<03:21,  3.25s/it, pg=-0.0485, rm=0.875, ret=0.0324, glen=139, tlen=1.05e+3, kl=0.216, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:26<03:01,  2.97s/it, pg=-0.0485, rm=0.875, ret=0.0324, glen=139, tlen=1.05e+3, kl=0.216, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:28<03:01,  2.97s/it, pg=0.123, rm=0.812, ret=-0.141, glen=139, tlen=1028.5, kl=0.252, act_lr=9.53e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:28<02:43,  2.73s/it, pg=0.123, rm=0.812, ret=-0.141, glen=139, tlen=1028.5, kl=0.252, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:30<02:43,  2.73s/it, pg=0.0457, rm=1, ret=-0.0617, glen=152, tlen=971, kl=0.247, act_lr=9.53e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:30<02:31,  2.57s/it, pg=0.0457, rm=1, ret=-0.0617, glen=152, tlen=971, kl=0.247, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:33<02:31,  2.57s/it, pg=-0.0274, rm=0.875, ret=0.00847, glen=146, tlen=1.1e+3, kl=0.248, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:33<02:21,  2.44s/it, pg=-0.0274, rm=0.875, ret=0.00847, glen=146, tlen=1.1e+3, kl=0.248, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:35<02:21,  2.44s/it, pg=0.236, rm=0.812, ret=-0.253, glen=154, tlen=806, kl=0.244, act_lr=9.53e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:35<02:12,  2.32s/it, pg=0.236, rm=0.812, ret=-0.253, glen=154, tlen=806, kl=0.244, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:44<02:12,  2.32s/it, pg=0.0852, rm=0.75, ret=-0.104, glen=152, tlen=1.08e+3, kl=0.243, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:44<04:11,  4.50s/it, pg=0.0852, rm=0.75, ret=-0.104, glen=152, tlen=1.08e+3, kl=0.243, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:46<04:11,  4.50s/it, pg=0.0817, rm=1.06, ret=-0.101, glen=150, tlen=782, kl=0.271, act_lr=9.53e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:46<03:28,  3.79s/it, pg=0.0817, rm=1.06, ret=-0.101, glen=150, tlen=782, kl=0.271, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:49<03:28,  3.79s/it, pg=0.422, rm=0.625, ret=-0.434, glen=156, tlen=929, kl=0.231, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:49<03:01,  3.36s/it, pg=0.422, rm=0.625, ret=-0.434, glen=156, tlen=929, kl=0.231, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:51<03:01,  3.36s/it, pg=0.18, rm=0.812, ret=-0.2, glen=161, tlen=804, kl=0.28, act_lr=9.53e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:51<02:36,  2.95s/it, pg=0.18, rm=0.812, ret=-0.2, glen=161, tlen=804, kl=0.28, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:53<02:36,  2.95s/it, pg=0.0628, rm=1, ret=-0.0826, glen=158, tlen=889, kl=0.258, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:53<02:19,  2.69s/it, pg=0.0628, rm=1, ret=-0.0826, glen=158, tlen=889, kl=0.258, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:55<02:19,  2.69s/it, pg=-0.0477, rm=1.06, ret=0.0278, glen=158, tlen=958, kl=0.261, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:55<02:07,  2.50s/it, pg=-0.0477, rm=1.06, ret=0.0278, glen=158, tlen=958, kl=0.261, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:57<02:07,  2.50s/it, pg=-0.114, rm=1.19, ret=0.0941, glen=152, tlen=963, kl=0.271, act_lr=9.53e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:57<01:55,  2.31s/it, pg=-0.114, rm=1.19, ret=0.0941, glen=152, tlen=963, kl=0.271, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:59<01:55,  2.31s/it, pg=-0.386, rm=1.12, ret=0.37, glen=146, tlen=932, kl=0.253, act_lr=9.53e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:59<01:57,  2.41s/it, pg=-0.386, rm=1.12, ret=0.37, glen=146, tlen=932, kl=0.253, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:09<01:57,  2.41s/it, pg=0.0762, rm=0.75, ret=-0.0941, glen=159, tlen=911, kl=0.27, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:09<03:38,  4.56s/it, pg=0.0762, rm=0.75, ret=-0.0941, glen=159, tlen=911, kl=0.27, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:11<03:38,  4.56s/it, pg=-0.0417, rm=0.875, ret=0.0225, glen=142, tlen=1.05e+3, kl=0.283, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:11<02:59,  3.82s/it, pg=-0.0417, rm=0.875, ret=0.0225, glen=142, tlen=1.05e+3, kl=0.283, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:13<02:59,  3.82s/it, pg=0.177, rm=1, ret=-0.194, glen=143, tlen=868, kl=0.254, act_lr=9.53e-7]          [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:13<02:32,  3.31s/it, pg=0.177, rm=1, ret=-0.194, glen=143, tlen=868, kl=0.254, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:15<02:32,  3.31s/it, pg=-0.0879, rm=0.812, ret=0.0699, glen=146, tlen=872, kl=0.284, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:15<02:09,  2.88s/it, pg=-0.0879, rm=0.812, ret=0.0699, glen=146, tlen=872, kl=0.284, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:17<02:09,  2.88s/it, pg=0.312, rm=0.875, ret=-0.33, glen=164, tlen=778, kl=0.242, act_lr=9.53e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:17<01:55,  2.63s/it, pg=0.312, rm=0.875, ret=-0.33, glen=164, tlen=778, kl=0.242, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:19<01:55,  2.63s/it, pg=0.13, rm=0.875, ret=-0.146, glen=147, tlen=1094.75, kl=0.262, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:19<01:46,  2.49s/it, pg=0.13, rm=0.875, ret=-0.146, glen=147, tlen=1094.75, kl=0.262, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:22<01:46,  2.49s/it, pg=-0.138, rm=1.06, ret=0.12, glen=168, tlen=782, kl=0.258, act_lr=9.53e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:22<01:42,  2.45s/it, pg=-0.138, rm=1.06, ret=0.12, glen=168, tlen=782, kl=0.258, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:23<01:42,  2.45s/it, pg=5.28e-5, rm=0.812, ret=-0.0216, glen=165, tlen=897, kl=0.269, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:23<01:33,  2.27s/it, pg=5.28e-5, rm=0.812, ret=-0.0216, glen=165, tlen=897, kl=0.269, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:33<01:33,  2.27s/it, pg=-0.0254, rm=0.875, ret=0.00619, glen=162, tlen=786, kl=0.272, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:33<02:56,  4.40s/it, pg=-0.0254, rm=0.875, ret=0.00619, glen=162, tlen=786, kl=0.272, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:35<02:56,  4.40s/it, pg=0.178, rm=0.875, ret=-0.19, glen=142, tlen=1e+3, kl=0.225, act_lr=9.53e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:35<02:27,  3.79s/it, pg=0.178, rm=0.875, ret=-0.19, glen=142, tlen=1e+3, kl=0.225, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:38<02:27,  3.79s/it, pg=-0.212, rm=0.938, ret=0.194, glen=153, tlen=866, kl=0.247, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:38<02:09,  3.41s/it, pg=-0.212, rm=0.938, ret=0.194, glen=153, tlen=866, kl=0.247, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:40<02:09,  3.41s/it, pg=-0.0951, rm=1.19, ret=0.0757, glen=154, tlen=880, kl=0.27, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:40<01:52,  3.05s/it, pg=-0.0951, rm=1.19, ret=0.0757, glen=154, tlen=880, kl=0.27, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:42<01:52,  3.05s/it, pg=0.12, rm=0.812, ret=-0.137, glen=158, tlen=919, kl=0.259, act_lr=9.53e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:42<01:36,  2.69s/it, pg=0.12, rm=0.812, ret=-0.137, glen=158, tlen=919, kl=0.259, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:44<01:36,  2.69s/it, pg=-0.116, rm=1.19, ret=0.0995, glen=161, tlen=973, kl=0.222, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:44<01:26,  2.48s/it, pg=-0.116, rm=1.19, ret=0.0995, glen=161, tlen=973, kl=0.222, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:46<01:26,  2.48s/it, pg=-0.0625, rm=0.875, ret=0.046, glen=149, tlen=814, kl=0.247, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:46<01:18,  2.30s/it, pg=-0.0625, rm=0.875, ret=0.046, glen=149, tlen=814, kl=0.247, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:47<01:18,  2.30s/it, pg=0.192, rm=0.812, ret=-0.212, glen=159, tlen=830, kl=0.265, act_lr=9.53e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:47<01:11,  2.16s/it, pg=0.192, rm=0.812, ret=-0.212, glen=159, tlen=830, kl=0.265, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:57<01:11,  2.16s/it, pg=-0.328, rm=1, ret=0.306, glen=151, tlen=753, kl=0.273, act_lr=9.53e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:57<02:23,  4.48s/it, pg=-0.328, rm=1, ret=0.306, glen=151, tlen=753, kl=0.273, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:59<02:23,  4.48s/it, pg=-0.286, rm=1.12, ret=0.274, glen=142, tlen=849, kl=0.25, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:59<01:56,  3.77s/it, pg=-0.286, rm=1.12, ret=0.274, glen=142, tlen=849, kl=0.25, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [05:01<01:56,  3.77s/it, pg=0.244, rm=0.938, ret=-0.261, glen=156, tlen=869, kl=0.226, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:01<01:36,  3.20s/it, pg=0.244, rm=0.938, ret=-0.261, glen=156, tlen=869, kl=0.226, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:03<01:36,  3.20s/it, pg=0.149, rm=0.875, ret=-0.166, glen=151, tlen=946, kl=0.26, act_lr=9.53e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:03<01:23,  2.86s/it, pg=0.149, rm=0.875, ret=-0.166, glen=151, tlen=946, kl=0.26, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:05<01:23,  2.86s/it, pg=0.0943, rm=1.06, ret=-0.111, glen=149, tlen=787, kl=0.286, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:05<01:11,  2.57s/it, pg=0.0943, rm=1.06, ret=-0.111, glen=149, tlen=787, kl=0.286, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:08<01:11,  2.57s/it, pg=-0.142, rm=0.938, ret=0.121, glen=156, tlen=937, kl=0.282, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:08<01:08,  2.53s/it, pg=-0.142, rm=0.938, ret=0.121, glen=156, tlen=937, kl=0.282, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:10<01:08,  2.53s/it, pg=-0.0428, rm=1.31, ret=0.0247, glen=151, tlen=844, kl=0.269, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:10<01:03,  2.44s/it, pg=-0.0428, rm=1.31, ret=0.0247, glen=151, tlen=844, kl=0.269, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:12<01:03,  2.44s/it, pg=0.0206, rm=0.875, ret=-0.0387, glen=146, tlen=744, kl=0.281, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:12<00:56,  2.25s/it, pg=0.0206, rm=0.875, ret=-0.0387, glen=146, tlen=744, kl=0.281, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:21<00:56,  2.25s/it, pg=0.0259, rm=0.938, ret=-0.0446, glen=156, tlen=951, kl=0.271, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:21<01:45,  4.40s/it, pg=0.0259, rm=0.938, ret=-0.0446, glen=156, tlen=951, kl=0.271, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:23<01:45,  4.40s/it, pg=0.205, rm=0.875, ret=-0.224, glen=156, tlen=839, kl=0.265, act_lr=9.53e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:23<01:25,  3.74s/it, pg=0.205, rm=0.875, ret=-0.224, glen=156, tlen=839, kl=0.265, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:25<01:25,  3.74s/it, pg=0.149, rm=0.812, ret=-0.168, glen=158, tlen=1.07e+3, kl=0.251, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:25<01:10,  3.22s/it, pg=0.149, rm=0.812, ret=-0.168, glen=158, tlen=1.07e+3, kl=0.251, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:27<01:10,  3.22s/it, pg=0.139, rm=0.75, ret=-0.16, glen=159, tlen=891, kl=0.273, act_lr=9.53e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:27<00:59,  2.85s/it, pg=0.139, rm=0.75, ret=-0.16, glen=159, tlen=891, kl=0.273, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:29<00:59,  2.85s/it, pg=0.043, rm=0.812, ret=-0.0599, glen=148, tlen=1052.0, kl=0.243, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:29<00:51,  2.60s/it, pg=0.043, rm=0.812, ret=-0.0599, glen=148, tlen=1052.0, kl=0.243, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:31<00:51,  2.60s/it, pg=0.117, rm=0.75, ret=-0.134, glen=159, tlen=799, kl=0.225, act_lr=9.53e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:31<00:46,  2.45s/it, pg=0.117, rm=0.75, ret=-0.134, glen=159, tlen=799, kl=0.225, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:33<00:46,  2.45s/it, pg=0.0543, rm=0.875, ret=-0.0734, glen=153, tlen=795, kl=0.288, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:33<00:40,  2.26s/it, pg=0.0543, rm=0.875, ret=-0.0734, glen=153, tlen=795, kl=0.288, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:35<00:40,  2.26s/it, pg=-0.137, rm=1.12, ret=0.119, glen=148, tlen=900, kl=0.267, act_lr=9.53e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:35<00:37,  2.20s/it, pg=-0.137, rm=1.12, ret=0.119, glen=148, tlen=900, kl=0.267, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:45<00:37,  2.20s/it, pg=-0.0594, rm=0.938, ret=0.0408, glen=159, tlen=909, kl=0.259, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:45<01:11,  4.44s/it, pg=-0.0594, rm=0.938, ret=0.0408, glen=159, tlen=909, kl=0.259, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:48<01:11,  4.44s/it, pg=0.0417, rm=1.12, ret=-0.06, glen=145, tlen=870, kl=0.259, act_lr=9.53e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:48<00:58,  3.90s/it, pg=0.0417, rm=1.12, ret=-0.06, glen=145, tlen=870, kl=0.259, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:50<00:58,  3.90s/it, pg=-0.0119, rm=1, ret=-0.00631, glen=145, tlen=759, kl=0.269, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:50<00:46,  3.35s/it, pg=-0.0119, rm=1, ret=-0.00631, glen=145, tlen=759, kl=0.269, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:52<00:46,  3.35s/it, pg=0.0961, rm=0.812, ret=-0.116, glen=158, tlen=895, kl=0.272, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:52<00:38,  2.96s/it, pg=0.0961, rm=0.812, ret=-0.116, glen=158, tlen=895, kl=0.272, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:54<00:38,  2.96s/it, pg=0.0403, rm=0.688, ret=-0.058, glen=149, tlen=937, kl=0.243, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:54<00:33,  2.76s/it, pg=0.0403, rm=0.688, ret=-0.058, glen=149, tlen=937, kl=0.243, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:56<00:33,  2.76s/it, pg=0.328, rm=0.875, ret=-0.348, glen=155, tlen=790, kl=0.254, act_lr=9.53e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:56<00:28,  2.55s/it, pg=0.328, rm=0.875, ret=-0.348, glen=155, tlen=790, kl=0.254, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:58<00:28,  2.55s/it, pg=0.134, rm=0.75, ret=-0.153, glen=163, tlen=947, kl=0.243, act_lr=9.53e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:58<00:24,  2.40s/it, pg=0.134, rm=0.75, ret=-0.153, glen=163, tlen=947, kl=0.243, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [06:00<00:24,  2.40s/it, pg=0.0328, rm=1, ret=-0.049, glen=148, tlen=902, kl=0.264, act_lr=9.53e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:00<00:20,  2.25s/it, pg=0.0328, rm=1, ret=-0.049, glen=148, tlen=902, kl=0.264, act_lr=9.53e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:09<00:20,  2.25s/it, pg=0.0783, rm=0.875, ret=-0.0983, glen=154, tlen=732, kl=0.286, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:09<00:34,  4.35s/it, pg=0.0783, rm=0.875, ret=-0.0983, glen=154, tlen=732, kl=0.286, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:12<00:34,  4.35s/it, pg=0.108, rm=0.938, ret=-0.123, glen=150, tlen=992, kl=0.237, act_lr=9.52e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:12<00:26,  3.75s/it, pg=0.108, rm=0.938, ret=-0.123, glen=150, tlen=992, kl=0.237, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:13<00:26,  3.75s/it, pg=-0.129, rm=0.938, ret=0.108, glen=165, tlen=788, kl=0.276, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:13<00:19,  3.18s/it, pg=-0.129, rm=0.938, ret=0.108, glen=165, tlen=788, kl=0.276, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:15<00:19,  3.18s/it, pg=-0.11, rm=1.06, ret=0.0953, glen=144, tlen=944, kl=0.242, act_lr=9.52e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:15<00:13,  2.78s/it, pg=-0.11, rm=1.06, ret=0.0953, glen=144, tlen=944, kl=0.242, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:18<00:13,  2.78s/it, pg=-0.0134, rm=1, ret=-0.00475, glen=150, tlen=1.03e+3, kl=0.265, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:18<00:10,  2.71s/it, pg=-0.0134, rm=1, ret=-0.00475, glen=150, tlen=1.03e+3, kl=0.265, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:20<00:10,  2.71s/it, pg=0.0541, rm=0.875, ret=-0.0746, glen=154, tlen=806, kl=0.277, act_lr=9.52e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:20<00:07,  2.58s/it, pg=0.0541, rm=0.875, ret=-0.0746, glen=154, tlen=806, kl=0.277, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:22<00:07,  2.58s/it, pg=0.0355, rm=0.875, ret=-0.0517, glen=157, tlen=954, kl=0.23, act_lr=9.52e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:22<00:04,  2.38s/it, pg=0.0355, rm=0.875, ret=-0.0517, glen=157, tlen=954, kl=0.23, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:24<00:04,  2.38s/it, pg=-0.0489, rm=1.12, ret=0.0314, glen=148, tlen=786, kl=0.27, act_lr=9.52e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:24<00:02,  2.31s/it, pg=-0.0489, rm=1.12, ret=0.0314, glen=148, tlen=786, kl=0.27, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:34<00:02,  2.31s/it, pg=-0.113, rm=0.938, ret=0.097, glen=161, tlen=1.08e+3, kl=0.243, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:34<00:00,  4.43s/it, pg=-0.113, rm=0.938, ret=0.097, glen=161, tlen=1.08e+3, kl=0.243, act_lr=9.52e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:34<00:00,  3.08s/it, pg=-0.113, rm=0.938, ret=0.097, glen=161, tlen=1.08e+3, kl=0.243, act_lr=9.52e-7]
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 12:13:30 [executor_base.py:219] It took 2.006177 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279382)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279381)[0m INFO 05-28 12:13:31 [executor_base.py:219] It took 3.160363 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3334x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.12.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 960x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.22.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 889x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 12:13:52 [worker.py:133] Sleep mode freed 38.53 GiB memory, 18.76 GiB memory is still in use.
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 12:13:52 [executor_base.py:208] It took 1.368841 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 582x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   3%|▎         | 4/127 [1:00:35<24:39:36, 721.76s/it, policy_loss=0.0211, actor_lr=9.53e-7, kl=0.256, reward=0.926, response_length=153, total_length=915, acc_rewards=0.426, format_rewards=0.5, return=-0.0391]
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   4%|▍         | 5/127 [1:00:35<24:27:46, 721.86s/it, policy_loss=0.0211, actor_lr=9.53e-7, kl=0.256, reward=0.926, response_length=153, total_length=915, acc_rewards=0.426, format_rewards=0.5, return=-0.0391]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:13:54 [executor_base.py:219] It took 1.502568 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   0%|          | 1/256 [00:16<1:10:23, 16.56s/it, est. speed input: 92.92 toks/s, output: 3.68 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   1%|          | 2/256 [00:17<30:46,  7.27s/it, est. speed input: 177.61 toks/s, output: 8.08 toks/s] 
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   1%|          | 3/256 [00:17<17:34,  4.17s/it, est. speed input: 259.34 toks/s, output: 12.92 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   2%|▏         | 4/256 [00:17<10:48,  2.57s/it, est. speed input: 343.34 toks/s, output: 18.01 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   2%|▏         | 6/256 [00:18<05:13,  1.25s/it, est. speed input: 510.15 toks/s, output: 28.40 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   3%|▎         | 8/256 [00:18<03:10,  1.30it/s, est. speed input: 670.85 toks/s, output: 39.01 toks/s]
+Processed prompts:   5%|▌         | 13/256 [00:18<01:17,  3.15it/s, est. speed input: 789.36 toks/s, output: 67.11 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   6%|▌         | 15/256 [00:18<01:02,  3.88it/s, est. speed input: 886.10 toks/s, output: 78.08 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   9%|▊         | 22/256 [00:18<00:28,  8.14it/s, est. speed input: 1157.81 toks/s, output: 119.11 toks/s]
+Processed prompts:  11%|█         | 27/256 [00:18<00:19, 11.47it/s, est. speed input: 1260.53 toks/s, output: 148.64 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  12%|█▏        | 31/256 [00:19<00:15, 14.20it/s, est. speed input: 1395.88 toks/s, output: 172.45 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  15%|█▌        | 39/256 [00:19<00:09, 22.19it/s, est. speed input: 1628.32 toks/s, output: 221.80 toks/s]
+Processed prompts:  17%|█▋        | 44/256 [00:19<00:08, 25.73it/s, est. speed input: 1801.89 toks/s, output: 252.38 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  19%|█▉        | 49/256 [00:19<00:07, 27.38it/s, est. speed input: 1893.54 toks/s, output: 283.13 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  21%|██▏       | 55/256 [00:19<00:06, 32.41it/s, est. speed input: 2004.03 toks/s, output: 321.48 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  23%|██▎       | 60/256 [00:19<00:06, 32.34it/s, est. speed input: 2163.83 toks/s, output: 353.18 toks/s]
+Processed prompts:  27%|██▋       | 69/256 [00:19<00:04, 43.22it/s, est. speed input: 2345.00 toks/s, output: 413.66 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  30%|███       | 77/256 [00:19<00:03, 50.55it/s, est. speed input: 2516.28 toks/s, output: 467.98 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  34%|███▍      | 88/256 [00:20<00:02, 63.66it/s, est. speed input: 2758.50 toks/s, output: 544.11 toks/s]
+Processed prompts:  38%|███▊      | 98/256 [00:20<00:02, 72.54it/s, est. speed input: 2967.03 toks/s, output: 614.06 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  43%|████▎     | 111/256 [00:20<00:01, 80.96it/s, est. speed input: 3235.27 toks/s, output: 706.48 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  49%|████▉     | 125/256 [00:20<00:01, 89.63it/s, est. speed input: 3517.24 toks/s, output: 807.61 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  55%|█████▌    | 142/256 [00:20<00:01, 106.43it/s, est. speed input: 3879.64 toks/s, output: 933.89 toks/s]
+Processed prompts:  60%|█████▉    | 153/256 [00:20<00:00, 106.02it/s, est. speed input: 4115.95 toks/s, output: 1015.52 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  64%|██████▍   | 165/256 [00:20<00:00, 109.67it/s, est. speed input: 4361.78 toks/s, output: 1106.77 toks/s]
+Processed prompts:  74%|███████▍  | 189/256 [00:20<00:00, 138.45it/s, est. speed input: 4883.89 toks/s, output: 1296.85 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  82%|████████▏ | 209/256 [00:20<00:00, 153.80it/s, est. speed input: 5304.70 toks/s, output: 1458.25 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  88%|████████▊ | 226/256 [00:21<00:00, 154.57it/s, est. speed input: 5641.20 toks/s, output: 1597.02 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  95%|█████████▍| 242/256 [00:21<00:00, 121.91it/s, est. speed input: 6010.59 toks/s, output: 1725.39 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:21<00:00, 56.21it/s, est. speed input: 6145.93 toks/s, output: 1813.22 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [00:21<00:00, 11.72it/s, est. speed input: 6145.93 toks/s, output: 1813.22 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   1%|          | 3/256 [00:21<20:28,  4.86s/it, est. speed input: 118.19 toks/s, output: 14.51 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:21<08:58,  2.14s/it, est. speed input: 158.96 toks/s, output: 24.54 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   6%|▋         | 16/256 [00:22<01:19,  3.04it/s, est. speed input: 534.63 toks/s, output: 81.24 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   8%|▊         | 20/256 [00:22<00:51,  4.54it/s, est. speed input: 709.69 toks/s, output: 102.22 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  10%|█         | 26/256 [00:22<00:29,  7.75it/s, est. speed input: 1023.35 toks/s, output: 135.25 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  13%|█▎        | 34/256 [00:22<00:16, 13.12it/s, est. speed input: 1463.65 toks/s, output: 180.10 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  22%|██▏       | 56/256 [00:22<00:06, 31.33it/s, est. speed input: 2050.62 toks/s, output: 307.20 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  25%|██▍       | 63/256 [00:23<00:05, 36.90it/s, est. speed input: 2216.85 toks/s, output: 348.47 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  27%|██▋       | 69/256 [00:23<00:04, 37.72it/s, est. speed input: 2381.88 toks/s, output: 384.00 toks/s]
+Processed prompts:  31%|███▏      | 80/256 [00:23<00:03, 51.22it/s, est. speed input: 2774.09 toks/s, output: 452.13 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  35%|███▌      | 90/256 [00:23<00:02, 61.21it/s, est. speed input: 2976.14 toks/s, output: 515.12 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  96%|█████████▌| 245/256 [00:24<00:00, 88.95it/s, est. speed input: 6258.27 toks/s, output: 1588.52 toks/s] 
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:25<00:00, 56.31it/s, est. speed input: 6370.87 toks/s, output: 1655.66 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:25<00:00, 10.17it/s, est. speed input: 6387.29 toks/s, output: 1661.60 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   1%|          | 3/256 [00:23<22:43,  5.39s/it, est. speed input: 104.69 toks/s, output: 8.67 toks/s][32m [repeated 18x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  96%|█████████▌| 246/256 [00:26<00:00, 82.42it/s, est. speed input: 6213.13 toks/s, output: 1431.72 toks/s] 
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  21%|██        | 53/256 [00:25<00:06, 31.36it/s, est. speed input: 1865.23 toks/s, output: 225.34 toks/s]
+Processed prompts:  24%|██▍       | 61/256 [00:25<00:04, 39.52it/s, est. speed input: 2126.82 toks/s, output: 264.26 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.25it/s, est. speed input: 6261.91 toks/s, output: 1466.78 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00, 56.65it/s, est. speed input: 6637.13 toks/s, output: 1394.56 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.28it/s, est. speed input: 6637.13 toks/s, output: 1394.56 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   9%|▊         | 22/256 [00:20<00:40,  5.77it/s, est. speed input: 879.50 toks/s, output: 128.44 toks/s][32m [repeated 36x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00,  8.76it/s, est. speed input: 6592.46 toks/s, output: 1368.47 toks/s] [32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  72%|███████▏  | 185/256 [00:22<00:00, 130.35it/s, est. speed input: 4682.87 toks/s, output: 1284.72 toks/s]
+Processed prompts:  80%|████████  | 206/256 [00:22<00:00, 149.71it/s, est. speed input: 5115.56 toks/s, output: 1452.92 toks/s][32m [repeated 18x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:24<00:00, 21.39it/s, est. speed input: 5646.45 toks/s, output: 1761.69 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:24<00:00, 10.47it/s, est. speed input: 5646.45 toks/s, output: 1761.69 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:30<00:00, 53.33it/s, est. speed input: 6647.83 toks/s, output: 1248.83 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:30<00:00,  8.27it/s, est. speed input: 6635.88 toks/s, output: 1250.88 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 1/256 [00:28<2:02:05, 28.73s/it, est. speed input: 53.75 toks/s, output: 2.72 toks/s][32m [repeated 17x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  95%|█████████▌| 244/256 [00:30<00:00, 63.93it/s, est. speed input: 6520.45 toks/s, output: 1187.50 toks/s] [32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  84%|████████▎ | 214/256 [00:29<00:00, 142.98it/s, est. speed input: 6031.52 toks/s, output: 1028.54 toks/s]
+Processed prompts:  89%|████████▉ | 229/256 [00:29<00:00, 143.61it/s, est. speed input: 6364.17 toks/s, output: 1115.14 toks/s][32m [repeated 6x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:13:52 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.33 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:13:52 [executor_base.py:208] It took 1.640394 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:13:56 [executor_base.py:219] It took 3.132503 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 679x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 679x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 714x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 714x across cluster][0m
+[36m(ActorModelRayActor pid=287375)[0m ele.get("min_pixels" 3136[32m [repeated 605x across cluster][0m
+[36m(ActorModelRayActor pid=287375)[0m ele.get("max_pixels" 1254400[32m [repeated 605x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 12:15:48 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.23 GiB memory is still in use.
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 12:15:48 [executor_base.py:208] It took 1.363584 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  77%|███████▋  | 198/256 [00:32<00:00, 142.74it/s, est. speed input: 5492.92 toks/s, output: 876.87 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:33<00:00,  7.66it/s, est. speed input: 6393.57 toks/s, output: 1180.55 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  83%|████████▎ | 213/256 [00:32<00:00, 130.41it/s, est. speed input: 5753.41 toks/s, output: 954.57 toks/s]
+Processed prompts:  89%|████████▊ | 227/256 [00:32<00:00, 123.83it/s, est. speed input: 5991.00 toks/s, output: 1029.02 toks/s][32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<03:24,  1.61s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:03<03:09,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<03:05,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<03:02,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<02:56,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:50,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:10<02:48,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:45,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:41,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:14<02:41,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:15<02:41,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:16<02:42,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:18<02:38,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:19<02:37,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:21<02:34,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:22<02:32,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:23<02:33,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:25<02:33,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:26<02:32,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:28<02:33,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:29<02:31,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:30<02:31,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:32<02:28,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:33<02:28,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:34<02:13,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:35<02:03,  1.21s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:36<01:58,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:37<01:50,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:38<01:47,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:39<01:42,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:40<01:38,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:41<01:35,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:43<01:43,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:44<01:49,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:45<01:53,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:47<01:55,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:48<01:53,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:49<01:54,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:50<01:53,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:52<01:52,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:53<01:54,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:54<01:54,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:56<01:55,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:57<01:56,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [00:59<01:53,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:00<01:53,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:01<01:52,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:03<01:50,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:04<01:48,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:06<01:49,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:07<01:44,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:08<01:44,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:10<01:42,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:11<01:40,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:12<01:39,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:14<01:38,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:15<01:37,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:17<01:36,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:18<01:35,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:19<01:34,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:21<01:33,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:22<01:32,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:23<01:30,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:25<01:28,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:26<01:27,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:27<01:22,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:29<01:21,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:30<01:20,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:31<01:17,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:33<01:17,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:34<01:16,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:35<01:14,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:37<01:15,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:38<01:15,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:40<01:14,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:41<01:14,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:43<01:12,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:44<01:11,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:46<01:10,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:47<01:09,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:48<01:06,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:50<01:05,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:51<01:02,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:53<01:00,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:54<01:00,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:56<01:00,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:57<00:59,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:59<00:59,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:00<00:55,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:01<00:53,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:03<00:51,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:04<00:49,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:05<00:47,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:07<00:45,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:08<00:43,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:09<00:42,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:10<00:41,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:12<00:40,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:13<00:40,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:15<00:39,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:16<00:38,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:18<00:38,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:19<00:36,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:21<00:35,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:22<00:33,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:24<00:31,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:25<00:29,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:26<00:28,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:28<00:26,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:29<00:25,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:31<00:25,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:32<00:23,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:33<00:19,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:34<00:17,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:35<00:15,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:36<00:13,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:37<00:11,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:38<00:10,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:39<00:09,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:40<00:08,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:42<00:08,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:43<00:07,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:45<00:06,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:46<00:05,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:47<00:04,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:49<00:02,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:50<00:01,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:52<00:00,  1.44s/it][A
+make_experience: 100%|██████████| 128/128 [02:52<00:00,  1.35s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nGive an overall aesthetic rating for this image, between 0 and 5, rounded to two decimal points. A rating of 0 represents very poor aesthetic quality, while 5 represents excellent aesthetic quality.\nassistant\n<think>The image presents a serene and natural scene, likely of a coastal area with shallow water. The color palette is dominated by blues and browns, which are harmonious and give the image a calm, peaceful feeling. The composition is straightforward, with no apparent focal point or strong visual hierarchy. The image lacks any human presence or activity, which might give it a feeling of tranquility and solitude. However, the scene could be considered somewhat monotone and lacks the dynamic nature that might make the image more engaging or interesting. The lighting is even, without any harsh shadows or highlights, which keeps the image soft and mild. Overall, the image has a pleasing aesthetic, but it might not be particularly striking or memorable due to its simplicity and lack of contrast or detail.</think>\n<answer>2.50</answer>']
+[36m(ActorModelRayActor pid=287375)[0m ele.get("min_pixels" 3136[32m [repeated 48x across cluster][0m
+[36m(ActorModelRayActor pid=287375)[0m ele.get("max_pixels" 1254400[32m [repeated 48x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:15:49 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.22 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:15:49 [executor_base.py:208] It took 1.653215 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.0908, rm=1.12, ret=-0.107, glen=155, tlen=1.01e+3, kl=0.265, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:36,  2.65s/it, pg=0.0908, rm=1.12, ret=-0.107, glen=155, tlen=1.01e+3, kl=0.265, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:04<05:36,  2.65s/it, pg=-0.221, rm=1, ret=0.199, glen=161, tlen=715, kl=0.299, act_lr=9.52e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:04<05:11,  2.47s/it, pg=-0.221, rm=1, ret=0.199, glen=161, tlen=715, kl=0.299, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:06<05:11,  2.47s/it, pg=0.0521, rm=0.938, ret=-0.0724, glen=150, tlen=725, kl=0.288, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:06<04:40,  2.24s/it, pg=0.0521, rm=0.938, ret=-0.0724, glen=150, tlen=725, kl=0.288, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<04:40,  2.24s/it, pg=0.185, rm=1.06, ret=-0.207, glen=148, tlen=741, kl=0.31, act_lr=9.52e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:45,  2.31s/it, pg=0.185, rm=1.06, ret=-0.207, glen=148, tlen=741, kl=0.31, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:45,  2.31s/it, pg=-0.0571, rm=1.06, ret=0.0398, glen=160, tlen=844, kl=0.24, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:35,  2.24s/it, pg=-0.0571, rm=1.06, ret=0.0398, glen=160, tlen=844, kl=0.24, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:35,  2.24s/it, pg=-0.0107, rm=0.875, ret=-0.00899, glen=159, tlen=819, kl=0.276, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:26,  2.19s/it, pg=-0.0107, rm=0.875, ret=-0.00899, glen=159, tlen=819, kl=0.276, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:26,  2.19s/it, pg=0.0277, rm=0.938, ret=-0.0467, glen=152, tlen=1.03e+3, kl=0.268, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:29,  2.23s/it, pg=0.0277, rm=0.938, ret=-0.0467, glen=152, tlen=1.03e+3, kl=0.268, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:25<04:29,  2.23s/it, pg=-0.0632, rm=1, ret=0.0444, glen=169, tlen=827, kl=0.251, act_lr=9.52e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:25<09:14,  4.62s/it, pg=-0.0632, rm=1, ret=0.0444, glen=169, tlen=827, kl=0.251, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:28<09:14,  4.62s/it, pg=-0.0578, rm=1, ret=0.0388, glen=161, tlen=951, kl=0.251, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:28<07:49,  3.95s/it, pg=-0.0578, rm=1, ret=0.0388, glen=161, tlen=951, kl=0.251, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:30<07:49,  3.95s/it, pg=0.0441, rm=1, ret=-0.0669, glen=170, tlen=793, kl=0.301, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:30<06:34,  3.34s/it, pg=0.0441, rm=1, ret=-0.0669, glen=170, tlen=793, kl=0.301, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:31<06:34,  3.34s/it, pg=0.0514, rm=0.938, ret=-0.0714, glen=150, tlen=725, kl=0.282, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:31<05:36,  2.88s/it, pg=0.0514, rm=0.938, ret=-0.0714, glen=150, tlen=725, kl=0.282, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:33<05:36,  2.88s/it, pg=-0.0174, rm=1.06, ret=-0.00227, glen=152, tlen=790, kl=0.279, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:33<05:06,  2.64s/it, pg=-0.0174, rm=1.06, ret=-0.00227, glen=152, tlen=790, kl=0.279, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:36<05:06,  2.64s/it, pg=-0.0679, rm=1.06, ret=0.0487, glen=164, tlen=696, kl=0.261, act_lr=9.52e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<04:46,  2.49s/it, pg=-0.0679, rm=1.06, ret=0.0487, glen=164, tlen=696, kl=0.261, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:38<04:46,  2.49s/it, pg=-0.00775, rm=1.06, ret=-0.0125, glen=160, tlen=930, kl=0.281, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:24,  2.32s/it, pg=-0.00775, rm=1.06, ret=-0.0125, glen=160, tlen=930, kl=0.281, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:40<04:24,  2.32s/it, pg=-0.181, rm=1.12, ret=0.162, glen=157, tlen=1.02e+3, kl=0.262, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:40<04:13,  2.25s/it, pg=-0.181, rm=1.12, ret=0.162, glen=157, tlen=1.02e+3, kl=0.262, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:50<04:13,  2.25s/it, pg=-0.153, rm=0.938, ret=0.135, glen=152, tlen=888, kl=0.254, act_lr=9.52e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:49,  4.73s/it, pg=-0.153, rm=0.938, ret=0.135, glen=152, tlen=888, kl=0.254, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:52<08:49,  4.73s/it, pg=-0.0343, rm=1, ret=0.0144, glen=169, tlen=959, kl=0.249, act_lr=9.52e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<07:25,  4.01s/it, pg=-0.0343, rm=1, ret=0.0144, glen=169, tlen=959, kl=0.249, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:54<07:25,  4.01s/it, pg=0.0683, rm=0.875, ret=-0.0864, glen=147, tlen=1.05e+3, kl=0.27, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:54<06:12,  3.39s/it, pg=0.0683, rm=0.875, ret=-0.0864, glen=147, tlen=1.05e+3, kl=0.27, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:57<06:12,  3.39s/it, pg=-0.123, rm=1.19, ret=0.105, glen=152, tlen=682, kl=0.249, act_lr=9.52e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:57<05:26,  3.00s/it, pg=-0.123, rm=1.19, ret=0.105, glen=152, tlen=682, kl=0.249, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:59<05:26,  3.00s/it, pg=0.0911, rm=1, ret=-0.111, glen=162, tlen=870, kl=0.272, act_lr=9.52e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:59<04:56,  2.74s/it, pg=0.0911, rm=1, ret=-0.111, glen=162, tlen=870, kl=0.272, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:01<04:56,  2.74s/it, pg=-0.0985, rm=1, ret=0.079, glen=151, tlen=902, kl=0.272, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:01<04:36,  2.58s/it, pg=-0.0985, rm=1, ret=0.079, glen=151, tlen=902, kl=0.272, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:03<04:36,  2.58s/it, pg=-0.021, rm=1.12, ret=0.00154, glen=160, tlen=751, kl=0.27, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:03<04:12,  2.38s/it, pg=-0.021, rm=1.12, ret=0.00154, glen=160, tlen=751, kl=0.27, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:05<04:12,  2.38s/it, pg=-0.0337, rm=1, ret=0.0131, glen=155, tlen=683, kl=0.289, act_lr=9.52e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:05<03:57,  2.26s/it, pg=-0.0337, rm=1, ret=0.0131, glen=155, tlen=683, kl=0.289, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:15<03:57,  2.26s/it, pg=0.0522, rm=0.875, ret=-0.0699, glen=150, tlen=806, kl=0.259, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:15<07:48,  4.51s/it, pg=0.0522, rm=0.875, ret=-0.0699, glen=150, tlen=806, kl=0.259, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:17<07:48,  4.51s/it, pg=0.0716, rm=0.625, ret=-0.095, glen=174, tlen=784, kl=0.284, act_lr=9.52e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:17<06:27,  3.76s/it, pg=0.0716, rm=0.625, ret=-0.095, glen=174, tlen=784, kl=0.284, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:18<06:27,  3.76s/it, pg=0.243, rm=0.812, ret=-0.262, glen=170, tlen=756, kl=0.267, act_lr=9.52e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:18<05:26,  3.20s/it, pg=0.243, rm=0.812, ret=-0.262, glen=170, tlen=756, kl=0.267, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:20<05:26,  3.20s/it, pg=0.0421, rm=1.06, ret=-0.0663, glen=166, tlen=798, kl=0.301, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:20<04:43,  2.81s/it, pg=0.0421, rm=1.06, ret=-0.0663, glen=166, tlen=798, kl=0.301, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:22<04:43,  2.81s/it, pg=-0.00554, rm=0.75, ret=-0.0139, glen=163, tlen=819, kl=0.246, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:22<04:21,  2.61s/it, pg=-0.00554, rm=0.75, ret=-0.0139, glen=163, tlen=819, kl=0.246, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:24<04:21,  2.61s/it, pg=0.0451, rm=1.06, ret=-0.0669, glen=163, tlen=662, kl=0.301, act_lr=9.52e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:24<03:52,  2.35s/it, pg=0.0451, rm=1.06, ret=-0.0669, glen=163, tlen=662, kl=0.301, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:26<03:52,  2.35s/it, pg=0.0992, rm=1.06, ret=-0.118, glen=158, tlen=735, kl=0.28, act_lr=9.52e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:26<03:43,  2.29s/it, pg=0.0992, rm=1.06, ret=-0.118, glen=158, tlen=735, kl=0.28, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:28<03:43,  2.29s/it, pg=0.0298, rm=1.12, ret=-0.0502, glen=165, tlen=842, kl=0.264, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:28<03:36,  2.23s/it, pg=0.0298, rm=1.12, ret=-0.0502, glen=165, tlen=842, kl=0.264, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:38<03:36,  2.23s/it, pg=0.0695, rm=0.875, ret=-0.0891, glen=163, tlen=876, kl=0.262, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:38<07:05,  4.43s/it, pg=0.0695, rm=0.875, ret=-0.0891, glen=163, tlen=876, kl=0.262, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:40<07:05,  4.43s/it, pg=-0.0295, rm=1.12, ret=0.0061, glen=167, tlen=743, kl=0.302, act_lr=9.52e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:40<05:48,  3.67s/it, pg=-0.0295, rm=1.12, ret=0.0061, glen=167, tlen=743, kl=0.302, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:42<05:48,  3.67s/it, pg=0.0204, rm=1, ret=-0.0391, glen=162, tlen=833, kl=0.266, act_lr=9.52e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:42<04:58,  3.18s/it, pg=0.0204, rm=1, ret=-0.0391, glen=162, tlen=833, kl=0.266, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:44<04:58,  3.18s/it, pg=-0.0222, rm=1.12, ret=0.00251, glen=147, tlen=738, kl=0.287, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:44<04:26,  2.87s/it, pg=-0.0222, rm=1.12, ret=0.00251, glen=147, tlen=738, kl=0.287, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:46<04:26,  2.87s/it, pg=0.0217, rm=1.12, ret=-0.04, glen=162, tlen=692, kl=0.269, act_lr=9.52e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:46<03:54,  2.55s/it, pg=0.0217, rm=1.12, ret=-0.04, glen=162, tlen=692, kl=0.269, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:48<03:54,  2.55s/it, pg=-0.103, rm=0.812, ret=0.0851, glen=150, tlen=838, kl=0.273, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:48<03:33,  2.34s/it, pg=-0.103, rm=0.812, ret=0.0851, glen=150, tlen=838, kl=0.273, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:50<03:33,  2.34s/it, pg=-0.0541, rm=1.06, ret=0.035, glen=168, tlen=852, kl=0.257, act_lr=9.52e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:50<03:36,  2.40s/it, pg=-0.0541, rm=1.06, ret=0.035, glen=168, tlen=852, kl=0.257, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:53<03:36,  2.40s/it, pg=0.215, rm=0.938, ret=-0.237, glen=165, tlen=1025.5, kl=0.267, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:53<03:32,  2.39s/it, pg=0.215, rm=0.938, ret=-0.237, glen=165, tlen=1025.5, kl=0.267, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:03<03:32,  2.39s/it, pg=-0.0712, rm=0.938, ret=0.0512, glen=163, tlen=1057.5, kl=0.263, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:03<06:56,  4.73s/it, pg=-0.0712, rm=0.938, ret=0.0512, glen=163, tlen=1057.5, kl=0.263, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:05<06:56,  4.73s/it, pg=-0.135, rm=0.938, ret=0.115, glen=163, tlen=763, kl=0.278, act_lr=9.52e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:05<05:41,  3.92s/it, pg=-0.135, rm=0.938, ret=0.115, glen=163, tlen=763, kl=0.278, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:07<05:41,  3.92s/it, pg=0.0914, rm=1, ret=-0.112, glen=161, tlen=738, kl=0.267, act_lr=9.52e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:07<04:52,  3.40s/it, pg=0.0914, rm=1, ret=-0.112, glen=161, tlen=738, kl=0.267, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:09<04:52,  3.40s/it, pg=0.0213, rm=1, ret=-0.0395, glen=144, tlen=948, kl=0.274, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:09<04:13,  2.99s/it, pg=0.0213, rm=1, ret=-0.0395, glen=144, tlen=948, kl=0.274, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:11<04:13,  2.99s/it, pg=0.0296, rm=1.12, ret=-0.0514, glen=156, tlen=922, kl=0.291, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:11<03:46,  2.70s/it, pg=0.0296, rm=1.12, ret=-0.0514, glen=156, tlen=922, kl=0.291, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:13<03:46,  2.70s/it, pg=0.127, rm=0.75, ret=-0.148, glen=148, tlen=778, kl=0.288, act_lr=9.52e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:13<03:26,  2.49s/it, pg=0.127, rm=0.75, ret=-0.148, glen=148, tlen=778, kl=0.288, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:15<03:26,  2.49s/it, pg=-0.0231, rm=1.12, ret=0.00411, glen=154, tlen=745, kl=0.264, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:15<03:18,  2.42s/it, pg=-0.0231, rm=1.12, ret=0.00411, glen=154, tlen=745, kl=0.264, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:17<03:18,  2.42s/it, pg=0.164, rm=0.781, ret=-0.18, glen=152, tlen=946, kl=0.268, act_lr=9.52e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:17<03:06,  2.30s/it, pg=0.164, rm=0.781, ret=-0.18, glen=152, tlen=946, kl=0.268, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:26<03:06,  2.30s/it, pg=-0.0953, rm=1.12, ret=0.0735, glen=162, tlen=661, kl=0.299, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:26<05:44,  4.30s/it, pg=-0.0953, rm=1.12, ret=0.0735, glen=162, tlen=661, kl=0.299, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:28<05:44,  4.30s/it, pg=-0.0123, rm=0.938, ret=-0.00864, glen=150, tlen=910, kl=0.291, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:28<04:43,  3.59s/it, pg=-0.0123, rm=0.938, ret=-0.00864, glen=150, tlen=910, kl=0.291, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:30<04:43,  3.59s/it, pg=0.0158, rm=0.938, ret=-0.0357, glen=151, tlen=787, kl=0.264, act_lr=9.52e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:30<03:58,  3.05s/it, pg=0.0158, rm=0.938, ret=-0.0357, glen=151, tlen=787, kl=0.264, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:32<03:58,  3.05s/it, pg=-0.166, rm=0.875, ret=0.15, glen=152, tlen=946, kl=0.244, act_lr=9.52e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:32<03:34,  2.79s/it, pg=-0.166, rm=0.875, ret=0.15, glen=152, tlen=946, kl=0.244, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:34<03:34,  2.79s/it, pg=0.202, rm=0.875, ret=-0.223, glen=164, tlen=800, kl=0.267, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:34<03:15,  2.58s/it, pg=0.202, rm=0.875, ret=-0.223, glen=164, tlen=800, kl=0.267, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:36<03:15,  2.58s/it, pg=0.047, rm=0.875, ret=-0.0659, glen=152, tlen=752, kl=0.283, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:36<02:59,  2.40s/it, pg=0.047, rm=0.875, ret=-0.0659, glen=152, tlen=752, kl=0.283, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:39<02:59,  2.40s/it, pg=0.0223, rm=0.938, ret=-0.0416, glen=162, tlen=866, kl=0.257, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:39<03:05,  2.51s/it, pg=0.0223, rm=0.938, ret=-0.0416, glen=162, tlen=866, kl=0.257, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:41<03:05,  2.51s/it, pg=-0.0867, rm=1.06, ret=0.0652, glen=157, tlen=956, kl=0.279, act_lr=9.52e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:41<02:53,  2.37s/it, pg=-0.0867, rm=1.06, ret=0.0652, glen=157, tlen=956, kl=0.279, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:51<02:53,  2.37s/it, pg=0.000815, rm=0.875, ret=-0.0206, glen=157, tlen=758, kl=0.271, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:51<05:35,  4.66s/it, pg=0.000815, rm=0.875, ret=-0.0206, glen=157, tlen=758, kl=0.271, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:53<05:35,  4.66s/it, pg=0.0936, rm=0.75, ret=-0.114, glen=166, tlen=861, kl=0.268, act_lr=9.52e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:53<04:31,  3.82s/it, pg=0.0936, rm=0.75, ret=-0.114, glen=166, tlen=861, kl=0.268, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:55<04:31,  3.82s/it, pg=-0.033, rm=0.812, ret=0.0132, glen=152, tlen=847, kl=0.276, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:55<03:52,  3.32s/it, pg=-0.033, rm=0.812, ret=0.0132, glen=152, tlen=847, kl=0.276, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:57<03:52,  3.32s/it, pg=0.0267, rm=1.12, ret=-0.0462, glen=150, tlen=915, kl=0.27, act_lr=9.52e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:57<03:19,  2.89s/it, pg=0.0267, rm=1.12, ret=-0.0462, glen=150, tlen=915, kl=0.27, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:59<03:19,  2.89s/it, pg=-0.0242, rm=0.938, ret=0.00623, glen=149, tlen=854, kl=0.258, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:59<02:55,  2.59s/it, pg=-0.0242, rm=0.938, ret=0.00623, glen=149, tlen=854, kl=0.258, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:01<02:55,  2.59s/it, pg=0.13, rm=0.938, ret=-0.152, glen=160, tlen=826, kl=0.295, act_lr=9.52e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:01<02:38,  2.37s/it, pg=0.13, rm=0.938, ret=-0.152, glen=160, tlen=826, kl=0.295, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:03<02:38,  2.37s/it, pg=-0.0106, rm=0.938, ret=-0.0123, glen=150, tlen=910, kl=0.316, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:03<02:26,  2.22s/it, pg=-0.0106, rm=0.938, ret=-0.0123, glen=150, tlen=910, kl=0.316, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:05<02:26,  2.22s/it, pg=0.101, rm=0.938, ret=-0.12, glen=169, tlen=814, kl=0.259, act_lr=9.52e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:05<02:30,  2.32s/it, pg=0.101, rm=0.938, ret=-0.12, glen=169, tlen=814, kl=0.259, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:15<02:30,  2.32s/it, pg=-0.073, rm=0.938, ret=0.0506, glen=155, tlen=757, kl=0.313, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:15<04:50,  4.54s/it, pg=-0.073, rm=0.938, ret=0.0506, glen=155, tlen=757, kl=0.313, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:17<04:50,  4.54s/it, pg=-0.0105, rm=0.875, ret=-0.00844, glen=153, tlen=831, kl=0.274, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:17<04:00,  3.82s/it, pg=-0.0105, rm=0.875, ret=-0.00844, glen=153, tlen=831, kl=0.274, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:19<04:00,  3.82s/it, pg=0.0967, rm=1.06, ret=-0.118, glen=156, tlen=732, kl=0.284, act_lr=9.52e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:19<03:19,  3.22s/it, pg=0.0967, rm=1.06, ret=-0.118, glen=156, tlen=732, kl=0.284, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:21<03:19,  3.22s/it, pg=-0.0543, rm=1.19, ret=0.034, glen=165, tlen=841, kl=0.275, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:21<02:59,  2.94s/it, pg=-0.0543, rm=1.19, ret=0.034, glen=165, tlen=841, kl=0.275, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:24<02:59,  2.94s/it, pg=-0.0511, rm=1.06, ret=0.0333, glen=160, tlen=1020.5, kl=0.243, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:24<02:50,  2.85s/it, pg=-0.0511, rm=1.06, ret=0.0333, glen=160, tlen=1020.5, kl=0.243, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:26<02:50,  2.85s/it, pg=0.0793, rm=0.812, ret=-0.097, glen=153, tlen=818, kl=0.242, act_lr=9.52e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:26<02:36,  2.65s/it, pg=0.0793, rm=0.812, ret=-0.097, glen=153, tlen=818, kl=0.242, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:28<02:36,  2.65s/it, pg=-0.0312, rm=0.938, ret=0.0107, glen=165, tlen=851, kl=0.277, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:28<02:22,  2.45s/it, pg=-0.0312, rm=0.938, ret=0.0107, glen=165, tlen=851, kl=0.277, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:30<02:22,  2.45s/it, pg=0.0253, rm=1.12, ret=-0.0466, glen=163, tlen=753, kl=0.285, act_lr=9.52e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:30<02:12,  2.32s/it, pg=0.0253, rm=1.12, ret=-0.0466, glen=163, tlen=753, kl=0.285, act_lr=9.52e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:40<02:12,  2.32s/it, pg=0.0482, rm=0.875, ret=-0.0689, glen=160, tlen=760, kl=0.287, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:40<04:11,  4.48s/it, pg=0.0482, rm=0.875, ret=-0.0689, glen=160, tlen=760, kl=0.287, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:41<04:11,  4.48s/it, pg=0.0318, rm=0.938, ret=-0.0493, glen=154, tlen=790, kl=0.25, act_lr=9.51e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:41<03:23,  3.71s/it, pg=0.0318, rm=0.938, ret=-0.0493, glen=154, tlen=790, kl=0.25, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:43<03:23,  3.71s/it, pg=0.0755, rm=0.688, ret=-0.0952, glen=157, tlen=742, kl=0.276, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:43<02:49,  3.14s/it, pg=0.0755, rm=0.688, ret=-0.0952, glen=157, tlen=742, kl=0.276, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:46<02:49,  3.14s/it, pg=0.0929, rm=0.75, ret=-0.112, glen=153, tlen=848, kl=0.274, act_lr=9.51e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:46<02:33,  2.89s/it, pg=0.0929, rm=0.75, ret=-0.112, glen=153, tlen=848, kl=0.274, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:48<02:33,  2.89s/it, pg=0.0218, rm=1, ret=-0.0392, glen=153, tlen=957, kl=0.257, act_lr=9.51e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:48<02:20,  2.70s/it, pg=0.0218, rm=1, ret=-0.0392, glen=153, tlen=957, kl=0.257, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:50<02:20,  2.70s/it, pg=-0.0613, rm=1.19, ret=0.0416, glen=155, tlen=699, kl=0.292, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:50<02:04,  2.44s/it, pg=-0.0613, rm=1.19, ret=0.0416, glen=155, tlen=699, kl=0.292, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:52<02:04,  2.44s/it, pg=0.137, rm=1, ret=-0.157, glen=152, tlen=790, kl=0.273, act_lr=9.51e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:52<01:55,  2.31s/it, pg=0.137, rm=1, ret=-0.157, glen=152, tlen=790, kl=0.273, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:54<01:55,  2.31s/it, pg=0.00185, rm=0.875, ret=-0.0218, glen=152, tlen=888, kl=0.262, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:54<01:52,  2.30s/it, pg=0.00185, rm=0.875, ret=-0.0218, glen=152, tlen=888, kl=0.262, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:03<01:52,  2.30s/it, pg=0.038, rm=0.812, ret=-0.057, glen=157, tlen=894, kl=0.263, act_lr=9.51e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:03<03:29,  4.37s/it, pg=0.038, rm=0.812, ret=-0.057, glen=157, tlen=894, kl=0.263, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:05<03:29,  4.37s/it, pg=0.0382, rm=0.812, ret=-0.058, glen=157, tlen=894, kl=0.27, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:05<02:56,  3.76s/it, pg=0.0382, rm=0.812, ret=-0.058, glen=157, tlen=894, kl=0.27, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:07<02:56,  3.76s/it, pg=-0.127, rm=1.06, ret=0.109, glen=163, tlen=829, kl=0.256, act_lr=9.51e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:07<02:26,  3.19s/it, pg=-0.127, rm=1.06, ret=0.109, glen=163, tlen=829, kl=0.256, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:09<02:26,  3.19s/it, pg=0.067, rm=0.875, ret=-0.0851, glen=148, tlen=1047.0, kl=0.258, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:09<02:06,  2.81s/it, pg=0.067, rm=0.875, ret=-0.0851, glen=148, tlen=1047.0, kl=0.258, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:11<02:06,  2.81s/it, pg=0.0458, rm=0.75, ret=-0.0663, glen=151, tlen=966, kl=0.287, act_lr=9.51e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:11<01:52,  2.57s/it, pg=0.0458, rm=0.75, ret=-0.0663, glen=151, tlen=966, kl=0.287, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:13<01:52,  2.57s/it, pg=-0.134, rm=1.25, ret=0.114, glen=164, tlen=925, kl=0.273, act_lr=9.51e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:13<01:43,  2.41s/it, pg=-0.134, rm=1.25, ret=0.114, glen=164, tlen=925, kl=0.273, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:16<01:43,  2.41s/it, pg=0.167, rm=0.875, ret=-0.185, glen=151, tlen=1030.75, kl=0.26, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:16<01:39,  2.37s/it, pg=0.167, rm=0.875, ret=-0.185, glen=151, tlen=1030.75, kl=0.26, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:18<01:39,  2.37s/it, pg=0.0569, rm=0.938, ret=-0.0777, glen=150, tlen=900, kl=0.285, act_lr=9.51e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:18<01:37,  2.39s/it, pg=0.0569, rm=0.938, ret=-0.0777, glen=150, tlen=900, kl=0.285, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:28<01:37,  2.39s/it, pg=0.0706, rm=1, ret=-0.0902, glen=152, tlen=837, kl=0.284, act_lr=9.51e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:28<03:06,  4.66s/it, pg=0.0706, rm=1, ret=-0.0902, glen=152, tlen=837, kl=0.284, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:30<03:06,  4.66s/it, pg=0.126, rm=0.875, ret=-0.146, glen=158, tlen=719, kl=0.271, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:30<02:31,  3.88s/it, pg=0.126, rm=0.875, ret=-0.146, glen=158, tlen=719, kl=0.271, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:32<02:31,  3.88s/it, pg=0.0394, rm=1, ret=-0.0594, glen=162, tlen=785, kl=0.27, act_lr=9.51e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:32<02:06,  3.33s/it, pg=0.0394, rm=1, ret=-0.0594, glen=162, tlen=785, kl=0.27, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:34<02:06,  3.33s/it, pg=0.053, rm=0.812, ret=-0.0711, glen=155, tlen=949, kl=0.26, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:34<01:51,  3.01s/it, pg=0.053, rm=0.812, ret=-0.0711, glen=155, tlen=949, kl=0.26, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:36<01:51,  3.01s/it, pg=0.0383, rm=1, ret=-0.0576, glen=157, tlen=780, kl=0.268, act_lr=9.51e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:36<01:35,  2.66s/it, pg=0.0383, rm=1, ret=-0.0576, glen=157, tlen=780, kl=0.268, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:39<01:35,  2.66s/it, pg=0.0878, rm=0.938, ret=-0.106, glen=150, tlen=971, kl=0.266, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:39<01:30,  2.58s/it, pg=0.0878, rm=0.938, ret=-0.106, glen=150, tlen=971, kl=0.266, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:41<01:30,  2.58s/it, pg=0.0203, rm=1, ret=-0.0399, glen=162, tlen=893, kl=0.268, act_lr=9.51e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:41<01:21,  2.41s/it, pg=0.0203, rm=1, ret=-0.0399, glen=162, tlen=893, kl=0.268, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:42<01:21,  2.41s/it, pg=0.00416, rm=0.812, ret=-0.0239, glen=145, tlen=775, kl=0.302, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:42<01:13,  2.24s/it, pg=0.00416, rm=0.812, ret=-0.0239, glen=145, tlen=775, kl=0.302, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:52<01:13,  2.24s/it, pg=0.209, rm=0.875, ret=-0.225, glen=156, tlen=803, kl=0.249, act_lr=9.51e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:52<02:19,  4.36s/it, pg=0.209, rm=0.875, ret=-0.225, glen=156, tlen=803, kl=0.249, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:54<02:19,  4.36s/it, pg=0.0979, rm=0.75, ret=-0.117, glen=150, tlen=909, kl=0.277, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:54<01:56,  3.76s/it, pg=0.0979, rm=0.75, ret=-0.117, glen=150, tlen=909, kl=0.277, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:56<01:56,  3.76s/it, pg=-0.0125, rm=0.938, ret=-0.00781, glen=144, tlen=904, kl=0.297, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:56<01:39,  3.33s/it, pg=-0.0125, rm=0.938, ret=-0.00781, glen=144, tlen=904, kl=0.297, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:58<01:39,  3.33s/it, pg=0.0208, rm=0.938, ret=-0.0411, glen=164, tlen=800, kl=0.276, act_lr=9.51e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:58<01:25,  2.95s/it, pg=0.0208, rm=0.938, ret=-0.0411, glen=164, tlen=800, kl=0.276, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:01<01:25,  2.95s/it, pg=-0.0238, rm=1, ret=0.0076, glen=143, tlen=949, kl=0.259, act_lr=9.51e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:01<01:14,  2.68s/it, pg=-0.0238, rm=1, ret=0.0076, glen=143, tlen=949, kl=0.259, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:03<01:14,  2.68s/it, pg=0.378, rm=0.938, ret=-0.395, glen=154, tlen=1.04e+3, kl=0.268, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:03<01:09,  2.56s/it, pg=0.378, rm=0.938, ret=-0.395, glen=154, tlen=1.04e+3, kl=0.268, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:05<01:09,  2.56s/it, pg=0.125, rm=0.75, ret=-0.144, glen=144, tlen=774, kl=0.268, act_lr=9.51e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:05<01:00,  2.34s/it, pg=0.125, rm=0.75, ret=-0.144, glen=144, tlen=774, kl=0.268, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:07<01:00,  2.34s/it, pg=-0.0306, rm=0.938, ret=0.00817, glen=163, tlen=854, kl=0.296, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:07<00:56,  2.25s/it, pg=-0.0306, rm=0.938, ret=0.00817, glen=163, tlen=854, kl=0.296, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:17<00:56,  2.25s/it, pg=0.0558, rm=0.875, ret=-0.0779, glen=176, tlen=832, kl=0.265, act_lr=9.51e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:17<01:49,  4.56s/it, pg=0.0558, rm=0.875, ret=-0.0779, glen=176, tlen=832, kl=0.265, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:19<01:49,  4.56s/it, pg=0.0685, rm=0.812, ret=-0.0863, glen=155, tlen=953, kl=0.254, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:19<01:26,  3.78s/it, pg=0.0685, rm=0.812, ret=-0.0863, glen=155, tlen=953, kl=0.254, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:20<01:26,  3.78s/it, pg=-0.146, rm=1.19, ret=0.128, glen=151, tlen=918, kl=0.275, act_lr=9.51e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:20<01:10,  3.21s/it, pg=-0.146, rm=1.19, ret=0.128, glen=151, tlen=918, kl=0.275, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:22<01:10,  3.21s/it, pg=0.165, rm=0.875, ret=-0.184, glen=157, tlen=733, kl=0.281, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:22<00:58,  2.80s/it, pg=0.165, rm=0.875, ret=-0.184, glen=157, tlen=733, kl=0.281, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:24<00:58,  2.80s/it, pg=0.0376, rm=1.12, ret=-0.0572, glen=164, tlen=694, kl=0.277, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:24<00:50,  2.52s/it, pg=0.0376, rm=1.12, ret=-0.0572, glen=164, tlen=694, kl=0.277, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:27<00:50,  2.52s/it, pg=0.0844, rm=1, ret=-0.101, glen=151, tlen=698, kl=0.27, act_lr=9.51e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:27<00:47,  2.52s/it, pg=0.0844, rm=1, ret=-0.101, glen=151, tlen=698, kl=0.27, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:29<00:47,  2.52s/it, pg=0.0423, rm=1.06, ret=-0.0635, glen=165, tlen=797, kl=0.286, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:29<00:41,  2.33s/it, pg=0.0423, rm=1.06, ret=-0.0635, glen=165, tlen=797, kl=0.286, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:31<00:41,  2.33s/it, pg=0.11, rm=0.875, ret=-0.131, glen=157, tlen=1.05e+3, kl=0.27, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:31<00:38,  2.24s/it, pg=0.11, rm=0.875, ret=-0.131, glen=157, tlen=1.05e+3, kl=0.27, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:40<00:38,  2.24s/it, pg=-0.291, rm=1.12, ret=0.271, glen=170, tlen=879, kl=0.251, act_lr=9.51e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:40<01:11,  4.47s/it, pg=-0.291, rm=1.12, ret=0.271, glen=170, tlen=879, kl=0.251, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:42<01:11,  4.47s/it, pg=0.0668, rm=0.812, ret=-0.0864, glen=144, tlen=752, kl=0.29, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:42<00:56,  3.77s/it, pg=0.0668, rm=0.812, ret=-0.0864, glen=144, tlen=752, kl=0.29, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:44<00:56,  3.77s/it, pg=0.0545, rm=0.938, ret=-0.0725, glen=157, tlen=732, kl=0.277, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:44<00:44,  3.20s/it, pg=0.0545, rm=0.938, ret=-0.0725, glen=157, tlen=732, kl=0.277, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:47<00:44,  3.20s/it, pg=0.1, rm=0.812, ret=-0.122, glen=157, tlen=1.02e+3, kl=0.295, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:47<00:37,  2.91s/it, pg=0.1, rm=0.812, ret=-0.122, glen=157, tlen=1.02e+3, kl=0.295, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:50<00:37,  2.91s/it, pg=0.127, rm=1.12, ret=-0.147, glen=170, tlen=846, kl=0.257, act_lr=9.51e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:50<00:35,  2.94s/it, pg=0.127, rm=1.12, ret=-0.147, glen=170, tlen=846, kl=0.257, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:51<00:35,  2.94s/it, pg=-0.0123, rm=0.875, ret=-0.0057, glen=154, tlen=740, kl=0.255, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:51<00:28,  2.60s/it, pg=-0.0123, rm=0.875, ret=-0.0057, glen=154, tlen=740, kl=0.255, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:53<00:28,  2.60s/it, pg=-0.102, rm=1.06, ret=0.0817, glen=146, tlen=1.13e+3, kl=0.294, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:53<00:24,  2.41s/it, pg=-0.102, rm=1.06, ret=0.0817, glen=146, tlen=1.13e+3, kl=0.294, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:55<00:24,  2.41s/it, pg=0.528, rm=0.938, ret=-0.546, glen=161, tlen=706, kl=0.275, act_lr=9.51e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:55<00:20,  2.23s/it, pg=0.528, rm=0.938, ret=-0.546, glen=161, tlen=706, kl=0.275, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:05<00:20,  2.23s/it, pg=-0.0208, rm=1.12, ret=0.00128, glen=156, tlen=747, kl=0.278, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:05<00:35,  4.49s/it, pg=-0.0208, rm=1.12, ret=0.00128, glen=156, tlen=747, kl=0.278, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:07<00:35,  4.49s/it, pg=-0.0821, rm=1, ret=0.0634, glen=154, tlen=786, kl=0.274, act_lr=9.51e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:07<00:26,  3.79s/it, pg=-0.0821, rm=1, ret=0.0634, glen=154, tlen=786, kl=0.274, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:08<00:26,  3.79s/it, pg=-0.148, rm=1.25, ret=0.127, glen=164, tlen=661, kl=0.285, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:08<00:18,  3.08s/it, pg=-0.148, rm=1.25, ret=0.127, glen=164, tlen=661, kl=0.285, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:10<00:18,  3.08s/it, pg=-0.00993, rm=1.06, ret=-0.00954, glen=152, tlen=698, kl=0.292, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:10<00:13,  2.69s/it, pg=-0.00993, rm=1.06, ret=-0.00954, glen=152, tlen=698, kl=0.292, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:12<00:13,  2.69s/it, pg=-0.229, rm=1.06, ret=0.211, glen=153, tlen=904, kl=0.258, act_lr=9.51e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:12<00:10,  2.53s/it, pg=-0.229, rm=1.06, ret=0.211, glen=153, tlen=904, kl=0.258, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:15<00:10,  2.53s/it, pg=-0.0738, rm=0.938, ret=0.0541, glen=153, tlen=1047.25, kl=0.262, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:15<00:07,  2.46s/it, pg=-0.0738, rm=0.938, ret=0.0541, glen=153, tlen=1047.25, kl=0.262, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:17<00:07,  2.46s/it, pg=0.0767, rm=1.12, ret=-0.0935, glen=161, tlen=1.01e+3, kl=0.226, act_lr=9.51e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:17<00:04,  2.46s/it, pg=0.0767, rm=1.12, ret=-0.0935, glen=161, tlen=1.01e+3, kl=0.226, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:19<00:04,  2.46s/it, pg=0.264, rm=1.06, ret=-0.284, glen=165, tlen=708, kl=0.294, act_lr=9.51e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:19<00:02,  2.26s/it, pg=0.264, rm=1.06, ret=-0.284, glen=165, tlen=708, kl=0.294, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:28<00:02,  2.26s/it, pg=0.0548, rm=0.938, ret=-0.0748, glen=157, tlen=804, kl=0.278, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:28<00:00,  4.33s/it, pg=0.0548, rm=0.938, ret=-0.0748, glen=157, tlen=804, kl=0.278, act_lr=9.51e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:28<00:00,  3.04s/it, pg=0.0548, rm=0.938, ret=-0.0748, glen=157, tlen=804, kl=0.278, act_lr=9.51e-7]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:25:16 [executor_base.py:219] It took 1.737616 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 12:25:18 [executor_base.py:219] It took 3.215131 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3289x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.11.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 887x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.20.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 920x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:25:40 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:25:40 [executor_base.py:208] It took 2.468684 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 695x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   4%|▍         | 5/127 [1:12:23<24:27:46, 721.86s/it, policy_loss=0.0233, actor_lr=9.52e-7, kl=0.273, reward=0.967, response_length=157, total_length=841, acc_rewards=0.467, format_rewards=0.5, return=-0.0429]
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   5%|▍         | 6/127 [1:12:23<24:06:11, 717.12s/it, policy_loss=0.0233, actor_lr=9.52e-7, kl=0.273, reward=0.967, response_length=157, total_length=841, acc_rewards=0.467, format_rewards=0.5, return=-0.0429]
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 12:25:43 [executor_base.py:219] It took 2.449050 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   0%|          | 1/256 [00:23<1:41:00, 23.77s/it, est. speed input: 20.96 toks/s, output: 3.58 toks/s]
+Processed prompts:   1%|          | 3/256 [00:23<26:15,  6.23s/it, est. speed input: 62.39 toks/s, output: 10.90 toks/s] 
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:24<13:12,  3.16s/it, est. speed input: 146.26 toks/s, output: 18.16 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:24<07:52,  1.90s/it, est. speed input: 184.23 toks/s, output: 25.71 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  93%|█████████▎| 238/256 [00:28<00:00, 91.28it/s, est. speed input: 6174.25 toks/s, output: 1310.70 toks/s] 
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  97%|█████████▋| 248/256 [00:28<00:00, 92.97it/s, est. speed input: 6347.93 toks/s, output: 1380.49 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:28<00:00,  8.92it/s, est. speed input: 6420.01 toks/s, output: 1425.65 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  32%|███▏      | 83/256 [00:27<00:02, 63.24it/s, est. speed input: 2587.39 toks/s, output: 384.22 toks/s]
+Processed prompts:  39%|███▉      | 100/256 [00:27<00:01, 86.34it/s, est. speed input: 3064.59 toks/s, output: 472.05 toks/s][32m [repeated 17x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  29%|██▊       | 73/256 [00:28<00:04, 36.87it/s, est. speed input: 2625.70 toks/s, output: 335.48 toks/s][32m [repeated 47x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:30<00:00,  8.42it/s, est. speed input: 6461.49 toks/s, output: 1377.18 toks/s][32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  34%|███▎      | 86/256 [00:30<00:04, 41.34it/s, est. speed input: 3376.18 toks/s, output: 323.78 toks/s]
+Processed prompts:  37%|███▋      | 94/256 [00:30<00:03, 45.19it/s, est. speed input: 3657.25 toks/s, output: 357.27 toks/s][32m [repeated 20x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  23%|██▎       | 60/256 [00:24<00:04, 43.49it/s, est. speed input: 2075.35 toks/s, output: 283.88 toks/s][32m [repeated 40x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:26<00:00,  9.83it/s, est. speed input: 6307.29 toks/s, output: 1481.47 toks/s] [32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 1/256 [00:29<2:05:18, 29.48s/it, est. speed input: 17.47 toks/s, output: 2.82 toks/s]
+Processed prompts:   1%|          | 3/256 [00:29<32:26,  7.69s/it, est. speed input: 86.91 toks/s, output: 8.51 toks/s]  [32m [repeated 10x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  77%|███████▋  | 196/256 [00:25<00:00, 134.56it/s, est. speed input: 5044.68 toks/s, output: 1088.47 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:34<00:00, 30.28it/s, est. speed input: 6310.67 toks/s, output: 1124.48 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:34<00:00,  7.46it/s, est. speed input: 6310.67 toks/s, output: 1124.48 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:48<00:00,  5.26it/s, est. speed input: 4100.13 toks/s, output: 853.08 toks/s] [32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  81%|████████  | 207/256 [00:32<00:00, 114.21it/s, est. speed input: 5727.47 toks/s, output: 882.49 toks/s]
+Processed prompts:  86%|████████▌ | 219/256 [00:32<00:00, 111.28it/s, est. speed input: 5912.00 toks/s, output: 944.23 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  91%|█████████ | 233/256 [00:33<00:00, 118.51it/s, est. speed input: 6129.05 toks/s, output: 1018.94 toks/s][32m [repeated 11x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279378)[0m INFO 05-28 12:25:40 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.34 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m INFO 05-28 12:25:40 [executor_base.py:208] It took 2.678808 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:25:45 [executor_base.py:219] It took 4.066076 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(ActorModelRayActor pid=287375)[0m 
+[36m(ActorModelRayActor pid=287378)[0m 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 858x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 858x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 675x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 675x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 503x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 503x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:27:49 [worker.py:133] Sleep mode freed 38.53 GiB memory, 22.11 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:27:49 [executor_base.py:208] It took 1.414877 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:53,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:53,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<02:59,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<02:52,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:06<02:48,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:48,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:09<02:47,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:45,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:42,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:13<02:41,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:15<02:38,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:16<02:36,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:17<02:30,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:18<02:29,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:20<02:30,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:21<02:28,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:22<02:22,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:24<02:25,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:25<02:24,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:26<02:22,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:28<02:21,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:29<02:19,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:30<02:19,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:32<02:16,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:33<02:16,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:34<02:15,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:36<02:15,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:37<02:16,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:39<02:20,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:40<02:16,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:41<02:14,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:43<02:12,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:44<02:11,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:46<02:10,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:47<02:08,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:48<02:06,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:50<02:05,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:51<02:04,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:52<02:02,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:54<02:00,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:55<01:59,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:57<01:58,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:58<02:01,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [01:00<02:01,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [01:01<01:55,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:02<01:53,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:04<01:54,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:05<01:51,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:06<01:49,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:08<01:47,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:09<01:45,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:10<01:42,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:12<01:41,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:13<01:38,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:14<01:38,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:16<01:37,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:17<01:36,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:19<01:36,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:20<01:38,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:22<01:37,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:23<01:44,  1.56s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:25<01:41,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:26<01:40,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:28<01:40,  1.57s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:29<01:35,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:31<01:32,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:32<01:30,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:34<01:30,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:35<01:28,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:37<01:27,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:38<01:24,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:40<01:23,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:41<01:19,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:43<01:16,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:44<01:14,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:45<01:13,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:47<01:10,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:48<01:09,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:49<01:06,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:51<01:05,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:52<01:03,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:53<01:01,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:55<01:01,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:56<00:59,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:58<00:58,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:59<00:57,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [02:00<00:55,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [02:02<00:54,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:03<00:53,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:04<00:51,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:06<00:50,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:07<00:50,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:09<00:50,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:10<00:48,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:12<00:47,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:13<00:46,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:14<00:43,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:16<00:42,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:17<00:40,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:19<00:39,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:20<00:38,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:22<00:37,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:23<00:35,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:24<00:33,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:26<00:32,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:27<00:31,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:29<00:30,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:30<00:28,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:32<00:27,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:33<00:27,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:35<00:25,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:36<00:23,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:37<00:21,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:39<00:19,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:40<00:18,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:42<00:17,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:43<00:15,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:46<00:19,  1.94s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:48<00:16,  1.81s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:49<00:13,  1.68s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:51<00:11,  1.63s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:52<00:09,  1.58s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:54<00:07,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:55<00:06,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:57<00:04,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:58<00:02,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:59<00:01,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [03:01<00:00,  1.48s/it][A
+make_experience: 100%|██████████| 128/128 [03:01<00:00,  1.42s/it]
+[36m(ActorModelRayActor pid=286523)[0m ["system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nEvaluate the visual aesthetics of this photo using a float score from 0.00 to 5.00. A rating of 0 represents very poor aesthetic quality, while 5 represents excellent aesthetic quality.\nassistant\n<think>The image showcases a male mallard duck in flight, with its wings spread and a vibrant mix of colors, particularly the presence of its metallic green head and chest. The lighting highlights the duck's features against a soft-focused background of autumn foliage, creating a depth of field that draws attention to the subject. The composition is well-balanced, with the duck positioned centrally and the natural backdrop contributing to a serene and naturalistic atmosphere. The photo captures a moment of the duck's life, which adds a dynamic and lively element to the image. The color contrast between the duck and the greenery is pleasing to the eye, enhancing the visual appeal of the photograph.</think>\n<answer>3.25</answer>"]
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 8x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:27:49 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.63 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:27:49 [executor_base.py:208] It took 1.618947 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.0834, rm=0.938, ret=-0.106, glen=176, tlen=930, kl=0.285, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<06:01,  2.85s/it, pg=0.0834, rm=0.938, ret=-0.106, glen=176, tlen=930, kl=0.285, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:05<06:01,  2.85s/it, pg=-0.0691, rm=1.12, ret=0.0525, glen=156, tlen=1.01e+3, kl=0.236, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:05<06:02,  2.88s/it, pg=-0.0691, rm=1.12, ret=0.0525, glen=156, tlen=1.01e+3, kl=0.236, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:08<06:02,  2.88s/it, pg=0.0261, rm=1, ret=-0.047, glen=167, tlen=794, kl=0.281, act_lr=9.51e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:08<05:32,  2.66s/it, pg=0.0261, rm=1, ret=-0.047, glen=167, tlen=794, kl=0.281, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:10<05:32,  2.66s/it, pg=0.0791, rm=0.938, ret=-0.0991, glen=164, tlen=954, kl=0.261, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:10<05:01,  2.43s/it, pg=0.0791, rm=0.938, ret=-0.0991, glen=164, tlen=954, kl=0.261, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:12<05:01,  2.43s/it, pg=-0.114, rm=1.19, ret=0.0953, glen=148, tlen=987, kl=0.264, act_lr=9.51e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:12<05:05,  2.49s/it, pg=-0.114, rm=1.19, ret=0.0953, glen=148, tlen=987, kl=0.264, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:14<05:05,  2.49s/it, pg=-0.0375, rm=1.06, ret=0.0188, glen=149, tlen=949, kl=0.278, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:14<04:39,  2.29s/it, pg=-0.0375, rm=1.06, ret=0.0188, glen=149, tlen=949, kl=0.278, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:16<04:39,  2.29s/it, pg=0.0382, rm=0.875, ret=-0.057, glen=156, tlen=987, kl=0.255, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:16<04:28,  2.22s/it, pg=0.0382, rm=0.875, ret=-0.057, glen=156, tlen=987, kl=0.255, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:26<04:28,  2.22s/it, pg=-0.0612, rm=1.25, ret=0.0398, glen=168, tlen=900, kl=0.259, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:26<09:30,  4.75s/it, pg=-0.0612, rm=1.25, ret=0.0398, glen=168, tlen=900, kl=0.259, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:29<09:30,  4.75s/it, pg=0.0083, rm=0.875, ret=-0.0295, glen=169, tlen=997, kl=0.267, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:29<07:49,  3.95s/it, pg=0.0083, rm=0.875, ret=-0.0295, glen=169, tlen=997, kl=0.267, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:31<07:49,  3.95s/it, pg=0.0635, rm=0.938, ret=-0.0826, glen=151, tlen=979, kl=0.285, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:31<06:42,  3.41s/it, pg=0.0635, rm=0.938, ret=-0.0826, glen=151, tlen=979, kl=0.285, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:33<06:42,  3.41s/it, pg=-0.178, rm=0.938, ret=0.158, glen=160, tlen=756, kl=0.267, act_lr=9.51e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:33<05:49,  2.99s/it, pg=-0.178, rm=0.938, ret=0.158, glen=160, tlen=756, kl=0.267, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:35<05:49,  2.99s/it, pg=-0.0386, rm=1.06, ret=0.0201, glen=162, tlen=962, kl=0.248, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:35<05:21,  2.77s/it, pg=-0.0386, rm=1.06, ret=0.0201, glen=162, tlen=962, kl=0.248, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:37<05:21,  2.77s/it, pg=0.126, rm=1.12, ret=-0.147, glen=157, tlen=794, kl=0.279, act_lr=9.51e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:37<05:02,  2.63s/it, pg=0.126, rm=1.12, ret=-0.147, glen=157, tlen=794, kl=0.279, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:40<05:02,  2.63s/it, pg=0.0158, rm=0.875, ret=-0.0337, glen=149, tlen=875, kl=0.259, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:40<04:41,  2.47s/it, pg=0.0158, rm=0.875, ret=-0.0337, glen=149, tlen=875, kl=0.259, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:42<04:41,  2.47s/it, pg=-0.0501, rm=0.812, ret=0.0306, glen=164, tlen=894, kl=0.266, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:42<04:32,  2.41s/it, pg=-0.0501, rm=0.812, ret=0.0306, glen=164, tlen=894, kl=0.266, act_lr=9.51e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:52<04:32,  2.41s/it, pg=0.0398, rm=0.812, ret=-0.0591, glen=163, tlen=896, kl=0.266, act_lr=9.5e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:52<08:40,  4.65s/it, pg=0.0398, rm=0.812, ret=-0.0591, glen=163, tlen=896, kl=0.266, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:54<08:40,  4.65s/it, pg=0.111, rm=0.938, ret=-0.13, glen=158, tlen=888, kl=0.27, act_lr=9.5e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:54<07:11,  3.89s/it, pg=0.111, rm=0.938, ret=-0.13, glen=158, tlen=888, kl=0.27, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:56<07:11,  3.89s/it, pg=-0.0108, rm=0.75, ret=-0.00705, glen=146, tlen=981, kl=0.254, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:56<06:13,  3.40s/it, pg=-0.0108, rm=0.75, ret=-0.00705, glen=146, tlen=981, kl=0.254, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:59<06:13,  3.40s/it, pg=-0.0425, rm=1, ret=0.0231, glen=162, tlen=961, kl=0.257, act_lr=9.5e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:59<05:46,  3.18s/it, pg=-0.0425, rm=1, ret=0.0231, glen=162, tlen=961, kl=0.257, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [01:01<05:46,  3.18s/it, pg=0.0231, rm=1, ret=-0.0422, glen=163, tlen=863, kl=0.258, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:01<05:05,  2.83s/it, pg=0.0231, rm=1, ret=-0.0422, glen=163, tlen=863, kl=0.258, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:03<05:05,  2.83s/it, pg=0.135, rm=0.875, ret=-0.153, glen=150, tlen=1.03e+3, kl=0.266, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:03<04:37,  2.60s/it, pg=0.135, rm=0.875, ret=-0.153, glen=150, tlen=1.03e+3, kl=0.266, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:05<04:37,  2.60s/it, pg=-0.0232, rm=1.06, ret=0.00493, glen=154, tlen=931, kl=0.259, act_lr=9.5e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:05<04:23,  2.48s/it, pg=-0.0232, rm=1.06, ret=0.00493, glen=154, tlen=931, kl=0.259, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:07<04:23,  2.48s/it, pg=0.0339, rm=1, ret=-0.0554, glen=171, tlen=891, kl=0.268, act_lr=9.5e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:07<04:14,  2.43s/it, pg=0.0339, rm=1, ret=-0.0554, glen=171, tlen=891, kl=0.268, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:17<04:14,  2.43s/it, pg=0.0406, rm=0.812, ret=-0.0612, glen=158, tlen=891, kl=0.289, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:17<08:00,  4.62s/it, pg=0.0406, rm=0.812, ret=-0.0612, glen=158, tlen=891, kl=0.289, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:19<08:00,  4.62s/it, pg=-0.0163, rm=0.938, ret=-0.0026, glen=162, tlen=834, kl=0.253, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:19<06:40,  3.89s/it, pg=-0.0163, rm=0.938, ret=-0.0026, glen=162, tlen=834, kl=0.253, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:21<06:40,  3.89s/it, pg=0.0545, rm=1, ret=-0.0759, glen=161, tlen=907, kl=0.29, act_lr=9.5e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:21<05:35,  3.29s/it, pg=0.0545, rm=1, ret=-0.0759, glen=161, tlen=907, kl=0.29, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:23<05:35,  3.29s/it, pg=0.0624, rm=1.06, ret=-0.0804, glen=155, tlen=870, kl=0.244, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:23<04:55,  2.93s/it, pg=0.0624, rm=1.06, ret=-0.0804, glen=155, tlen=870, kl=0.244, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:25<04:55,  2.93s/it, pg=0.0715, rm=0.875, ret=-0.0911, glen=154, tlen=967, kl=0.269, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:25<04:26,  2.67s/it, pg=0.0715, rm=0.875, ret=-0.0911, glen=154, tlen=967, kl=0.269, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:27<04:26,  2.67s/it, pg=-0.0312, rm=0.875, ret=0.0113, glen=150, tlen=840, kl=0.288, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:27<04:07,  2.50s/it, pg=-0.0312, rm=0.875, ret=0.0113, glen=150, tlen=840, kl=0.288, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:30<04:07,  2.50s/it, pg=0.129, rm=0.688, ret=-0.15, glen=156, tlen=966, kl=0.277, act_lr=9.5e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:30<03:54,  2.40s/it, pg=0.129, rm=0.688, ret=-0.15, glen=156, tlen=966, kl=0.277, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:31<03:54,  2.40s/it, pg=0.0125, rm=1.12, ret=-0.0321, glen=159, tlen=793, kl=0.273, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:31<03:36,  2.23s/it, pg=0.0125, rm=1.12, ret=-0.0321, glen=159, tlen=793, kl=0.273, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 12:32:36,496] [INFO] [timer.py:264:stop] epoch=0/micro_step=800/global_step=100, RunningAvgSamplesPerSec=5.752755269760929, CurrSamplesPerSec=6.019820543455483, MemAllocated=4.84GB, MaxMemAllocated=20.9GB
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:41<03:36,  2.23s/it, pg=-0.0448, rm=0.875, ret=0.0234, glen=161, tlen=874, kl=0.281, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:41<07:03,  4.42s/it, pg=-0.0448, rm=0.875, ret=0.0234, glen=161, tlen=874, kl=0.281, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:43<07:03,  4.42s/it, pg=0.0561, rm=0.875, ret=-0.0751, glen=163, tlen=906, kl=0.256, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:43<05:53,  3.72s/it, pg=0.0561, rm=0.875, ret=-0.0751, glen=163, tlen=906, kl=0.256, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:45<05:53,  3.72s/it, pg=0.213, rm=0.875, ret=-0.234, glen=156, tlen=886, kl=0.285, act_lr=9.5e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:45<05:08,  3.28s/it, pg=0.213, rm=0.875, ret=-0.234, glen=156, tlen=886, kl=0.285, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:48<05:08,  3.28s/it, pg=0.161, rm=0.875, ret=-0.183, glen=157, tlen=886, kl=0.291, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:48<04:40,  3.01s/it, pg=0.161, rm=0.875, ret=-0.183, glen=157, tlen=886, kl=0.291, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:50<04:40,  3.01s/it, pg=-0.12, rm=0.875, ret=0.102, glen=144, tlen=938, kl=0.272, act_lr=9.5e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:50<04:05,  2.67s/it, pg=-0.12, rm=0.875, ret=0.102, glen=144, tlen=938, kl=0.272, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:52<04:05,  2.67s/it, pg=-0.000829, rm=0.938, ret=-0.0197, glen=166, tlen=814, kl=0.257, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:52<03:51,  2.54s/it, pg=-0.000829, rm=0.938, ret=-0.0197, glen=166, tlen=814, kl=0.257, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:54<03:51,  2.54s/it, pg=0.00765, rm=1, ret=-0.0268, glen=147, tlen=833, kl=0.289, act_lr=9.5e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:54<03:29,  2.33s/it, pg=0.00765, rm=1, ret=-0.0268, glen=147, tlen=833, kl=0.289, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:56<03:29,  2.33s/it, pg=0.038, rm=0.812, ret=-0.0566, glen=156, tlen=926, kl=0.262, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:56<03:20,  2.26s/it, pg=0.038, rm=0.812, ret=-0.0566, glen=156, tlen=926, kl=0.262, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:05<03:20,  2.26s/it, pg=-0.0474, rm=0.875, ret=0.028, glen=154, tlen=872, kl=0.263, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:05<06:29,  4.42s/it, pg=-0.0474, rm=0.875, ret=0.028, glen=154, tlen=872, kl=0.263, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:08<06:29,  4.42s/it, pg=-0.134, rm=1.12, ret=0.115, glen=166, tlen=1.01e+3, kl=0.254, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:08<05:33,  3.84s/it, pg=-0.134, rm=1.12, ret=0.115, glen=166, tlen=1.01e+3, kl=0.254, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:09<05:33,  3.84s/it, pg=0.166, rm=0.75, ret=-0.185, glen=159, tlen=841, kl=0.266, act_lr=9.5e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:09<04:39,  3.25s/it, pg=0.166, rm=0.75, ret=-0.185, glen=159, tlen=841, kl=0.266, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:11<04:39,  3.25s/it, pg=0.0471, rm=0.938, ret=-0.0661, glen=146, tlen=830, kl=0.28, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:11<04:00,  2.84s/it, pg=0.0471, rm=0.938, ret=-0.0661, glen=146, tlen=830, kl=0.28, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:13<04:00,  2.84s/it, pg=0.0211, rm=0.812, ret=-0.0391, glen=157, tlen=950, kl=0.249, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:13<03:36,  2.57s/it, pg=0.0211, rm=0.812, ret=-0.0391, glen=157, tlen=950, kl=0.249, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:16<03:36,  2.57s/it, pg=0.161, rm=1.06, ret=-0.18, glen=141, tlen=980, kl=0.262, act_lr=9.5e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:16<03:26,  2.49s/it, pg=0.161, rm=1.06, ret=-0.18, glen=141, tlen=980, kl=0.262, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:18<03:26,  2.49s/it, pg=0.0353, rm=1, ret=-0.0534, glen=152, tlen=957, kl=0.262, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:18<03:18,  2.42s/it, pg=0.0353, rm=1, ret=-0.0534, glen=152, tlen=957, kl=0.262, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:20<03:18,  2.42s/it, pg=0.283, rm=0.938, ret=-0.301, glen=154, tlen=1.02e+3, kl=0.254, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:20<03:06,  2.30s/it, pg=0.283, rm=0.938, ret=-0.301, glen=154, tlen=1.02e+3, kl=0.254, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:30<03:06,  2.30s/it, pg=0.102, rm=0.812, ret=-0.121, glen=150, tlen=969, kl=0.261, act_lr=9.5e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:30<06:00,  4.51s/it, pg=0.102, rm=0.812, ret=-0.121, glen=150, tlen=969, kl=0.261, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:32<06:00,  4.51s/it, pg=-0.0364, rm=1, ret=0.0156, glen=168, tlen=911, kl=0.268, act_lr=9.5e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:32<05:01,  3.82s/it, pg=-0.0364, rm=1, ret=0.0156, glen=168, tlen=911, kl=0.268, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:34<05:01,  3.82s/it, pg=0.00631, rm=1.06, ret=-0.0248, glen=157, tlen=1.02e+3, kl=0.258, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:34<04:20,  3.33s/it, pg=0.00631, rm=1.06, ret=-0.0248, glen=157, tlen=1.02e+3, kl=0.258, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:36<04:20,  3.33s/it, pg=0.225, rm=0.75, ret=-0.244, glen=140, tlen=1.03e+3, kl=0.275, act_lr=9.5e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:36<03:42,  2.90s/it, pg=0.225, rm=0.75, ret=-0.244, glen=140, tlen=1.03e+3, kl=0.275, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:38<03:42,  2.90s/it, pg=-0.12, rm=1, ret=0.104, glen=146, tlen=952, kl=0.25, act_lr=9.5e-7]         [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:38<03:24,  2.69s/it, pg=-0.12, rm=1, ret=0.104, glen=146, tlen=952, kl=0.25, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:40<03:24,  2.69s/it, pg=-0.00611, rm=1.06, ret=-0.0141, glen=172, tlen=894, kl=0.264, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:40<03:08,  2.51s/it, pg=-0.00611, rm=1.06, ret=-0.0141, glen=172, tlen=894, kl=0.264, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:42<03:08,  2.51s/it, pg=-0.036, rm=0.875, ret=0.0191, glen=148, tlen=1.04e+3, kl=0.256, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:42<02:52,  2.33s/it, pg=-0.036, rm=0.875, ret=0.0191, glen=148, tlen=1.04e+3, kl=0.256, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:44<02:52,  2.33s/it, pg=0.0529, rm=0.625, ret=-0.072, glen=154, tlen=993, kl=0.264, act_lr=9.5e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:44<02:44,  2.25s/it, pg=0.0529, rm=0.625, ret=-0.072, glen=154, tlen=993, kl=0.264, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:54<02:44,  2.25s/it, pg=0.0935, rm=0.875, ret=-0.111, glen=155, tlen=965, kl=0.243, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:54<05:33,  4.64s/it, pg=0.0935, rm=0.875, ret=-0.111, glen=155, tlen=965, kl=0.243, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:57<05:33,  4.64s/it, pg=0.155, rm=0.938, ret=-0.18, glen=216, tlen=923, kl=0.238, act_lr=9.5e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:57<04:46,  4.03s/it, pg=0.155, rm=0.938, ret=-0.18, glen=216, tlen=923, kl=0.238, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:59<04:46,  4.03s/it, pg=0.194, rm=0.812, ret=-0.213, glen=156, tlen=765, kl=0.258, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:59<04:01,  3.45s/it, pg=0.194, rm=0.812, ret=-0.213, glen=156, tlen=765, kl=0.258, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [03:01<04:01,  3.45s/it, pg=-0.0883, rm=0.938, ret=0.0712, glen=141, tlen=892, kl=0.283, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:01<03:29,  3.03s/it, pg=-0.0883, rm=0.938, ret=0.0712, glen=141, tlen=892, kl=0.283, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:03<03:29,  3.03s/it, pg=-0.0429, rm=0.938, ret=0.0256, glen=152, tlen=963, kl=0.268, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:03<03:05,  2.73s/it, pg=-0.0429, rm=0.938, ret=0.0256, glen=152, tlen=963, kl=0.268, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:05<03:05,  2.73s/it, pg=0.0803, rm=1, ret=-0.0985, glen=152, tlen=1.02e+3, kl=0.265, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:05<02:55,  2.62s/it, pg=0.0803, rm=1, ret=-0.0985, glen=152, tlen=1.02e+3, kl=0.265, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:08<02:55,  2.62s/it, pg=0.026, rm=0.812, ret=-0.0445, glen=148, tlen=829, kl=0.283, act_lr=9.5e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:08<02:43,  2.47s/it, pg=0.026, rm=0.812, ret=-0.0445, glen=148, tlen=829, kl=0.283, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:10<02:43,  2.47s/it, pg=0.0558, rm=0.875, ret=-0.0764, glen=157, tlen=900, kl=0.274, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:10<02:38,  2.44s/it, pg=0.0558, rm=0.875, ret=-0.0764, glen=157, tlen=900, kl=0.274, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:19<02:38,  2.44s/it, pg=-0.00458, rm=0.875, ret=-0.0165, glen=150, tlen=838, kl=0.266, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:19<04:49,  4.52s/it, pg=-0.00458, rm=0.875, ret=-0.0165, glen=150, tlen=838, kl=0.266, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:21<04:49,  4.52s/it, pg=-0.0373, rm=1.06, ret=0.0183, glen=155, tlen=956, kl=0.271, act_lr=9.5e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:21<03:58,  3.78s/it, pg=-0.0373, rm=1.06, ret=0.0183, glen=155, tlen=956, kl=0.271, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:23<03:58,  3.78s/it, pg=0.00526, rm=0.75, ret=-0.0235, glen=155, tlen=965, kl=0.267, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:23<03:18,  3.21s/it, pg=0.00526, rm=0.75, ret=-0.0235, glen=155, tlen=965, kl=0.267, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:25<03:18,  3.21s/it, pg=-0.0517, rm=1.12, ret=0.0312, glen=167, tlen=1e+3, kl=0.268, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:25<02:52,  2.82s/it, pg=-0.0517, rm=1.12, ret=0.0312, glen=167, tlen=1e+3, kl=0.268, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:28<02:52,  2.82s/it, pg=0.246, rm=1.03, ret=-0.269, glen=260, tlen=1.02e+3, kl=0.195, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:28<02:53,  2.89s/it, pg=0.246, rm=1.03, ret=-0.269, glen=260, tlen=1.02e+3, kl=0.195, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:30<02:53,  2.89s/it, pg=0.0271, rm=0.938, ret=-0.0457, glen=146, tlen=881, kl=0.27, act_lr=9.5e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:30<02:37,  2.67s/it, pg=0.0271, rm=0.938, ret=-0.0457, glen=146, tlen=881, kl=0.27, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:33<02:37,  2.67s/it, pg=-0.0395, rm=1.06, ret=0.0238, glen=138, tlen=938, kl=0.265, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:33<02:26,  2.52s/it, pg=-0.0395, rm=1.06, ret=0.0238, glen=138, tlen=938, kl=0.265, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:35<02:26,  2.52s/it, pg=0.0797, rm=0.75, ret=-0.0982, glen=152, tlen=882, kl=0.276, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:35<02:15,  2.37s/it, pg=0.0797, rm=0.75, ret=-0.0982, glen=152, tlen=882, kl=0.276, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:44<02:15,  2.37s/it, pg=0.115, rm=0.875, ret=-0.133, glen=161, tlen=865, kl=0.258, act_lr=9.5e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:44<04:15,  4.57s/it, pg=0.115, rm=0.875, ret=-0.133, glen=161, tlen=865, kl=0.258, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:46<04:15,  4.57s/it, pg=0.123, rm=0.875, ret=-0.144, glen=163, tlen=867, kl=0.3, act_lr=9.5e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:46<03:31,  3.85s/it, pg=0.123, rm=0.875, ret=-0.144, glen=163, tlen=867, kl=0.3, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:48<03:31,  3.85s/it, pg=-0.0287, rm=1.19, ret=0.0109, glen=160, tlen=834, kl=0.257, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:48<02:57,  3.29s/it, pg=-0.0287, rm=1.19, ret=0.0109, glen=160, tlen=834, kl=0.257, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:50<02:57,  3.29s/it, pg=0.0177, rm=1, ret=-0.0368, glen=150, tlen=888, kl=0.271, act_lr=9.5e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:50<02:34,  2.91s/it, pg=0.0177, rm=1, ret=-0.0368, glen=150, tlen=888, kl=0.271, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:52<02:34,  2.91s/it, pg=-0.152, rm=1, ret=0.133, glen=158, tlen=806, kl=0.283, act_lr=9.5e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:52<02:14,  2.59s/it, pg=-0.152, rm=1, ret=0.133, glen=158, tlen=806, kl=0.283, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:54<02:14,  2.59s/it, pg=0.242, rm=0.938, ret=-0.256, glen=143, tlen=888, kl=0.258, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:54<02:04,  2.44s/it, pg=0.242, rm=0.938, ret=-0.256, glen=143, tlen=888, kl=0.258, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:56<02:04,  2.44s/it, pg=0.194, rm=0.812, ret=-0.212, glen=139, tlen=1.07e+3, kl=0.256, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:56<01:56,  2.33s/it, pg=0.194, rm=0.812, ret=-0.212, glen=139, tlen=1.07e+3, kl=0.256, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:59<01:56,  2.33s/it, pg=0.103, rm=0.812, ret=-0.12, glen=147, tlen=967, kl=0.26, act_lr=9.5e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:59<01:53,  2.32s/it, pg=0.103, rm=0.812, ret=-0.12, glen=147, tlen=967, kl=0.26, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:09<01:53,  2.32s/it, pg=-0.0164, rm=0.938, ret=-0.0018, glen=144, tlen=820, kl=0.28, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:09<03:39,  4.56s/it, pg=-0.0164, rm=0.938, ret=-0.0018, glen=144, tlen=820, kl=0.28, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:11<03:39,  4.56s/it, pg=-0.175, rm=0.812, ret=0.155, glen=150, tlen=960, kl=0.283, act_lr=9.5e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:11<02:59,  3.82s/it, pg=-0.175, rm=0.812, ret=0.155, glen=150, tlen=960, kl=0.283, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:13<02:59,  3.82s/it, pg=0.09, rm=0.938, ret=-0.111, glen=176, tlen=976, kl=0.27, act_lr=9.5e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:13<02:33,  3.33s/it, pg=0.09, rm=0.938, ret=-0.111, glen=176, tlen=976, kl=0.27, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:15<02:33,  3.33s/it, pg=0.0314, rm=1, ret=-0.0475, glen=139, tlen=944, kl=0.245, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:15<02:15,  3.00s/it, pg=0.0314, rm=1, ret=-0.0475, glen=139, tlen=944, kl=0.245, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:17<02:15,  3.00s/it, pg=0.0525, rm=1.12, ret=-0.0707, glen=154, tlen=918, kl=0.272, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:17<01:57,  2.66s/it, pg=0.0525, rm=1.12, ret=-0.0707, glen=154, tlen=918, kl=0.272, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:19<01:57,  2.66s/it, pg=-0.148, rm=1, ret=0.131, glen=147, tlen=973, kl=0.283, act_lr=9.5e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:19<01:49,  2.54s/it, pg=-0.148, rm=1, ret=0.131, glen=147, tlen=973, kl=0.283, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:21<01:49,  2.54s/it, pg=0.0418, rm=1, ret=-0.0623, glen=158, tlen=896, kl=0.265, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:21<01:39,  2.37s/it, pg=0.0418, rm=1, ret=-0.0623, glen=158, tlen=896, kl=0.265, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:23<01:39,  2.37s/it, pg=0.0304, rm=0.875, ret=-0.0497, glen=159, tlen=860, kl=0.283, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:23<01:30,  2.22s/it, pg=0.0304, rm=0.875, ret=-0.0497, glen=159, tlen=860, kl=0.283, act_lr=9.5e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:33<01:30,  2.22s/it, pg=0.0756, rm=0.875, ret=-0.0931, glen=144, tlen=955, kl=0.267, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:33<02:57,  4.45s/it, pg=0.0756, rm=0.875, ret=-0.0931, glen=144, tlen=955, kl=0.267, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:35<02:57,  4.45s/it, pg=-0.0505, rm=1, ret=0.0312, glen=157, tlen=947, kl=0.274, act_lr=9.49e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:35<02:25,  3.74s/it, pg=-0.0505, rm=1, ret=0.0312, glen=157, tlen=947, kl=0.274, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:37<02:25,  3.74s/it, pg=0.219, rm=0.688, ret=-0.237, glen=148, tlen=917, kl=0.256, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:37<02:00,  3.18s/it, pg=0.219, rm=0.688, ret=-0.237, glen=148, tlen=917, kl=0.256, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:39<02:00,  3.18s/it, pg=0.111, rm=0.812, ret=-0.127, glen=140, tlen=970, kl=0.252, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:39<01:51,  3.00s/it, pg=0.111, rm=0.812, ret=-0.127, glen=140, tlen=970, kl=0.252, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:41<01:51,  3.00s/it, pg=-0.256, rm=0.812, ret=0.241, glen=160, tlen=994, kl=0.242, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:41<01:38,  2.75s/it, pg=-0.256, rm=0.812, ret=0.241, glen=160, tlen=994, kl=0.242, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:43<01:38,  2.75s/it, pg=-0.0931, rm=0.875, ret=0.0725, glen=159, tlen=841, kl=0.287, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:43<01:26,  2.48s/it, pg=-0.0931, rm=0.875, ret=0.0725, glen=159, tlen=841, kl=0.287, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:46<01:26,  2.48s/it, pg=-0.0676, rm=1, ret=0.0492, glen=169, tlen=1.01e+3, kl=0.244, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:46<01:21,  2.41s/it, pg=-0.0676, rm=1, ret=0.0492, glen=169, tlen=1.01e+3, kl=0.244, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:47<01:21,  2.41s/it, pg=-0.0549, rm=1.12, ret=0.0371, glen=147, tlen=773, kl=0.257, act_lr=9.49e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:47<01:13,  2.24s/it, pg=-0.0549, rm=1.12, ret=0.0371, glen=147, tlen=773, kl=0.257, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:58<01:13,  2.24s/it, pg=-0.0291, rm=1.19, ret=0.0112, glen=159, tlen=796, kl=0.257, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:58<02:28,  4.64s/it, pg=-0.0291, rm=1.19, ret=0.0112, glen=159, tlen=796, kl=0.257, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:59<02:28,  4.64s/it, pg=-0.155, rm=1, ret=0.135, glen=160, tlen=808, kl=0.268, act_lr=9.49e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:59<01:58,  3.81s/it, pg=-0.155, rm=1, ret=0.135, glen=160, tlen=808, kl=0.268, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [05:02<01:58,  3.81s/it, pg=-0.164, rm=1.06, ret=0.146, glen=165, tlen=964, kl=0.25, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:02<01:39,  3.31s/it, pg=-0.164, rm=1.06, ret=0.146, glen=165, tlen=964, kl=0.25, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:03<01:39,  3.31s/it, pg=0.00164, rm=0.938, ret=-0.0233, glen=156, tlen=772, kl=0.296, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:03<01:23,  2.86s/it, pg=0.00164, rm=0.938, ret=-0.0233, glen=156, tlen=772, kl=0.296, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:05<01:23,  2.86s/it, pg=0.188, rm=0.875, ret=-0.202, glen=140, tlen=987, kl=0.253, act_lr=9.49e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:05<01:12,  2.61s/it, pg=0.188, rm=0.875, ret=-0.202, glen=140, tlen=987, kl=0.253, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:07<01:12,  2.61s/it, pg=0.0487, rm=0.938, ret=-0.0683, glen=154, tlen=838, kl=0.28, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:07<01:04,  2.39s/it, pg=0.0487, rm=0.938, ret=-0.0683, glen=154, tlen=838, kl=0.28, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:09<01:04,  2.39s/it, pg=-0.114, rm=1.19, ret=0.0959, glen=155, tlen=994, kl=0.248, act_lr=9.49e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:09<00:59,  2.27s/it, pg=-0.114, rm=1.19, ret=0.0959, glen=155, tlen=994, kl=0.248, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:11<00:59,  2.27s/it, pg=0.0334, rm=0.875, ret=-0.0536, glen=155, tlen=856, kl=0.28, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:11<00:53,  2.15s/it, pg=0.0334, rm=0.875, ret=-0.0536, glen=155, tlen=856, kl=0.28, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:21<00:53,  2.15s/it, pg=0.00754, rm=1, ret=-0.0268, glen=149, tlen=872, kl=0.285, act_lr=9.49e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:21<01:44,  4.37s/it, pg=0.00754, rm=1, ret=-0.0268, glen=149, tlen=872, kl=0.285, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:23<01:44,  4.37s/it, pg=-0.158, rm=0.938, ret=0.142, glen=142, tlen=1035.75, kl=0.255, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:23<01:23,  3.64s/it, pg=-0.158, rm=0.938, ret=0.142, glen=142, tlen=1035.75, kl=0.255, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:25<01:23,  3.64s/it, pg=0.215, rm=0.875, ret=-0.233, glen=152, tlen=1.02e+3, kl=0.256, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:25<01:08,  3.10s/it, pg=0.215, rm=0.875, ret=-0.233, glen=152, tlen=1.02e+3, kl=0.256, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:27<01:08,  3.10s/it, pg=-0.0495, rm=1.12, ret=0.029, glen=157, tlen=780, kl=0.291, act_lr=9.49e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:27<00:58,  2.80s/it, pg=-0.0495, rm=1.12, ret=0.029, glen=157, tlen=780, kl=0.291, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:29<00:58,  2.80s/it, pg=-0.0921, rm=1.06, ret=0.0761, glen=150, tlen=1.07e+3, kl=0.25, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:29<00:52,  2.62s/it, pg=-0.0921, rm=1.06, ret=0.0761, glen=150, tlen=1.07e+3, kl=0.25, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:31<00:52,  2.62s/it, pg=0.155, rm=1.12, ret=-0.171, glen=153, tlen=827, kl=0.259, act_lr=9.49e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:31<00:45,  2.37s/it, pg=0.155, rm=1.12, ret=-0.171, glen=153, tlen=827, kl=0.259, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:32<00:45,  2.37s/it, pg=0.286, rm=1, ret=-0.303, glen=154, tlen=776, kl=0.258, act_lr=9.49e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:32<00:39,  2.21s/it, pg=0.286, rm=1, ret=-0.303, glen=154, tlen=776, kl=0.258, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:34<00:39,  2.21s/it, pg=0.0394, rm=0.875, ret=-0.0594, glen=149, tlen=966, kl=0.287, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:34<00:35,  2.11s/it, pg=0.0394, rm=0.875, ret=-0.0594, glen=149, tlen=966, kl=0.287, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:44<00:35,  2.11s/it, pg=0.0575, rm=0.875, ret=-0.0768, glen=158, tlen=897, kl=0.274, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:44<01:08,  4.26s/it, pg=0.0575, rm=0.875, ret=-0.0768, glen=158, tlen=897, kl=0.274, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:46<01:08,  4.26s/it, pg=0.157, rm=1, ret=-0.173, glen=152, tlen=1.08e+3, kl=0.239, act_lr=9.49e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:46<00:54,  3.63s/it, pg=0.157, rm=1, ret=-0.173, glen=152, tlen=1.08e+3, kl=0.239, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:48<00:54,  3.63s/it, pg=-0.132, rm=1, ret=0.113, glen=160, tlen=901, kl=0.265, act_lr=9.49e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:48<00:44,  3.14s/it, pg=-0.132, rm=1, ret=0.113, glen=160, tlen=901, kl=0.265, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:50<00:44,  3.14s/it, pg=-0.114, rm=1.19, ret=0.0977, glen=147, tlen=985, kl=0.25, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:50<00:36,  2.80s/it, pg=-0.114, rm=1.19, ret=0.0977, glen=147, tlen=985, kl=0.25, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:52<00:36,  2.80s/it, pg=-0.0336, rm=0.812, ret=0.0151, glen=164, tlen=1.02e+3, kl=0.265, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:52<00:30,  2.53s/it, pg=-0.0336, rm=0.812, ret=0.0151, glen=164, tlen=1.02e+3, kl=0.265, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:54<00:30,  2.53s/it, pg=0.15, rm=0.812, ret=-0.169, glen=163, tlen=1010.25, kl=0.261, act_lr=9.49e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:54<00:26,  2.38s/it, pg=0.15, rm=0.812, ret=-0.169, glen=163, tlen=1010.25, kl=0.261, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:56<00:26,  2.38s/it, pg=0.244, rm=0.75, ret=-0.264, glen=155, tlen=844, kl=0.258, act_lr=9.49e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:56<00:23,  2.31s/it, pg=0.244, rm=0.75, ret=-0.264, glen=155, tlen=844, kl=0.258, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:58<00:23,  2.31s/it, pg=-0.0483, rm=1, ret=0.0296, glen=142, tlen=1.01e+3, kl=0.281, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:58<00:20,  2.31s/it, pg=-0.0483, rm=1, ret=0.0296, glen=142, tlen=1.01e+3, kl=0.281, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:08<00:20,  2.31s/it, pg=-0.257, rm=1, ret=0.238, glen=155, tlen=906, kl=0.29, act_lr=9.49e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:08<00:35,  4.47s/it, pg=-0.257, rm=1, ret=0.238, glen=155, tlen=906, kl=0.29, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:10<00:35,  4.47s/it, pg=-0.03, rm=1, ret=0.00893, glen=167, tlen=878, kl=0.271, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:10<00:26,  3.77s/it, pg=-0.03, rm=1, ret=0.00893, glen=167, tlen=878, kl=0.271, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:12<00:26,  3.77s/it, pg=-0.0545, rm=1, ret=0.0351, glen=162, tlen=986, kl=0.259, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:12<00:19,  3.22s/it, pg=-0.0545, rm=1, ret=0.0351, glen=162, tlen=986, kl=0.259, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:14<00:19,  3.22s/it, pg=0.223, rm=0.812, ret=-0.24, glen=146, tlen=964, kl=0.277, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:14<00:14,  2.81s/it, pg=0.223, rm=0.812, ret=-0.24, glen=146, tlen=964, kl=0.277, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:16<00:14,  2.81s/it, pg=0.154, rm=0.938, ret=-0.174, glen=162, tlen=874, kl=0.278, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:16<00:10,  2.60s/it, pg=0.154, rm=0.938, ret=-0.174, glen=162, tlen=874, kl=0.278, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:18<00:10,  2.60s/it, pg=0.0244, rm=1, ret=-0.0442, glen=166, tlen=829, kl=0.267, act_lr=9.49e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:18<00:07,  2.36s/it, pg=0.0244, rm=1, ret=-0.0442, glen=166, tlen=829, kl=0.267, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:20<00:07,  2.36s/it, pg=-0.149, rm=1, ret=0.131, glen=152, tlen=999, kl=0.267, act_lr=9.49e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:20<00:04,  2.27s/it, pg=-0.149, rm=1, ret=0.131, glen=152, tlen=999, kl=0.267, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:21<00:04,  2.27s/it, pg=-0.0776, rm=1.12, ret=0.0599, glen=148, tlen=887, kl=0.255, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:21<00:02,  2.15s/it, pg=-0.0776, rm=1.12, ret=0.0599, glen=148, tlen=887, kl=0.255, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:31<00:02,  2.15s/it, pg=-0.0459, rm=0.875, ret=0.0255, glen=145, tlen=863, kl=0.297, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:31<00:00,  4.30s/it, pg=-0.0459, rm=0.875, ret=0.0255, glen=145, tlen=863, kl=0.297, act_lr=9.49e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:31<00:00,  3.06s/it, pg=-0.0459, rm=0.875, ret=0.0255, glen=145, tlen=863, kl=0.297, act_lr=9.49e-7]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:37:28 [executor_base.py:219] It took 1.798815 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 12:37:30 [executor_base.py:219] It took 3.298595 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3289x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.11.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 942x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.21.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 914x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:37:51 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:37:51 [executor_base.py:208] It took 1.405725 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 646x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   5%|▍         | 6/127 [1:24:33<24:06:11, 717.12s/it, policy_loss=0.0226, actor_lr=9.5e-7, kl=0.266, reward=0.946, response_length=156, total_length=919, acc_rewards=0.446, format_rewards=0.5, return=-0.0415] 
+Episode [1/2]:   6%|▌         | 7/127 [1:24:33<24:03:08, 721.57s/it, policy_loss=0.0226, actor_lr=9.5e-7, kl=0.266, reward=0.946, response_length=156, total_length=919, acc_rewards=0.446, format_rewards=0.5, return=-0.0415]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:37:53 [executor_base.py:219] It took 1.485099 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   0%|          | 1/256 [00:18<1:20:42, 18.99s/it, est. speed input: 20.91 toks/s, output: 4.95 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   2%|▏         | 6/256 [00:19<09:48,  2.35s/it, est. speed input: 146.89 toks/s, output: 29.92 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   4%|▍         | 10/256 [00:19<05:02,  1.23s/it, est. speed input: 349.84 toks/s, output: 50.55 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   5%|▌         | 13/256 [00:19<03:18,  1.23it/s, est. speed input: 419.04 toks/s, output: 66.78 toks/s]
+Processed prompts:   6%|▋         | 16/256 [00:19<02:13,  1.79it/s, est. speed input: 539.58 toks/s, output: 83.22 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   8%|▊         | 21/256 [00:19<01:15,  3.10it/s, est. speed input: 658.19 toks/s, output: 111.51 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  11%|█         | 28/256 [00:20<00:40,  5.58it/s, est. speed input: 813.83 toks/s, output: 151.67 toks/s]
+Processed prompts:  13%|█▎        | 34/256 [00:20<00:26,  8.25it/s, est. speed input: 948.93 toks/s, output: 186.60 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  16%|█▋        | 42/256 [00:20<00:16, 12.84it/s, est. speed input: 1116.18 toks/s, output: 234.10 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  21%|██        | 54/256 [00:20<00:09, 21.74it/s, est. speed input: 1482.54 toks/s, output: 306.93 toks/s]
+Processed prompts:  27%|██▋       | 69/256 [00:20<00:05, 35.17it/s, est. speed input: 1844.84 toks/s, output: 399.66 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  30%|███       | 78/256 [00:20<00:04, 39.96it/s, est. speed input: 2132.46 toks/s, output: 455.03 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  34%|███▎      | 86/256 [00:20<00:03, 45.70it/s, est. speed input: 2351.35 toks/s, output: 505.35 toks/s]
+Processed prompts:  38%|███▊      | 98/256 [00:20<00:02, 58.77it/s, est. speed input: 2700.05 toks/s, output: 583.07 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  46%|████▋     | 119/256 [00:21<00:01, 84.02it/s, est. speed input: 3330.39 toks/s, output: 722.45 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  54%|█████▍    | 138/256 [00:21<00:01, 103.27it/s, est. speed input: 3796.37 toks/s, output: 850.14 toks/s]
+Processed prompts:  59%|█████▉    | 151/256 [00:21<00:01, 97.60it/s, est. speed input: 4199.35 toks/s, output: 936.64 toks/s] 
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  66%|██████▌   | 168/256 [00:21<00:00, 108.91it/s, est. speed input: 4511.59 toks/s, output: 1056.46 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  73%|███████▎  | 187/256 [00:21<00:00, 124.36it/s, est. speed input: 4979.10 toks/s, output: 1194.25 toks/s]
+Processed prompts:  80%|████████  | 205/256 [00:21<00:00, 137.45it/s, est. speed input: 5417.01 toks/s, output: 1327.88 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  86%|████████▌ | 220/256 [00:21<00:00, 119.82it/s, est. speed input: 5864.33 toks/s, output: 1437.92 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  91%|█████████▏| 234/256 [00:21<00:00, 111.38it/s, est. speed input: 6203.73 toks/s, output: 1545.96 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  96%|█████████▌| 246/256 [00:22<00:00, 96.92it/s, est. speed input: 6490.63 toks/s, output: 1638.74 toks/s] 
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:22<00:00, 11.29it/s, est. speed input: 6511.57 toks/s, output: 1692.64 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  19%|█▉        | 48/256 [00:22<00:07, 26.16it/s, est. speed input: 1684.43 toks/s, output: 274.07 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  57%|█████▋    | 146/256 [00:23<00:01, 98.21it/s, est. speed input: 4110.97 toks/s, output: 902.85 toks/s]
+Processed prompts:  63%|██████▎   | 162/256 [00:23<00:00, 113.54it/s, est. speed input: 4410.45 toks/s, output: 1013.96 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:25<00:00, 10.03it/s, est. speed input: 6040.76 toks/s, output: 1653.38 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  75%|███████▍  | 191/256 [00:26<00:00, 134.08it/s, est. speed input: 5451.87 toks/s, output: 1058.16 toks/s][32m [repeated 29x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  86%|████████▋ | 221/256 [00:26<00:00, 109.41it/s, est. speed input: 5905.99 toks/s, output: 1231.42 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:27<00:00, 110.88it/s, est. speed input: 6152.79 toks/s, output: 1319.15 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  63%|██████▎   | 161/256 [00:26<00:00, 116.08it/s, est. speed input: 4541.14 toks/s, output: 855.46 toks/s]
+Processed prompts:  71%|███████   | 182/256 [00:26<00:00, 134.69it/s, est. speed input: 5065.05 toks/s, output: 984.67 toks/s][32m [repeated 14x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:28<00:00,  9.09it/s, est. speed input: 6435.56 toks/s, output: 1438.25 toks/s] [32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  37%|███▋      | 95/256 [00:30<00:02, 54.33it/s, est. speed input: 2747.06 toks/s, output: 370.91 toks/s][32m [repeated 40x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  77%|███████▋  | 197/256 [00:31<00:00, 123.40it/s, est. speed input: 5273.95 toks/s, output: 868.57 toks/s]
+Processed prompts:  83%|████████▎ | 213/256 [00:31<00:00, 130.76it/s, est. speed input: 5682.47 toks/s, output: 953.59 toks/s][32m [repeated 20x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  99%|█████████▉| 254/256 [00:32<00:00, 51.75it/s, est. speed input: 6598.65 toks/s, output: 1170.19 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [00:32<00:00,  7.96it/s, est. speed input: 6615.38 toks/s, output: 1182.00 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  95%|█████████▍| 242/256 [00:31<00:00, 111.68it/s, est. speed input: 6397.36 toks/s, output: 1112.19 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  35%|███▌      | 90/256 [00:25<00:02, 68.46it/s, est. speed input: 2799.61 toks/s, output: 446.08 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  75%|███████▍  | 191/256 [00:26<00:00, 113.75it/s, est. speed input: 5195.54 toks/s, output: 1029.72 toks/s]
+Processed prompts:  81%|████████  | 207/256 [00:26<00:00, 125.01it/s, est. speed input: 5585.51 toks/s, output: 1131.57 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  88%|████████▊ | 225/256 [00:26<00:00, 136.23it/s, est. speed input: 5951.63 toks/s, output: 1249.32 toks/s]
+Processed prompts:  94%|█████████▍| 240/256 [00:26<00:00, 130.91it/s, est. speed input: 6237.01 toks/s, output: 1349.39 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 12:37:51 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.41 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 12:37:51 [executor_base.py:208] It took 1.608238 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:37:54 [executor_base.py:219] It took 3.068562 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m  
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 950x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 950x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 796x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 796x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 12:39:41 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.78 GiB memory is still in use.
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 12:39:41 [executor_base.py:208] It took 1.339878 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 300x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 300x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  99%|█████████▉| 254/256 [00:27<00:00, 87.75it/s, est. speed input: 6471.19 toks/s, output: 1439.13 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.39it/s, est. speed input: 6490.94 toks/s, output: 1451.95 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  69%|██████▉   | 177/256 [00:26<00:00, 126.54it/s, est. speed input: 4905.19 toks/s, output: 945.61 toks/s][32m [repeated 2x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:21,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:23,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:03<02:21,  1.13s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:04<02:14,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:05<02:08,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:06<02:07,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:07<02:03,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:08<02:01,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:09<02:13,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:11<02:21,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:12<02:26,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:13<02:29,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:15<02:29,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:16<02:28,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:17<02:30,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:19<02:31,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:20<02:17,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:21<02:11,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:22<02:02,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:23<01:58,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:24<01:55,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:25<01:50,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:26<01:46,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:27<01:45,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:28<01:52,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:29<02:00,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:31<02:03,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:32<02:08,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:34<02:07,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:35<02:09,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:36<02:08,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:38<02:08,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:39<02:05,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:40<02:06,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:42<02:06,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:43<02:05,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:44<02:03,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:46<02:03,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:47<02:03,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:49<02:01,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:50<02:00,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:51<01:59,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:54<02:41,  1.89s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:56<02:26,  1.75s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [00:57<02:16,  1.65s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [00:59<02:07,  1.55s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:00<02:00,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:01<01:56,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:03<01:52,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:04<01:50,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:05<01:48,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:07<01:44,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:08<01:43,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:10<01:41,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:11<01:38,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:12<01:37,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:14<01:36,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:15<01:35,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:16<01:35,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:18<01:34,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:19<01:33,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:21<01:34,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:22<01:34,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:24<01:35,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:25<01:27,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:26<01:26,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:28<01:23,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:29<01:22,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:30<01:22,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:32<01:20,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:33<01:20,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:35<01:19,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:36<01:19,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:38<01:17,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:39<01:16,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:41<01:14,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:42<01:13,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:43<01:12,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:45<01:11,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:46<01:10,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:48<01:08,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:49<01:07,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:51<01:06,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:52<01:03,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:54<01:02,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:55<00:59,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:57<00:59,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:58<00:58,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [01:59<00:56,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:01<00:53,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:02<00:51,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:04<00:50,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:05<00:49,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:07<00:49,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:08<00:48,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:09<00:46,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:11<00:44,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:12<00:42,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:14<00:41,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:15<00:40,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:17<00:39,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:18<00:38,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:20<00:36,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:21<00:35,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:22<00:32,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:24<00:31,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:25<00:30,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:27<00:28,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:28<00:27,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:30<00:26,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:31<00:24,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:33<00:23,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:34<00:22,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:36<00:20,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:37<00:19,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:39<00:17,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:40<00:16,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:41<00:14,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:43<00:13,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:44<00:11,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:46<00:10,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:47<00:08,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:49<00:07,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:50<00:05,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:52<00:04,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:53<00:02,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:55<00:01,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:56<00:00,  1.46s/it][A
+make_experience: 100%|██████████| 128/128 [02:56<00:00,  1.38s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nGive an overall aesthetic rating for this image, between 0 and 5, rounded to two decimal points. A rating of 0 represents very poor aesthetic quality, while 5 represents excellent aesthetic quality.\nassistant\n<think>The image depicts what appears to be a close-up of a handwashing sink, with visible water droplets and reflections on the wet surface. The composition is somewhat abstract due to the distorted and angular perspective, which might be intentional for artistic effect. The use of light and shadow adds depth to the image, creating a sense of texture and movement. However, the image lacks a clear subject or narrative, and the abstract nature may make it difficult for the viewer to immediately understand the intended message. The color palette is limited, with cool tones being dominant, which gives the image a somewhat sterile or clinical feel. While the image has an intriguing and somewhat artistic quality, it might not be appealing to everyone due to its abstract and somewhat cold aesthetic.</think>\n<answer>2.25</answer>']
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:39:41 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.81 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:39:41 [executor_base.py:208] It took 1.622974 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.0459, rm=0.812, ret=-0.0667, glen=154, tlen=701, kl=0.277, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<04:29,  2.12s/it, pg=0.0459, rm=0.812, ret=-0.0667, glen=154, tlen=701, kl=0.277, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:04<04:29,  2.12s/it, pg=0.044, rm=0.875, ret=-0.0653, glen=146, tlen=1013.0, kl=0.315, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:04<04:36,  2.19s/it, pg=0.044, rm=0.875, ret=-0.0653, glen=146, tlen=1013.0, kl=0.315, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:06<04:36,  2.19s/it, pg=-0.0346, rm=0.938, ret=0.0145, glen=158, tlen=915, kl=0.289, act_lr=9.49e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:06<04:57,  2.38s/it, pg=-0.0346, rm=0.938, ret=0.0145, glen=158, tlen=915, kl=0.289, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:08<04:57,  2.38s/it, pg=0.095, rm=0.812, ret=-0.114, glen=168, tlen=927, kl=0.271, act_lr=9.49e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:08<04:30,  2.18s/it, pg=0.095, rm=0.812, ret=-0.114, glen=168, tlen=927, kl=0.271, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:10<04:30,  2.18s/it, pg=0.0253, rm=0.875, ret=-0.0466, glen=159, tlen=839, kl=0.294, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:10<04:22,  2.14s/it, pg=0.0253, rm=0.875, ret=-0.0466, glen=159, tlen=839, kl=0.294, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:12<04:22,  2.14s/it, pg=-0.0383, rm=0.875, ret=0.0185, glen=138, tlen=944, kl=0.3, act_lr=9.49e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:12<04:10,  2.05s/it, pg=-0.0383, rm=0.875, ret=0.0185, glen=138, tlen=944, kl=0.3, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:14<04:10,  2.05s/it, pg=0.122, rm=1, ret=-0.143, glen=163, tlen=769, kl=0.282, act_lr=9.49e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:14<04:10,  2.07s/it, pg=0.122, rm=1, ret=-0.143, glen=163, tlen=769, kl=0.282, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:24<04:10,  2.07s/it, pg=-0.0101, rm=1, ret=-0.0139, glen=168, tlen=682, kl=0.311, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:24<08:43,  4.36s/it, pg=-0.0101, rm=1, ret=-0.0139, glen=168, tlen=682, kl=0.311, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:26<08:43,  4.36s/it, pg=-0.153, rm=1, ret=0.133, glen=158, tlen=935, kl=0.272, act_lr=9.49e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:26<07:15,  3.66s/it, pg=-0.153, rm=1, ret=0.133, glen=158, tlen=935, kl=0.272, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:28<07:15,  3.66s/it, pg=0.0974, rm=0.875, ret=-0.116, glen=162, tlen=785, kl=0.262, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:28<06:15,  3.18s/it, pg=0.0974, rm=0.875, ret=-0.116, glen=162, tlen=785, kl=0.262, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:30<06:15,  3.18s/it, pg=-0.198, rm=0.875, ret=0.182, glen=155, tlen=898, kl=0.24, act_lr=9.49e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:30<05:40,  2.91s/it, pg=-0.198, rm=0.875, ret=0.182, glen=155, tlen=898, kl=0.24, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:32<05:40,  2.91s/it, pg=0.094, rm=0.938, ret=-0.112, glen=154, tlen=859, kl=0.26, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:32<05:05,  2.63s/it, pg=0.094, rm=0.938, ret=-0.112, glen=154, tlen=859, kl=0.26, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:34<05:05,  2.63s/it, pg=-0.0972, rm=0.938, ret=0.0812, glen=139, tlen=834, kl=0.255, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:34<04:45,  2.49s/it, pg=-0.0972, rm=0.938, ret=0.0812, glen=139, tlen=834, kl=0.255, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<04:45,  2.49s/it, pg=0.0208, rm=1, ret=-0.0418, glen=163, tlen=778, kl=0.301, act_lr=9.49e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:36<04:31,  2.38s/it, pg=0.0208, rm=1, ret=-0.0418, glen=163, tlen=778, kl=0.301, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:39<04:31,  2.38s/it, pg=0.024, rm=0.875, ret=-0.0449, glen=149, tlen=944, kl=0.301, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:39<04:21,  2.32s/it, pg=0.024, rm=0.875, ret=-0.0449, glen=149, tlen=944, kl=0.301, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:48<04:21,  2.32s/it, pg=0.0753, rm=0.75, ret=-0.0936, glen=144, tlen=753, kl=0.267, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:48<08:23,  4.50s/it, pg=0.0753, rm=0.75, ret=-0.0936, glen=144, tlen=753, kl=0.267, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:23,  4.50s/it, pg=0.0822, rm=1.12, ret=-0.104, glen=177, tlen=891, kl=0.282, act_lr=9.49e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:50<06:58,  3.77s/it, pg=0.0822, rm=1.12, ret=-0.104, glen=177, tlen=891, kl=0.282, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<06:58,  3.77s/it, pg=-0.0673, rm=1.12, ret=0.0485, glen=147, tlen=853, kl=0.27, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:52<05:52,  3.20s/it, pg=-0.0673, rm=1.12, ret=0.0485, glen=147, tlen=853, kl=0.27, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:54<05:52,  3.20s/it, pg=0.1, rm=0.875, ret=-0.119, glen=160, tlen=894, kl=0.244, act_lr=9.49e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:54<05:13,  2.88s/it, pg=0.1, rm=0.875, ret=-0.119, glen=160, tlen=894, kl=0.244, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:56<05:13,  2.88s/it, pg=0.126, rm=0.875, ret=-0.145, glen=147, tlen=904, kl=0.276, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:56<04:48,  2.68s/it, pg=0.126, rm=0.875, ret=-0.145, glen=147, tlen=904, kl=0.276, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:58<04:48,  2.68s/it, pg=-0.0529, rm=1, ret=0.034, glen=153, tlen=824, kl=0.274, act_lr=9.49e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [00:58<04:19,  2.43s/it, pg=-0.0529, rm=1, ret=0.034, glen=153, tlen=824, kl=0.274, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:00<04:19,  2.43s/it, pg=0.0503, rm=0.875, ret=-0.0711, glen=166, tlen=881, kl=0.29, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:00<04:08,  2.34s/it, pg=0.0503, rm=0.875, ret=-0.0711, glen=166, tlen=881, kl=0.29, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:03<04:08,  2.34s/it, pg=-0.0566, rm=1, ret=0.0355, glen=149, tlen=902, kl=0.294, act_lr=9.49e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:03<04:00,  2.29s/it, pg=-0.0566, rm=1, ret=0.0355, glen=149, tlen=902, kl=0.294, act_lr=9.49e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:12<04:00,  2.29s/it, pg=0.0918, rm=0.812, ret=-0.113, glen=149, tlen=783, kl=0.296, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:12<07:41,  4.44s/it, pg=0.0918, rm=0.812, ret=-0.113, glen=149, tlen=783, kl=0.296, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:14<07:41,  4.44s/it, pg=0.0722, rm=1, ret=-0.092, glen=156, tlen=764, kl=0.294, act_lr=9.48e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:14<06:19,  3.69s/it, pg=0.0722, rm=1, ret=-0.092, glen=156, tlen=764, kl=0.294, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:16<06:19,  3.69s/it, pg=-0.194, rm=0.875, ret=0.175, glen=138, tlen=795, kl=0.315, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:16<05:34,  3.28s/it, pg=-0.194, rm=0.875, ret=0.175, glen=138, tlen=795, kl=0.315, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:18<05:34,  3.28s/it, pg=0.0814, rm=0.812, ret=-0.1, glen=141, tlen=894, kl=0.299, act_lr=9.48e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:18<04:55,  2.92s/it, pg=0.0814, rm=0.812, ret=-0.1, glen=141, tlen=894, kl=0.299, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:20<04:55,  2.92s/it, pg=0.0381, rm=1.19, ret=-0.0572, glen=147, tlen=976, kl=0.282, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:20<04:25,  2.65s/it, pg=0.0381, rm=1.19, ret=-0.0572, glen=147, tlen=976, kl=0.282, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:22<04:25,  2.65s/it, pg=0.162, rm=0.812, ret=-0.183, glen=156, tlen=823, kl=0.284, act_lr=9.48e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:22<03:59,  2.42s/it, pg=0.162, rm=0.812, ret=-0.183, glen=156, tlen=823, kl=0.284, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:25<03:59,  2.42s/it, pg=-0.114, rm=1, ret=0.0948, glen=165, tlen=918, kl=0.256, act_lr=9.48e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:25<04:03,  2.48s/it, pg=-0.114, rm=1, ret=0.0948, glen=165, tlen=918, kl=0.256, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|█��▎       | 30/128 [01:27<04:03,  2.48s/it, pg=0.173, rm=0.812, ret=-0.193, glen=156, tlen=814, kl=0.293, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:27<03:58,  2.45s/it, pg=0.173, rm=0.812, ret=-0.193, glen=156, tlen=814, kl=0.293, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:37<03:58,  2.45s/it, pg=0.0109, rm=0.938, ret=-0.0294, glen=156, tlen=862, kl=0.265, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:37<07:27,  4.66s/it, pg=0.0109, rm=0.938, ret=-0.0294, glen=156, tlen=862, kl=0.265, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:39<07:27,  4.66s/it, pg=0.125, rm=1.25, ret=-0.146, glen=155, tlen=870, kl=0.297, act_lr=9.48e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:39<06:13,  3.93s/it, pg=0.125, rm=1.25, ret=-0.146, glen=155, tlen=870, kl=0.297, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:41<06:13,  3.93s/it, pg=-0.265, rm=1.06, ret=0.246, glen=150, tlen=664, kl=0.285, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:41<05:10,  3.30s/it, pg=-0.265, rm=1.06, ret=0.246, glen=150, tlen=664, kl=0.285, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:43<05:10,  3.30s/it, pg=-0.013, rm=1, ret=-0.00494, glen=150, tlen=903, kl=0.274, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:43<04:34,  2.95s/it, pg=-0.013, rm=1, ret=-0.00494, glen=150, tlen=903, kl=0.274, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:45<04:34,  2.95s/it, pg=0.0644, rm=1, ret=-0.0828, glen=154, tlen=902, kl=0.25, act_lr=9.48e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:45<04:01,  2.63s/it, pg=0.0644, rm=1, ret=-0.0828, glen=154, tlen=902, kl=0.25, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:47<04:01,  2.63s/it, pg=0.0713, rm=0.812, ret=-0.0878, glen=154, tlen=735, kl=0.266, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:47<03:36,  2.38s/it, pg=0.0713, rm=0.812, ret=-0.0878, glen=154, tlen=735, kl=0.266, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:49<03:36,  2.38s/it, pg=-0.108, rm=1.25, ret=0.0893, glen=157, tlen=914, kl=0.251, act_lr=9.48e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:49<03:32,  2.36s/it, pg=-0.108, rm=1.25, ret=0.0893, glen=157, tlen=914, kl=0.251, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:52<03:32,  2.36s/it, pg=0.0779, rm=0.875, ret=-0.0984, glen=150, tlen=823, kl=0.3, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:52<03:28,  2.34s/it, pg=0.0779, rm=0.875, ret=-0.0984, glen=150, tlen=823, kl=0.3, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:01<03:28,  2.34s/it, pg=0.0619, rm=1, ret=-0.0838, glen=166, tlen=779, kl=0.281, act_lr=9.48e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:01<06:37,  4.52s/it, pg=0.0619, rm=1, ret=-0.0838, glen=166, tlen=779, kl=0.281, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:03<06:37,  4.52s/it, pg=0.0222, rm=0.875, ret=-0.0411, glen=151, tlen=746, kl=0.272, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:03<05:29,  3.78s/it, pg=0.0222, rm=0.875, ret=-0.0411, glen=151, tlen=746, kl=0.272, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:05<05:29,  3.78s/it, pg=0.153, rm=1, ret=-0.172, glen=155, tlen=902, kl=0.285, act_lr=9.48e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:05<04:44,  3.30s/it, pg=0.153, rm=1, ret=-0.172, glen=155, tlen=902, kl=0.285, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:07<04:44,  3.30s/it, pg=0.152, rm=0.812, ret=-0.172, glen=149, tlen=783, kl=0.277, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:07<04:03,  2.86s/it, pg=0.152, rm=0.812, ret=-0.172, glen=149, tlen=783, kl=0.277, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:09<04:03,  2.86s/it, pg=-0.0817, rm=1, ret=0.0613, glen=155, tlen=637, kl=0.302, act_lr=9.48e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:09<03:37,  2.59s/it, pg=-0.0817, rm=1, ret=0.0613, glen=155, tlen=637, kl=0.302, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:12<03:37,  2.59s/it, pg=0.0257, rm=0.875, ret=-0.046, glen=157, tlen=985, kl=0.294, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:12<03:27,  2.50s/it, pg=0.0257, rm=0.875, ret=-0.046, glen=157, tlen=985, kl=0.294, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:14<03:27,  2.50s/it, pg=0.254, rm=0.75, ret=-0.273, glen=160, tlen=741, kl=0.271, act_lr=9.48e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:14<03:12,  2.35s/it, pg=0.254, rm=0.75, ret=-0.273, glen=160, tlen=741, kl=0.271, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:16<03:12,  2.35s/it, pg=0.0919, rm=0.75, ret=-0.112, glen=149, tlen=991, kl=0.281, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:16<03:03,  2.27s/it, pg=0.0919, rm=0.75, ret=-0.112, glen=149, tlen=991, kl=0.281, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:25<03:03,  2.27s/it, pg=0.0377, rm=0.812, ret=-0.0551, glen=143, tlen=823, kl=0.276, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:25<05:54,  4.43s/it, pg=0.0377, rm=0.812, ret=-0.0551, glen=143, tlen=823, kl=0.276, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:27<05:54,  4.43s/it, pg=0.35, rm=0.75, ret=-0.363, glen=144, tlen=889, kl=0.253, act_lr=9.48e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:27<04:55,  3.75s/it, pg=0.35, rm=0.75, ret=-0.363, glen=144, tlen=889, kl=0.253, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:29<04:55,  3.75s/it, pg=-0.0588, rm=1.12, ret=0.0395, glen=160, tlen=766, kl=0.273, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:29<04:12,  3.24s/it, pg=-0.0588, rm=1.12, ret=0.0395, glen=160, tlen=766, kl=0.273, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:31<04:12,  3.24s/it, pg=0.0269, rm=0.812, ret=-0.0492, glen=145, tlen=849, kl=0.313, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:31<03:37,  2.83s/it, pg=0.0269, rm=0.812, ret=-0.0492, glen=145, tlen=849, kl=0.313, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:33<03:37,  2.83s/it, pg=0.0531, rm=0.812, ret=-0.0731, glen=155, tlen=898, kl=0.27, act_lr=9.48e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:33<03:17,  2.60s/it, pg=0.0531, rm=0.812, ret=-0.0731, glen=155, tlen=898, kl=0.27, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:35<03:17,  2.60s/it, pg=0.0715, rm=0.875, ret=-0.0902, glen=159, tlen=822, kl=0.28, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:35<03:01,  2.42s/it, pg=0.0715, rm=0.875, ret=-0.0902, glen=159, tlen=822, kl=0.28, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:37<03:01,  2.42s/it, pg=0.0391, rm=0.875, ret=-0.0549, glen=137, tlen=1e+3, kl=0.259, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:37<02:53,  2.35s/it, pg=0.0391, rm=0.875, ret=-0.0549, glen=137, tlen=1e+3, kl=0.259, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:39<02:53,  2.35s/it, pg=-0.0816, rm=1, ret=0.0596, glen=154, tlen=636, kl=0.316, act_lr=9.48e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:39<02:35,  2.13s/it, pg=-0.0816, rm=1, ret=0.0596, glen=154, tlen=636, kl=0.316, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:49<02:35,  2.13s/it, pg=-0.0898, rm=1, ret=0.0721, glen=147, tlen=906, kl=0.265, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:49<05:31,  4.61s/it, pg=-0.0898, rm=1, ret=0.0721, glen=147, tlen=906, kl=0.265, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:52<05:31,  4.61s/it, pg=0.0841, rm=1.06, ret=-0.104, glen=158, tlen=901, kl=0.263, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:52<04:34,  3.87s/it, pg=0.0841, rm=1.06, ret=-0.104, glen=158, tlen=901, kl=0.263, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:54<04:34,  3.87s/it, pg=-0.0874, rm=1, ret=0.0687, glen=146, tlen=905, kl=0.29, act_lr=9.48e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:54<03:57,  3.40s/it, pg=-0.0874, rm=1, ret=0.0687, glen=146, tlen=905, kl=0.29, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:56<03:57,  3.40s/it, pg=0.169, rm=0.938, ret=-0.191, glen=147, tlen=900, kl=0.302, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:56<03:23,  2.95s/it, pg=0.169, rm=0.938, ret=-0.191, glen=147, tlen=900, kl=0.302, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:58<03:23,  2.95s/it, pg=0.0693, rm=0.75, ret=-0.0872, glen=153, tlen=896, kl=0.264, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:58<03:05,  2.73s/it, pg=0.0693, rm=0.75, ret=-0.0872, glen=153, tlen=896, kl=0.264, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:00<03:05,  2.73s/it, pg=-0.146, rm=1.25, ret=0.126, glen=159, tlen=927, kl=0.272, act_lr=9.48e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:00<02:53,  2.58s/it, pg=-0.146, rm=1.25, ret=0.126, glen=159, tlen=927, kl=0.272, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:02<02:53,  2.58s/it, pg=0.000213, rm=0.938, ret=-0.0226, glen=156, tlen=917, kl=0.297, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:02<02:35,  2.36s/it, pg=0.000213, rm=0.938, ret=-0.0226, glen=156, tlen=917, kl=0.297, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:04<02:35,  2.36s/it, pg=-0.0343, rm=0.875, ret=0.0135, glen=150, tlen=918, kl=0.313, act_lr=9.48e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:04<02:24,  2.22s/it, pg=-0.0343, rm=0.875, ret=0.0135, glen=150, tlen=918, kl=0.313, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:13<02:24,  2.22s/it, pg=0.0764, rm=1.06, ret=-0.098, glen=153, tlen=930, kl=0.295, act_lr=9.48e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:13<04:40,  4.38s/it, pg=0.0764, rm=1.06, ret=-0.098, glen=153, tlen=930, kl=0.295, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:15<04:40,  4.38s/it, pg=0.0477, rm=0.875, ret=-0.0657, glen=163, tlen=877, kl=0.263, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:15<03:49,  3.65s/it, pg=0.0477, rm=0.875, ret=-0.0657, glen=163, tlen=877, kl=0.263, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:18<03:49,  3.65s/it, pg=0.0802, rm=0.875, ret=-0.102, glen=169, tlen=928, kl=0.287, act_lr=9.48e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:18<03:25,  3.31s/it, pg=0.0802, rm=0.875, ret=-0.102, glen=169, tlen=928, kl=0.287, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:20<03:25,  3.31s/it, pg=-0.0347, rm=0.875, ret=0.0151, glen=157, tlen=925, kl=0.289, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:20<02:55,  2.88s/it, pg=-0.0347, rm=0.875, ret=0.0151, glen=157, tlen=925, kl=0.289, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:22<02:55,  2.88s/it, pg=-0.0568, rm=1.12, ret=0.0363, glen=159, tlen=765, kl=0.295, act_lr=9.48e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:22<02:38,  2.64s/it, pg=-0.0568, rm=1.12, ret=0.0363, glen=159, tlen=765, kl=0.295, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:24<02:38,  2.64s/it, pg=0.0241, rm=0.875, ret=-0.0437, glen=161, tlen=755, kl=0.272, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:24<02:28,  2.52s/it, pg=0.0241, rm=0.875, ret=-0.0437, glen=161, tlen=755, kl=0.272, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:26<02:28,  2.52s/it, pg=-0.0519, rm=1, ret=0.0332, glen=156, tlen=913, kl=0.274, act_lr=9.48e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:26<02:19,  2.41s/it, pg=-0.0519, rm=1, ret=0.0332, glen=156, tlen=913, kl=0.274, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:28<02:19,  2.41s/it, pg=-0.155, rm=0.938, ret=0.136, glen=152, tlen=785, kl=0.272, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:28<02:10,  2.29s/it, pg=-0.155, rm=0.938, ret=0.136, glen=152, tlen=785, kl=0.272, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:38<02:10,  2.29s/it, pg=0.0335, rm=0.938, ret=-0.0535, glen=159, tlen=774, kl=0.284, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:38<04:14,  4.55s/it, pg=0.0335, rm=0.938, ret=-0.0535, glen=159, tlen=774, kl=0.284, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:40<04:14,  4.55s/it, pg=0.00459, rm=0.938, ret=-0.0219, glen=153, tlen=982, kl=0.245, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:40<03:27,  3.78s/it, pg=0.00459, rm=0.938, ret=-0.0219, glen=153, tlen=982, kl=0.245, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:42<03:27,  3.78s/it, pg=0.033, rm=0.938, ret=-0.0531, glen=157, tlen=772, kl=0.286, act_lr=9.48e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:42<02:52,  3.20s/it, pg=0.033, rm=0.938, ret=-0.0531, glen=157, tlen=772, kl=0.286, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:44<02:52,  3.20s/it, pg=-0.0951, rm=0.938, ret=0.0786, glen=150, tlen=845, kl=0.253, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:44<02:28,  2.79s/it, pg=-0.0951, rm=0.938, ret=0.0786, glen=150, tlen=845, kl=0.253, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:46<02:28,  2.79s/it, pg=-0.0807, rm=1, ret=0.0625, glen=160, tlen=910, kl=0.257, act_lr=9.48e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:46<02:11,  2.52s/it, pg=-0.0807, rm=1, ret=0.0625, glen=160, tlen=910, kl=0.257, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:48<02:11,  2.52s/it, pg=0.14, rm=0.812, ret=-0.161, glen=164, tlen=778, kl=0.267, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:48<02:01,  2.39s/it, pg=0.14, rm=0.812, ret=-0.161, glen=164, tlen=778, kl=0.267, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:50<02:01,  2.39s/it, pg=0.0733, rm=1, ret=-0.0931, glen=170, tlen=778, kl=0.276, act_lr=9.48e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:50<01:55,  2.31s/it, pg=0.0733, rm=1, ret=-0.0931, glen=170, tlen=778, kl=0.276, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:52<01:55,  2.31s/it, pg=-0.0299, rm=1.06, ret=0.00944, glen=167, tlen=882, kl=0.262, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:52<01:46,  2.18s/it, pg=-0.0299, rm=1.06, ret=0.00944, glen=167, tlen=882, kl=0.262, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:02<01:46,  2.18s/it, pg=-0.00985, rm=1, ret=-0.00819, glen=136, tlen=1028.0, kl=0.289, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:02<03:35,  4.49s/it, pg=-0.00985, rm=1, ret=-0.00819, glen=136, tlen=1028.0, kl=0.289, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:04<03:35,  4.49s/it, pg=0.00618, rm=0.938, ret=-0.0254, glen=144, tlen=886, kl=0.286, act_lr=9.48e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:04<03:02,  3.88s/it, pg=0.00618, rm=0.938, ret=-0.0254, glen=144, tlen=886, kl=0.286, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:06<03:02,  3.88s/it, pg=0.0634, rm=0.75, ret=-0.0843, glen=165, tlen=797, kl=0.271, act_lr=9.48e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:06<02:34,  3.36s/it, pg=0.0634, rm=0.75, ret=-0.0843, glen=165, tlen=797, kl=0.271, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:08<02:34,  3.36s/it, pg=0.102, rm=0.938, ret=-0.118, glen=156, tlen=638, kl=0.28, act_lr=9.48e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:08<02:08,  2.85s/it, pg=0.102, rm=0.938, ret=-0.118, glen=156, tlen=638, kl=0.28, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:10<02:08,  2.85s/it, pg=-0.102, rm=1.19, ret=0.0812, glen=152, tlen=857, kl=0.317, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:10<01:54,  2.60s/it, pg=-0.102, rm=1.19, ret=0.0812, glen=152, tlen=857, kl=0.317, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:12<01:54,  2.60s/it, pg=0.0525, rm=0.812, ret=-0.0704, glen=142, tlen=800, kl=0.275, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:12<01:44,  2.44s/it, pg=0.0525, rm=0.812, ret=-0.0704, glen=142, tlen=800, kl=0.275, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:14<01:44,  2.44s/it, pg=-0.139, rm=1.25, ret=0.118, glen=154, tlen=913, kl=0.285, act_lr=9.48e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:14<01:35,  2.27s/it, pg=-0.139, rm=1.25, ret=0.118, glen=154, tlen=913, kl=0.285, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:16<01:35,  2.27s/it, pg=0.184, rm=1, ret=-0.202, glen=153, tlen=831, kl=0.277, act_lr=9.48e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:16<01:28,  2.16s/it, pg=0.184, rm=1, ret=-0.202, glen=153, tlen=831, kl=0.277, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:26<01:28,  2.16s/it, pg=0.0548, rm=1.12, ret=-0.0742, glen=159, tlen=925, kl=0.271, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:26<03:06,  4.65s/it, pg=0.0548, rm=1.12, ret=-0.0742, glen=159, tlen=925, kl=0.271, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:28<03:06,  4.65s/it, pg=0.0871, rm=1.38, ret=-0.107, glen=158, tlen=924, kl=0.279, act_lr=9.48e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:28<02:31,  3.89s/it, pg=0.0871, rm=1.38, ret=-0.107, glen=158, tlen=924, kl=0.279, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:30<02:31,  3.89s/it, pg=0.253, rm=0.875, ret=-0.274, glen=165, tlen=870, kl=0.288, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:30<02:07,  3.36s/it, pg=0.253, rm=0.875, ret=-0.274, glen=165, tlen=870, kl=0.288, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:32<02:07,  3.36s/it, pg=-0.061, rm=1.06, ret=0.043, glen=151, tlen=765, kl=0.275, act_lr=9.48e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:32<01:47,  2.92s/it, pg=-0.061, rm=1.06, ret=0.043, glen=151, tlen=765, kl=0.275, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:35<01:47,  2.92s/it, pg=0.188, rm=0.938, ret=-0.211, glen=155, tlen=768, kl=0.313, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:35<01:37,  2.71s/it, pg=0.188, rm=0.938, ret=-0.211, glen=155, tlen=768, kl=0.313, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:37<01:37,  2.71s/it, pg=0.172, rm=0.812, ret=-0.19, glen=158, tlen=816, kl=0.273, act_lr=9.48e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:37<01:33,  2.67s/it, pg=0.172, rm=0.812, ret=-0.19, glen=158, tlen=816, kl=0.273, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:39<01:33,  2.67s/it, pg=0.0382, rm=0.875, ret=-0.0565, glen=151, tlen=957, kl=0.27, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:39<01:23,  2.46s/it, pg=0.0382, rm=0.875, ret=-0.0565, glen=151, tlen=957, kl=0.27, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:41<01:23,  2.46s/it, pg=0.0169, rm=0.875, ret=-0.0359, glen=163, tlen=776, kl=0.272, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:41<01:15,  2.30s/it, pg=0.0169, rm=0.875, ret=-0.0359, glen=163, tlen=776, kl=0.272, act_lr=9.48e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:51<01:15,  2.30s/it, pg=-0.0713, rm=1.19, ret=0.0555, glen=159, tlen=925, kl=0.24, act_lr=9.47e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:51<02:22,  4.47s/it, pg=-0.0713, rm=1.19, ret=0.0555, glen=159, tlen=925, kl=0.24, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:52<02:22,  4.47s/it, pg=-0.00703, rm=1.06, ret=-0.012, glen=157, tlen=820, kl=0.27, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:52<01:54,  3.69s/it, pg=-0.00703, rm=1.06, ret=-0.012, glen=157, tlen=820, kl=0.27, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:54<01:54,  3.69s/it, pg=0.15, rm=0.812, ret=-0.168, glen=153, tlen=776, kl=0.258, act_lr=9.47e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:54<01:33,  3.13s/it, pg=0.15, rm=0.812, ret=-0.168, glen=153, tlen=776, kl=0.258, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:56<01:33,  3.13s/it, pg=0.0402, rm=0.812, ret=-0.0595, glen=158, tlen=925, kl=0.277, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:56<01:22,  2.83s/it, pg=0.0402, rm=0.812, ret=-0.0595, glen=158, tlen=925, kl=0.277, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:58<01:22,  2.83s/it, pg=-0.285, rm=1, ret=0.267, glen=158, tlen=915, kl=0.273, act_lr=9.47e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:58<01:11,  2.54s/it, pg=-0.285, rm=1, ret=0.267, glen=158, tlen=915, kl=0.273, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:01<01:11,  2.54s/it, pg=-0.0418, rm=0.938, ret=0.0195, glen=163, tlen=837, kl=0.301, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:01<01:06,  2.48s/it, pg=-0.0418, rm=0.938, ret=0.0195, glen=163, tlen=837, kl=0.301, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:02<01:06,  2.48s/it, pg=-0.0723, rm=1.19, ret=0.054, glen=154, tlen=834, kl=0.258, act_lr=9.47e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:02<00:59,  2.29s/it, pg=-0.0723, rm=1.19, ret=0.054, glen=154, tlen=834, kl=0.258, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:05<00:59,  2.29s/it, pg=-0.0478, rm=0.812, ret=0.0318, glen=130, tlen=973, kl=0.292, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:05<00:57,  2.30s/it, pg=-0.0478, rm=0.812, ret=0.0318, glen=130, tlen=973, kl=0.292, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:14<00:57,  2.30s/it, pg=0.00494, rm=0.938, ret=-0.0231, glen=153, tlen=982, kl=0.253, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:14<01:46,  4.43s/it, pg=0.00494, rm=0.938, ret=-0.0231, glen=153, tlen=982, kl=0.253, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:17<01:46,  4.43s/it, pg=-0.206, rm=1, ret=0.189, glen=149, tlen=804, kl=0.288, act_lr=9.47e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:17<01:29,  3.91s/it, pg=-0.206, rm=1, ret=0.189, glen=149, tlen=804, kl=0.288, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:19<01:29,  3.91s/it, pg=0.101, rm=0.812, ret=-0.119, glen=144, tlen=950, kl=0.273, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:19<01:15,  3.42s/it, pg=0.101, rm=0.812, ret=-0.119, glen=144, tlen=950, kl=0.273, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:21<01:15,  3.42s/it, pg=0.156, rm=1, ret=-0.178, glen=163, tlen=791, kl=0.295, act_lr=9.47e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:21<01:01,  2.95s/it, pg=0.156, rm=1, ret=-0.178, glen=163, tlen=791, kl=0.295, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:23<01:01,  2.95s/it, pg=-0.0648, rm=1.12, ret=0.0456, glen=152, tlen=858, kl=0.28, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:23<00:52,  2.62s/it, pg=-0.0648, rm=1.12, ret=0.0456, glen=152, tlen=858, kl=0.28, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:25<00:52,  2.62s/it, pg=0.112, rm=1.12, ret=-0.131, glen=163, tlen=922, kl=0.286, act_lr=9.47e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:25<00:45,  2.40s/it, pg=0.112, rm=1.12, ret=-0.131, glen=163, tlen=922, kl=0.286, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:27<00:45,  2.40s/it, pg=0.179, rm=0.875, ret=-0.2, glen=163, tlen=913, kl=0.256, act_lr=9.47e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:27<00:40,  2.25s/it, pg=0.179, rm=0.875, ret=-0.2, glen=163, tlen=913, kl=0.256, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:29<00:40,  2.25s/it, pg=-0.104, rm=0.875, ret=0.0887, glen=147, tlen=838, kl=0.274, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:29<00:37,  2.21s/it, pg=-0.104, rm=0.875, ret=0.0887, glen=147, tlen=838, kl=0.274, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:38<00:37,  2.21s/it, pg=0.0555, rm=0.812, ret=-0.0738, glen=142, tlen=946, kl=0.274, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:38<01:10,  4.44s/it, pg=0.0555, rm=0.812, ret=-0.0738, glen=142, tlen=946, kl=0.274, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:40<01:10,  4.44s/it, pg=0.251, rm=1, ret=-0.273, glen=158, tlen=836, kl=0.289, act_lr=9.47e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:40<00:55,  3.69s/it, pg=0.251, rm=1, ret=-0.273, glen=158, tlen=836, kl=0.289, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:42<00:55,  3.69s/it, pg=-0.212, rm=0.875, ret=0.191, glen=146, tlen=826, kl=0.295, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:42<00:45,  3.23s/it, pg=-0.212, rm=0.875, ret=0.191, glen=146, tlen=826, kl=0.295, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:44<00:45,  3.23s/it, pg=0.0156, rm=0.875, ret=-0.0295, glen=145, tlen=879, kl=0.228, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:44<00:36,  2.82s/it, pg=0.0156, rm=0.875, ret=-0.0295, glen=145, tlen=879, kl=0.228, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:46<00:36,  2.82s/it, pg=0.0163, rm=0.812, ret=-0.038, glen=149, tlen=680, kl=0.303, act_lr=9.47e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:46<00:31,  2.62s/it, pg=0.0163, rm=0.812, ret=-0.038, glen=149, tlen=680, kl=0.303, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:49<00:31,  2.62s/it, pg=-0.248, rm=1.19, ret=0.232, glen=150, tlen=856, kl=0.26, act_lr=9.47e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:49<00:29,  2.67s/it, pg=-0.248, rm=1.19, ret=0.232, glen=150, tlen=856, kl=0.26, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:51<00:29,  2.67s/it, pg=-0.0148, rm=1, ret=-0.0035, glen=154, tlen=869, kl=0.267, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:51<00:24,  2.43s/it, pg=-0.0148, rm=1, ret=-0.0035, glen=154, tlen=869, kl=0.267, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:53<00:24,  2.43s/it, pg=0.0847, rm=1.06, ret=-0.102, glen=148, tlen=891, kl=0.269, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:53<00:20,  2.27s/it, pg=0.0847, rm=1.06, ret=-0.102, glen=148, tlen=891, kl=0.269, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:02<00:20,  2.27s/it, pg=-0.0882, rm=1, ret=0.0689, glen=154, tlen=913, kl=0.274, act_lr=9.47e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:02<00:35,  4.42s/it, pg=-0.0882, rm=1, ret=0.0689, glen=154, tlen=913, kl=0.274, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:04<00:35,  4.42s/it, pg=0.0271, rm=0.812, ret=-0.0447, glen=155, tlen=858, kl=0.264, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:04<00:25,  3.67s/it, pg=0.0271, rm=0.812, ret=-0.0447, glen=155, tlen=858, kl=0.264, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:06<00:25,  3.67s/it, pg=0.239, rm=1.12, ret=-0.259, glen=173, tlen=932, kl=0.266, act_lr=9.47e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:06<00:19,  3.19s/it, pg=0.239, rm=1.12, ret=-0.259, glen=173, tlen=932, kl=0.266, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:09<00:19,  3.19s/it, pg=0.118, rm=0.938, ret=-0.137, glen=155, tlen=913, kl=0.28, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:09<00:14,  2.87s/it, pg=0.118, rm=0.938, ret=-0.137, glen=155, tlen=913, kl=0.28, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:10<00:14,  2.87s/it, pg=0.0406, rm=0.875, ret=-0.0617, glen=166, tlen=833, kl=0.289, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:10<00:10,  2.57s/it, pg=0.0406, rm=0.875, ret=-0.0617, glen=166, tlen=833, kl=0.289, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:13<00:10,  2.57s/it, pg=0.319, rm=0.688, ret=-0.337, glen=150, tlen=893, kl=0.265, act_lr=9.47e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:13<00:07,  2.50s/it, pg=0.319, rm=0.688, ret=-0.337, glen=150, tlen=893, kl=0.265, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:15<00:07,  2.50s/it, pg=-0.0438, rm=1.12, ret=0.0274, glen=151, tlen=894, kl=0.233, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:15<00:04,  2.31s/it, pg=-0.0438, rm=1.12, ret=0.0274, glen=151, tlen=894, kl=0.233, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:17<00:04,  2.31s/it, pg=0.035, rm=0.938, ret=-0.0564, glen=167, tlen=782, kl=0.288, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:17<00:02,  2.20s/it, pg=0.035, rm=0.938, ret=-0.0564, glen=167, tlen=782, kl=0.288, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:27<00:02,  2.20s/it, pg=0.0216, rm=0.812, ret=-0.0389, glen=146, tlen=788, kl=0.267, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:27<00:00,  4.69s/it, pg=0.0216, rm=0.812, ret=-0.0389, glen=146, tlen=788, kl=0.267, act_lr=9.47e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:27<00:00,  3.03s/it, pg=0.0216, rm=0.812, ret=-0.0389, glen=146, tlen=788, kl=0.267, act_lr=9.47e-7]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:49:12 [executor_base.py:219] It took 1.672164 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279378)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:49:13 [executor_base.py:219] It took 3.169838 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3294x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.12.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 939x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.21.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 943x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:49:35 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:49:35 [executor_base.py:208] It took 1.419938 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 599x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   6%|▌         | 7/127 [1:36:17<24:03:08, 721.57s/it, policy_loss=0.0237, actor_lr=9.48e-7, kl=0.278, reward=0.948, response_length=154, total_length=855, acc_rewards=0.448, format_rewards=0.5, return=-0.0429]
+Episode [1/2]:   6%|▋         | 8/127 [1:36:17<23:39:55, 715.93s/it, policy_loss=0.0237, actor_lr=9.48e-7, kl=0.278, reward=0.948, response_length=154, total_length=855, acc_rewards=0.448, format_rewards=0.5, return=-0.0429]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:49:37 [executor_base.py:219] It took 1.528142 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 1/256 [00:20<1:29:11, 20.99s/it, est. speed input: 24.06 toks/s, output: 3.10 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   9%|▊         | 22/256 [00:21<00:55,  4.20it/s, est. speed input: 672.77 toks/s, output: 118.86 toks/s]
+Processed prompts:  14%|█▎        | 35/256 [00:22<00:22,  9.98it/s, est. speed input: 957.70 toks/s, output: 193.82 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  95%|█████████▍| 242/256 [00:23<00:00, 121.17it/s, est. speed input: 6106.41 toks/s, output: 1569.79 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:24<00:00, 44.43it/s, est. speed input: 6174.45 toks/s, output: 1636.77 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [00:24<00:00, 10.35it/s, est. speed input: 6174.45 toks/s, output: 1636.77 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   0%|          | 1/256 [00:25<1:46:40, 25.10s/it, est. speed input: 61.23 toks/s, output: 2.83 toks/s][32m [repeated 56x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  11%|█         | 28/256 [00:26<00:35,  6.42it/s, est. speed input: 1449.59 toks/s, output: 93.46 toks/s]
+Processed prompts:  13%|█▎        | 33/256 [00:26<00:22,  9.78it/s, est. speed input: 1603.24 toks/s, output: 113.45 toks/s][32m [repeated 22x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:26<00:00,  9.52it/s, est. speed input: 6385.43 toks/s, output: 1503.92 toks/s] [32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  79%|███████▉  | 202/256 [00:28<00:00, 138.19it/s, est. speed input: 5538.42 toks/s, output: 968.20 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   1%|          | 3/256 [00:29<32:40,  7.75s/it, est. speed input: 155.69 toks/s, output: 8.79 toks/s] 
+Processed prompts:   2%|▏         | 5/256 [00:29<15:53,  3.80s/it, est. speed input: 188.29 toks/s, output: 15.15 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:30<00:00,  8.41it/s, est. speed input: 6503.41 toks/s, output: 1257.61 toks/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   1%|          | 2/256 [00:23<41:54,  9.90s/it, est. speed input: 128.99 toks/s, output: 7.13 toks/s] [32m [repeated 16x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:33<00:00, 51.30it/s, est. speed input: 6763.87 toks/s, output: 1124.64 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:33<00:00,  7.66it/s, est. speed input: 6768.61 toks/s, output: 1129.78 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  11%|█         | 28/256 [00:25<00:22, 10.31it/s, est. speed input: 1008.00 toks/s, output: 122.07 toks/s]
+Processed prompts:  14%|█▎        | 35/256 [00:25<00:14, 15.28it/s, est. speed input: 1259.32 toks/s, output: 155.31 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  96%|█████████▌| 245/256 [00:32<00:00, 80.60it/s, est. speed input: 6657.70 toks/s, output: 1072.89 toks/s] 
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  93%|█████████▎| 239/256 [00:27<00:00, 101.93it/s, est. speed input: 5907.63 toks/s, output: 1325.45 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  91%|█████████ | 232/256 [00:31<00:00, 116.21it/s, est. speed input: 6094.85 toks/s, output: 1079.77 toks/s][32m [repeated 29x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:49:35 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.33 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:49:35 [executor_base.py:208] It took 1.588242 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 12:49:38 [executor_base.py:219] It took 3.153391 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 949x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 949x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 852x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 852x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:51:26 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.57 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 12:51:26 [executor_base.py:208] It took 1.428149 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287376)[0m ele.get("min_pixels" 3136[32m [repeated 239x across cluster][0m
+[36m(ActorModelRayActor pid=287376)[0m ele.get("max_pixels" 1254400[32m [repeated 239x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  80%|████████  | 205/256 [00:31<00:00, 136.90it/s, est. speed input: 5573.30 toks/s, output: 930.75 toks/s]
+Processed prompts:  86%|████████▌ | 219/256 [00:31<00:00, 126.75it/s, est. speed input: 5819.29 toks/s, output: 1006.99 toks/s][32m [repeated 10x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00,  8.74it/s, est. speed input: 6001.33 toks/s, output: 1394.17 toks/s][32m [repeated 5x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:48,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:58,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<03:00,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<02:59,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<02:52,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:47,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:09<02:47,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:43,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:38,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:13<02:37,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:15<02:37,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:16<02:39,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:17<02:36,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:19<02:34,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:20<02:31,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:21<02:30,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:23<02:28,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:24<02:27,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:25<02:25,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:27<02:23,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:28<02:22,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:29<02:22,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:31<02:22,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:32<02:18,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:33<02:19,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:35<02:19,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:36<02:17,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:38<02:17,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:39<02:17,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:40<02:15,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:42<02:14,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:43<02:12,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:44<02:10,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:46<02:10,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:47<02:08,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:49<02:08,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:50<02:09,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:52<02:06,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:53<02:04,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:54<02:05,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:56<02:02,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:57<01:59,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:59<01:57,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [01:00<01:56,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [01:01<01:55,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:03<01:52,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:04<01:53,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:05<01:50,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:07<01:46,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:08<01:45,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:09<01:42,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:11<01:41,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:12<01:42,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:13<01:40,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:15<01:42,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:16<01:40,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:18<01:39,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:19<01:39,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:21<01:37,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:22<01:36,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:23<01:34,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:25<01:33,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:26<01:31,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:28<01:28,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:29<01:24,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:30<01:23,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:32<01:22,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:33<01:21,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:34<01:20,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:36<01:19,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:37<01:16,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:38<01:14,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:40<01:13,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:41<01:10,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:42<01:10,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:44<01:08,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:45<01:08,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:46<01:07,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:48<01:04,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:49<01:03,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:50<01:02,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:52<01:00,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:53<00:59,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:54<00:57,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:56<00:57,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:57<00:56,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:58<00:55,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [02:00<00:53,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:01<00:52,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:02<00:50,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:04<00:49,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:05<00:48,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:06<00:46,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:08<00:45,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:09<00:44,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:10<00:42,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:12<00:41,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:13<00:40,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:14<00:38,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:16<00:38,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:17<00:37,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:19<00:36,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:20<00:34,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:22<00:33,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:23<00:33,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:24<00:31,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:26<00:30,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:27<00:29,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:29<00:27,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:30<00:26,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:32<00:24,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:33<00:23,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:35<00:21,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:36<00:20,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:38<00:19,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:39<00:17,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:41<00:16,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:42<00:14,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:44<00:13,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:45<00:11,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:46<00:10,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:48<00:08,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:50<00:07,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:51<00:06,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:52<00:04,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:54<00:03,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:56<00:01,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:57<00:00,  1.52s/it][A
+make_experience: 100%|██████████| 128/128 [02:57<00:00,  1.39s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nOn a scale of 0 to 5, how would you rate the overall techniqual quality of this image? Use a float with two decimal places. A rating of 0 represents very poor quality, while 5 represents excellent quality.\nassistant\n<think>The image shows a close-up of two crocheted or woven items with a focus on texture and color. The lighting is even, highlighting the details of the materials used. The image is clear, with no apparent blurring or noise, suggesting the image was taken with a camera capable of producing high-resolution images. The composition is simple, with the objects placed on a wooden surface that adds a natural texture to the image. The colors are vibrant, which, combined with the clarity, gives the image a pleasant and inviting appearance. However, the image does not seem to be overly aesthetically focused, and it does not contain any dramatic lighting or strong compositional elements that might elevate it to a particularly artistic image. It is a clear and detailed image, but it does not necessarily convey a high level of technical skill or artistic vision above the level of practical image-taking.</think>\n<answer>4.20</answer>']
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 12:51:26 [worker.py:133] Sleep mode freed 38.53 GiB memory, 22.22 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 12:51:26 [executor_base.py:208] It took 1.693672 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287376)[0m ele.get("min_pixels" 3136[32m [repeated 6x across cluster][0m
+[36m(ActorModelRayActor pid=287376)[0m ele.get("max_pixels" 1254400[32m [repeated 6x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:03<?, ?it/s, pg=-0.0817, rm=1.25, ret=0.0609, glen=156, tlen=728, kl=0.298, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:03<06:22,  3.01s/it, pg=-0.0817, rm=1.25, ret=0.0609, glen=156, tlen=728, kl=0.298, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:05<06:22,  3.01s/it, pg=-0.0263, rm=0.938, ret=0.00702, glen=158, tlen=918, kl=0.276, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:05<05:51,  2.79s/it, pg=-0.0263, rm=0.938, ret=0.00702, glen=158, tlen=918, kl=0.276, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:08<05:51,  2.79s/it, pg=0.101, rm=1.06, ret=-0.122, glen=150, tlen=824, kl=0.283, act_lr=9.47e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:08<05:26,  2.61s/it, pg=0.101, rm=1.06, ret=-0.122, glen=150, tlen=824, kl=0.283, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<05:26,  2.61s/it, pg=0.219, rm=0.938, ret=-0.241, glen=148, tlen=834, kl=0.308, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:50,  2.34s/it, pg=0.219, rm=0.938, ret=-0.241, glen=148, tlen=834, kl=0.308, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:50,  2.34s/it, pg=0.0575, rm=0.812, ret=-0.0783, glen=166, tlen=912, kl=0.283, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:29,  2.19s/it, pg=0.0575, rm=0.812, ret=-0.0783, glen=166, tlen=912, kl=0.283, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:29,  2.19s/it, pg=-0.018, rm=1, ret=-0.00452, glen=159, tlen=948, kl=0.309, act_lr=9.47e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:15,  2.09s/it, pg=-0.018, rm=1, ret=-0.00452, glen=159, tlen=948, kl=0.309, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:15,  2.09s/it, pg=0.105, rm=0.938, ret=-0.124, glen=151, tlen=726, kl=0.281, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:11,  2.08s/it, pg=0.105, rm=0.938, ret=-0.124, glen=151, tlen=726, kl=0.281, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:25<04:11,  2.08s/it, pg=0.00551, rm=1.06, ret=-0.0241, glen=161, tlen=752, kl=0.259, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:25<09:01,  4.51s/it, pg=0.00551, rm=1.06, ret=-0.0241, glen=161, tlen=752, kl=0.259, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:27<09:01,  4.51s/it, pg=0.146, rm=0.75, ret=-0.166, glen=148, tlen=877, kl=0.284, act_lr=9.47e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:27<07:30,  3.78s/it, pg=0.146, rm=0.75, ret=-0.166, glen=148, tlen=877, kl=0.284, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:29<07:30,  3.78s/it, pg=-0.0179, rm=1, ret=-3.25e-5, glen=143, tlen=942, kl=0.277, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:29<06:30,  3.31s/it, pg=-0.0179, rm=1, ret=-3.25e-5, glen=143, tlen=942, kl=0.277, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:32<06:30,  3.31s/it, pg=-0.00231, rm=1.06, ret=-0.0149, glen=142, tlen=926, kl=0.258, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:32<05:41,  2.92s/it, pg=-0.00231, rm=1.06, ret=-0.0149, glen=142, tlen=926, kl=0.258, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:34<05:41,  2.92s/it, pg=-0.0488, rm=0.875, ret=0.0324, glen=160, tlen=980, kl=0.241, act_lr=9.47e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:34<05:22,  2.78s/it, pg=-0.0488, rm=0.875, ret=0.0324, glen=160, tlen=980, kl=0.241, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:36<05:22,  2.78s/it, pg=0.011, rm=1.06, ret=-0.0331, glen=147, tlen=861, kl=0.316, act_lr=9.47e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<04:56,  2.58s/it, pg=0.011, rm=1.06, ret=-0.0331, glen=147, tlen=861, kl=0.316, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:39<04:56,  2.58s/it, pg=0.0353, rm=1.19, ret=-0.0564, glen=151, tlen=792, kl=0.294, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:39<04:47,  2.52s/it, pg=0.0353, rm=1.19, ret=-0.0564, glen=151, tlen=792, kl=0.294, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:40<04:47,  2.52s/it, pg=-0.0414, rm=1, ret=0.0225, glen=161, tlen=779, kl=0.287, act_lr=9.47e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:40<04:22,  2.32s/it, pg=-0.0414, rm=1, ret=0.0225, glen=161, tlen=779, kl=0.287, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:50<04:22,  2.32s/it, pg=0.0262, rm=0.875, ret=-0.0449, glen=142, tlen=997, kl=0.276, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:28,  4.54s/it, pg=0.0262, rm=0.875, ret=-0.0449, glen=142, tlen=997, kl=0.276, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:52<08:28,  4.54s/it, pg=0.138, rm=0.875, ret=-0.159, glen=161, tlen=764, kl=0.283, act_lr=9.47e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<06:56,  3.75s/it, pg=0.138, rm=0.875, ret=-0.159, glen=161, tlen=764, kl=0.283, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:54<06:56,  3.75s/it, pg=0.182, rm=1, ret=-0.204, glen=157, tlen=809, kl=0.294, act_lr=9.47e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:54<05:49,  3.18s/it, pg=0.182, rm=1, ret=-0.204, glen=157, tlen=809, kl=0.294, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:56<05:49,  3.18s/it, pg=0.147, rm=0.75, ret=-0.167, glen=168, tlen=808, kl=0.251, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:56<05:08,  2.83s/it, pg=0.147, rm=0.75, ret=-0.167, glen=168, tlen=808, kl=0.251, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:58<05:08,  2.83s/it, pg=0.00846, rm=1.06, ret=-0.0276, glen=152, tlen=743, kl=0.272, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:58<04:40,  2.60s/it, pg=0.00846, rm=1.06, ret=-0.0276, glen=152, tlen=743, kl=0.272, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:00<04:40,  2.60s/it, pg=0.196, rm=0.812, ret=-0.214, glen=148, tlen=1025.25, kl=0.256, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:00<04:22,  2.45s/it, pg=0.196, rm=0.812, ret=-0.214, glen=148, tlen=1025.25, kl=0.256, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:02<04:22,  2.45s/it, pg=0.055, rm=0.812, ret=-0.0728, glen=158, tlen=903, kl=0.262, act_lr=9.47e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:02<04:17,  2.43s/it, pg=0.055, rm=0.812, ret=-0.0728, glen=158, tlen=903, kl=0.262, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:04<04:17,  2.43s/it, pg=0.0104, rm=0.875, ret=-0.0259, glen=163, tlen=796, kl=0.243, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:04<03:56,  2.26s/it, pg=0.0104, rm=0.875, ret=-0.0259, glen=163, tlen=796, kl=0.243, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:14<03:56,  2.26s/it, pg=-0.0272, rm=1.19, ret=0.0072, glen=146, tlen=894, kl=0.282, act_lr=9.47e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:14<07:48,  4.51s/it, pg=-0.0272, rm=1.19, ret=0.0072, glen=146, tlen=894, kl=0.282, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:16<07:48,  4.51s/it, pg=-0.0432, rm=0.875, ret=0.0221, glen=159, tlen=1.02e+3, kl=0.278, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:16<06:34,  3.83s/it, pg=-0.0432, rm=0.875, ret=0.0221, glen=159, tlen=1.02e+3, kl=0.278, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:19<06:34,  3.83s/it, pg=0.175, rm=0.75, ret=-0.195, glen=160, tlen=918, kl=0.273, act_lr=9.47e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:19<05:48,  3.42s/it, pg=0.175, rm=0.75, ret=-0.195, glen=160, tlen=918, kl=0.273, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:21<05:48,  3.42s/it, pg=0.117, rm=1.06, ret=-0.138, glen=150, tlen=845, kl=0.291, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:21<04:57,  2.95s/it, pg=0.117, rm=1.06, ret=-0.138, glen=150, tlen=845, kl=0.291, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:23<04:57,  2.95s/it, pg=0.0263, rm=1, ret=-0.0495, glen=167, tlen=813, kl=0.297, act_lr=9.47e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:23<04:27,  2.68s/it, pg=0.0263, rm=1, ret=-0.0495, glen=167, tlen=813, kl=0.297, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:25<04:27,  2.68s/it, pg=-0.0203, rm=1.12, ret=-0.000139, glen=153, tlen=913, kl=0.278, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:25<04:02,  2.45s/it, pg=-0.0203, rm=1.12, ret=-0.000139, glen=153, tlen=913, kl=0.278, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:26<04:02,  2.45s/it, pg=-0.0962, rm=0.938, ret=0.075, glen=165, tlen=898, kl=0.267, act_lr=9.47e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:26<03:43,  2.28s/it, pg=-0.0962, rm=0.938, ret=0.075, glen=165, tlen=898, kl=0.267, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:28<03:43,  2.28s/it, pg=0.0604, rm=0.875, ret=-0.0819, glen=160, tlen=775, kl=0.293, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:28<03:34,  2.21s/it, pg=0.0604, rm=0.875, ret=-0.0819, glen=160, tlen=775, kl=0.293, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:38<03:34,  2.21s/it, pg=-0.0379, rm=0.938, ret=0.0194, glen=144, tlen=914, kl=0.268, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:38<07:17,  4.55s/it, pg=-0.0379, rm=0.938, ret=0.0194, glen=144, tlen=914, kl=0.268, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:41<07:17,  4.55s/it, pg=-0.0481, rm=0.688, ret=0.028, glen=155, tlen=1.13e+3, kl=0.269, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:41<06:12,  3.92s/it, pg=-0.0481, rm=0.688, ret=0.028, glen=155, tlen=1.13e+3, kl=0.269, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:43<06:12,  3.92s/it, pg=0.0737, rm=1, ret=-0.0907, glen=138, tlen=916, kl=0.264, act_lr=9.47e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:43<05:19,  3.40s/it, pg=0.0737, rm=1, ret=-0.0907, glen=138, tlen=916, kl=0.264, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:45<05:19,  3.40s/it, pg=-0.143, rm=0.875, ret=0.125, glen=151, tlen=946, kl=0.264, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:45<04:33,  2.94s/it, pg=-0.143, rm=0.875, ret=0.125, glen=151, tlen=946, kl=0.264, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:47<04:33,  2.94s/it, pg=0.035, rm=0.812, ret=-0.0541, glen=154, tlen=912, kl=0.274, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:47<04:12,  2.75s/it, pg=0.035, rm=0.812, ret=-0.0541, glen=154, tlen=912, kl=0.274, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:49<04:12,  2.75s/it, pg=0.067, rm=1.12, ret=-0.0882, glen=156, tlen=818, kl=0.288, act_lr=9.47e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:49<03:45,  2.48s/it, pg=0.067, rm=1.12, ret=-0.0882, glen=156, tlen=818, kl=0.288, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:51<03:45,  2.48s/it, pg=-0.00703, rm=1, ret=-0.0132, glen=148, tlen=958, kl=0.287, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:51<03:36,  2.41s/it, pg=-0.00703, rm=1, ret=-0.0132, glen=148, tlen=958, kl=0.287, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:53<03:36,  2.41s/it, pg=0.0406, rm=0.938, ret=-0.0586, glen=142, tlen=825, kl=0.261, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:53<03:19,  2.24s/it, pg=0.0406, rm=0.938, ret=-0.0586, glen=142, tlen=825, kl=0.261, act_lr=9.47e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:03<03:19,  2.24s/it, pg=0.0708, rm=0.875, ret=-0.0898, glen=148, tlen=796, kl=0.29, act_lr=9.46e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:03<06:28,  4.42s/it, pg=0.0708, rm=0.875, ret=-0.0898, glen=148, tlen=796, kl=0.29, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:05<06:28,  4.42s/it, pg=0.109, rm=0.938, ret=-0.126, glen=152, tlen=951, kl=0.266, act_lr=9.46e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:05<05:37,  3.88s/it, pg=0.109, rm=0.938, ret=-0.126, glen=152, tlen=951, kl=0.266, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:07<05:37,  3.88s/it, pg=0.0492, rm=1.06, ret=-0.0692, glen=153, tlen=737, kl=0.294, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:07<04:40,  3.26s/it, pg=0.0492, rm=1.06, ret=-0.0692, glen=153, tlen=737, kl=0.294, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:09<04:40,  3.26s/it, pg=0.128, rm=1.06, ret=-0.149, glen=155, tlen=836, kl=0.287, act_lr=9.46e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:09<04:07,  2.91s/it, pg=0.128, rm=1.06, ret=-0.149, glen=155, tlen=836, kl=0.287, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:12<04:07,  2.91s/it, pg=0.0453, rm=1.06, ret=-0.0682, glen=166, tlen=818, kl=0.3, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:12<03:50,  2.74s/it, pg=0.0453, rm=1.06, ret=-0.0682, glen=166, tlen=818, kl=0.3, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:14<03:50,  2.74s/it, pg=0.0757, rm=1, ret=-0.0936, glen=146, tlen=924, kl=0.271, act_lr=9.46e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:14<03:33,  2.57s/it, pg=0.0757, rm=1, ret=-0.0936, glen=146, tlen=924, kl=0.271, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:16<03:33,  2.57s/it, pg=0.0894, rm=0.688, ret=-0.108, glen=137, tlen=915, kl=0.28, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:16<03:13,  2.36s/it, pg=0.0894, rm=0.688, ret=-0.108, glen=137, tlen=915, kl=0.28, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:18<03:13,  2.36s/it, pg=0.0412, rm=0.875, ret=-0.0599, glen=150, tlen=1027.75, kl=0.256, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:18<03:05,  2.29s/it, pg=0.0412, rm=0.875, ret=-0.0599, glen=150, tlen=1027.75, kl=0.256, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:28<03:05,  2.29s/it, pg=-0.369, rm=0.938, ret=0.346, glen=164, tlen=804, kl=0.267, act_lr=9.46e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:28<06:06,  4.58s/it, pg=-0.369, rm=0.938, ret=0.346, glen=164, tlen=804, kl=0.267, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:30<06:06,  4.58s/it, pg=0.21, rm=0.875, ret=-0.228, glen=146, tlen=835, kl=0.269, act_lr=9.46e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:30<04:58,  3.78s/it, pg=0.21, rm=0.875, ret=-0.228, glen=146, tlen=835, kl=0.269, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:32<04:58,  3.78s/it, pg=0.0797, rm=0.875, ret=-0.0993, glen=144, tlen=1058.75, kl=0.282, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:32<04:18,  3.32s/it, pg=0.0797, rm=0.875, ret=-0.0993, glen=144, tlen=1058.75, kl=0.282, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:34<04:18,  3.32s/it, pg=-0.0983, rm=0.875, ret=0.0769, glen=159, tlen=870, kl=0.274, act_lr=9.46e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:34<03:43,  2.90s/it, pg=-0.0983, rm=0.875, ret=0.0769, glen=159, tlen=870, kl=0.274, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:36<03:43,  2.90s/it, pg=0.0551, rm=1, ret=-0.0779, glen=158, tlen=860, kl=0.296, act_lr=9.46e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:36<03:16,  2.59s/it, pg=0.0551, rm=1, ret=-0.0779, glen=158, tlen=860, kl=0.296, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:38<03:16,  2.59s/it, pg=0.0163, rm=0.875, ret=-0.0372, glen=161, tlen=1.08e+3, kl=0.283, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:38<03:08,  2.51s/it, pg=0.0163, rm=0.875, ret=-0.0372, glen=161, tlen=1.08e+3, kl=0.283, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:40<03:08,  2.51s/it, pg=-0.114, rm=1, ret=0.0954, glen=143, tlen=804, kl=0.269, act_lr=9.46e-7]         [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:40<02:56,  2.38s/it, pg=-0.114, rm=1, ret=0.0954, glen=143, tlen=804, kl=0.269, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:42<02:56,  2.38s/it, pg=0.158, rm=0.938, ret=-0.18, glen=158, tlen=758, kl=0.307, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:42<02:51,  2.35s/it, pg=0.158, rm=0.938, ret=-0.18, glen=158, tlen=758, kl=0.307, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:52<02:51,  2.35s/it, pg=0.0345, rm=0.812, ret=-0.0547, glen=153, tlen=910, kl=0.28, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:52<05:29,  4.58s/it, pg=0.0345, rm=0.812, ret=-0.0547, glen=153, tlen=910, kl=0.28, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:54<05:29,  4.58s/it, pg=-0.122, rm=0.938, ret=0.103, glen=156, tlen=776, kl=0.279, act_lr=9.46e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:54<04:32,  3.84s/it, pg=-0.122, rm=0.938, ret=0.103, glen=156, tlen=776, kl=0.279, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:56<04:32,  3.84s/it, pg=0.131, rm=1, ret=-0.151, glen=153, tlen=745, kl=0.288, act_lr=9.46e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:56<03:50,  3.29s/it, pg=0.131, rm=1, ret=-0.151, glen=153, tlen=745, kl=0.288, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:58<03:50,  3.29s/it, pg=0.0339, rm=0.875, ret=-0.0498, glen=139, tlen=1.13e+3, kl=0.254, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:58<03:22,  2.93s/it, pg=0.0339, rm=0.875, ret=-0.0498, glen=139, tlen=1.13e+3, kl=0.254, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:00<03:22,  2.93s/it, pg=-0.245, rm=1, ret=0.227, glen=161, tlen=795, kl=0.259, act_lr=9.46e-7]          [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:00<02:56,  2.60s/it, pg=-0.245, rm=1, ret=0.227, glen=161, tlen=795, kl=0.259, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:02<02:56,  2.60s/it, pg=-0.00146, rm=1, ret=-0.0159, glen=140, tlen=1e+3, kl=0.269, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:02<02:48,  2.51s/it, pg=-0.00146, rm=1, ret=-0.0159, glen=140, tlen=1e+3, kl=0.269, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:04<02:48,  2.51s/it, pg=0.103, rm=0.75, ret=-0.12, glen=140, tlen=757, kl=0.274, act_lr=9.46e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:04<02:33,  2.33s/it, pg=0.103, rm=0.75, ret=-0.12, glen=140, tlen=757, kl=0.274, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:06<02:33,  2.33s/it, pg=0.0931, rm=1.19, ret=-0.114, glen=160, tlen=874, kl=0.278, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:06<02:26,  2.26s/it, pg=0.0931, rm=1.19, ret=-0.114, glen=160, tlen=874, kl=0.278, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:16<02:26,  2.26s/it, pg=-0.0849, rm=1, ret=0.0685, glen=146, tlen=840, kl=0.266, act_lr=9.46e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:16<04:44,  4.45s/it, pg=-0.0849, rm=1, ret=0.0685, glen=146, tlen=840, kl=0.266, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:18<04:44,  4.45s/it, pg=0.149, rm=0.75, ret=-0.167, glen=154, tlen=916, kl=0.259, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:18<03:58,  3.78s/it, pg=0.149, rm=0.75, ret=-0.167, glen=154, tlen=916, kl=0.259, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:21<03:58,  3.78s/it, pg=-0.000497, rm=1, ret=-0.0176, glen=141, tlen=1e+3, kl=0.28, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:21<03:32,  3.43s/it, pg=-0.000497, rm=1, ret=-0.0176, glen=141, tlen=1e+3, kl=0.28, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:23<03:32,  3.43s/it, pg=-0.04, rm=1.25, ret=0.019, glen=146, tlen=793, kl=0.307, act_lr=9.46e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:23<03:07,  3.07s/it, pg=-0.04, rm=1.25, ret=0.019, glen=146, tlen=793, kl=0.307, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:25<03:07,  3.07s/it, pg=0.0587, rm=0.938, ret=-0.0778, glen=166, tlen=882, kl=0.268, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:25<02:42,  2.71s/it, pg=0.0587, rm=0.938, ret=-0.0778, glen=166, tlen=882, kl=0.268, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:27<02:42,  2.71s/it, pg=0.0628, rm=1, ret=-0.0831, glen=150, tlen=836, kl=0.288, act_lr=9.46e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:27<02:30,  2.55s/it, pg=0.0628, rm=1, ret=-0.0831, glen=150, tlen=836, kl=0.288, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:29<02:30,  2.55s/it, pg=0.428, rm=0.75, ret=-0.44, glen=162, tlen=908, kl=0.248, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:29<02:16,  2.35s/it, pg=0.428, rm=0.75, ret=-0.44, glen=162, tlen=908, kl=0.248, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:31<02:16,  2.35s/it, pg=0.0118, rm=1.06, ret=-0.0343, glen=154, tlen=868, kl=0.31, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:31<02:05,  2.21s/it, pg=0.0118, rm=1.06, ret=-0.0343, glen=154, tlen=868, kl=0.31, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:40<02:05,  2.21s/it, pg=0.0519, rm=0.938, ret=-0.0713, glen=158, tlen=900, kl=0.277, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:40<04:07,  4.42s/it, pg=0.0519, rm=0.938, ret=-0.0713, glen=158, tlen=900, kl=0.277, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:43<04:07,  4.42s/it, pg=-0.0368, rm=0.938, ret=0.0164, glen=172, tlen=816, kl=0.267, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:43<03:25,  3.74s/it, pg=-0.0368, rm=0.938, ret=0.0164, glen=172, tlen=816, kl=0.267, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:45<03:25,  3.74s/it, pg=-0.122, rm=0.812, ret=0.105, glen=141, tlen=1122.25, kl=0.251, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:45<02:59,  3.33s/it, pg=-0.122, rm=0.812, ret=0.105, glen=141, tlen=1122.25, kl=0.251, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:47<02:59,  3.33s/it, pg=0.0129, rm=0.938, ret=-0.0356, glen=158, tlen=901, kl=0.324, act_lr=9.46e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:47<02:32,  2.88s/it, pg=0.0129, rm=0.938, ret=-0.0356, glen=158, tlen=901, kl=0.324, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:49<02:32,  2.88s/it, pg=-0.0568, rm=1.19, ret=0.0359, glen=157, tlen=819, kl=0.292, act_lr=9.46e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:49<02:14,  2.58s/it, pg=-0.0568, rm=1.19, ret=0.0359, glen=157, tlen=819, kl=0.292, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:51<02:14,  2.58s/it, pg=0.1, rm=1.19, ret=-0.121, glen=166, tlen=812, kl=0.273, act_lr=9.46e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:51<02:06,  2.49s/it, pg=0.1, rm=1.19, ret=-0.121, glen=166, tlen=812, kl=0.273, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:53<02:06,  2.49s/it, pg=-0.0787, rm=0.875, ret=0.0592, glen=155, tlen=1.03e+3, kl=0.27, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:53<02:01,  2.44s/it, pg=-0.0787, rm=0.875, ret=0.0592, glen=155, tlen=1.03e+3, kl=0.27, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:55<02:01,  2.44s/it, pg=0.0736, rm=0.875, ret=-0.0978, glen=163, tlen=812, kl=0.312, act_lr=9.46e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:55<01:50,  2.26s/it, pg=0.0736, rm=0.875, ret=-0.0978, glen=163, tlen=812, kl=0.312, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:05<01:50,  2.26s/it, pg=0.0563, rm=0.812, ret=-0.0737, glen=148, tlen=958, kl=0.262, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:05<03:39,  4.56s/it, pg=0.0563, rm=0.812, ret=-0.0737, glen=148, tlen=958, kl=0.262, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:07<03:39,  4.56s/it, pg=0.0954, rm=0.812, ret=-0.114, glen=160, tlen=1017.25, kl=0.253, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:07<02:58,  3.79s/it, pg=0.0954, rm=0.812, ret=-0.114, glen=160, tlen=1017.25, kl=0.253, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:09<02:58,  3.79s/it, pg=0.0912, rm=0.75, ret=-0.113, glen=143, tlen=727, kl=0.302, act_lr=9.46e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:09<02:30,  3.28s/it, pg=0.0912, rm=0.75, ret=-0.113, glen=143, tlen=727, kl=0.302, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:11<02:30,  3.28s/it, pg=-0.0742, rm=1.06, ret=0.0542, glen=143, tlen=807, kl=0.304, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:11<02:11,  2.93s/it, pg=-0.0742, rm=1.06, ret=0.0542, glen=143, tlen=807, kl=0.304, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:13<02:11,  2.93s/it, pg=0.184, rm=0.875, ret=-0.199, glen=146, tlen=921, kl=0.263, act_lr=9.46e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:13<01:56,  2.66s/it, pg=0.184, rm=0.875, ret=-0.199, glen=146, tlen=921, kl=0.263, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:15<01:56,  2.66s/it, pg=0.0553, rm=0.875, ret=-0.0732, glen=139, tlen=754, kl=0.275, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:15<01:48,  2.52s/it, pg=0.0553, rm=0.875, ret=-0.0732, glen=139, tlen=754, kl=0.275, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:17<01:48,  2.52s/it, pg=0.152, rm=1.06, ret=-0.173, glen=161, tlen=773, kl=0.291, act_lr=9.46e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:17<01:39,  2.37s/it, pg=0.152, rm=1.06, ret=-0.173, glen=161, tlen=773, kl=0.291, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:19<01:39,  2.37s/it, pg=0.043, rm=0.812, ret=-0.0626, glen=145, tlen=857, kl=0.298, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:19<01:31,  2.22s/it, pg=0.043, rm=0.812, ret=-0.0626, glen=145, tlen=857, kl=0.298, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:29<01:31,  2.22s/it, pg=0.0438, rm=0.938, ret=-0.0641, glen=146, tlen=829, kl=0.291, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:29<03:00,  4.51s/it, pg=0.0438, rm=0.938, ret=-0.0641, glen=146, tlen=829, kl=0.291, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:32<03:00,  4.51s/it, pg=-0.128, rm=0.938, ret=0.11, glen=152, tlen=944, kl=0.272, act_lr=9.46e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:32<02:30,  3.86s/it, pg=-0.128, rm=0.938, ret=0.11, glen=152, tlen=944, kl=0.272, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:33<02:30,  3.86s/it, pg=0.0441, rm=0.875, ret=-0.0631, glen=150, tlen=1.03e+3, kl=0.277, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:33<02:04,  3.27s/it, pg=0.0441, rm=0.875, ret=-0.0631, glen=150, tlen=1.03e+3, kl=0.277, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:36<02:04,  3.27s/it, pg=-0.0911, rm=1.06, ret=0.0739, glen=151, tlen=833, kl=0.26, act_lr=9.46e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:36<01:48,  2.92s/it, pg=-0.0911, rm=1.06, ret=0.0739, glen=151, tlen=833, kl=0.26, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:38<01:48,  2.92s/it, pg=-0.0403, rm=1.25, ret=0.0197, glen=153, tlen=800, kl=0.289, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:38<01:37,  2.72s/it, pg=-0.0403, rm=1.25, ret=0.0197, glen=153, tlen=800, kl=0.289, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:40<01:37,  2.72s/it, pg=-0.00528, rm=1, ret=-0.0157, glen=147, tlen=958, kl=0.304, act_lr=9.46e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:40<01:27,  2.51s/it, pg=-0.00528, rm=1, ret=-0.0157, glen=147, tlen=958, kl=0.304, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:42<01:27,  2.51s/it, pg=-0.106, rm=0.938, ret=0.085, glen=164, tlen=779, kl=0.281, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:42<01:19,  2.35s/it, pg=-0.106, rm=0.938, ret=0.085, glen=164, tlen=779, kl=0.281, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:44<01:19,  2.35s/it, pg=0.192, rm=0.938, ret=-0.211, glen=157, tlen=834, kl=0.277, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:44<01:13,  2.24s/it, pg=0.192, rm=0.938, ret=-0.211, glen=157, tlen=834, kl=0.277, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 12:59:24,277] [INFO] [logging.py:128:log_dist] [Rank 0] step=1100, skipped=0, lr=[9.456414285982402e-07, 9.456414285982402e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:53<01:13,  2.24s/it, pg=0.0285, rm=0.938, ret=-0.0478, glen=140, tlen=916, kl=0.299, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:53<02:23,  4.48s/it, pg=0.0285, rm=0.938, ret=-0.0478, glen=140, tlen=916, kl=0.299, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:56<02:23,  4.48s/it, pg=-0.247, rm=1, ret=0.229, glen=151, tlen=766, kl=0.281, act_lr=9.46e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:56<01:56,  3.76s/it, pg=-0.247, rm=1, ret=0.229, glen=151, tlen=766, kl=0.281, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:58<01:56,  3.76s/it, pg=-0.0368, rm=1.12, ret=0.0168, glen=146, tlen=884, kl=0.284, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:58<01:39,  3.31s/it, pg=-0.0368, rm=1.12, ret=0.0168, glen=146, tlen=884, kl=0.284, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:00<01:39,  3.31s/it, pg=0.0753, rm=1.12, ret=-0.0953, glen=158, tlen=752, kl=0.292, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:00<01:26,  2.98s/it, pg=0.0753, rm=1.12, ret=-0.0953, glen=158, tlen=752, kl=0.292, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:03<01:26,  2.98s/it, pg=-0.0576, rm=1, ret=0.039, glen=157, tlen=963, kl=0.259, act_lr=9.46e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:03<01:19,  2.84s/it, pg=-0.0576, rm=1, ret=0.039, glen=157, tlen=963, kl=0.259, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:04<01:19,  2.84s/it, pg=0.0444, rm=0.812, ret=-0.0666, glen=143, tlen=854, kl=0.331, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:04<01:08,  2.55s/it, pg=0.0444, rm=0.812, ret=-0.0666, glen=143, tlen=854, kl=0.331, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:07<01:08,  2.55s/it, pg=0.116, rm=0.75, ret=-0.134, glen=148, tlen=943, kl=0.263, act_lr=9.46e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:07<01:04,  2.50s/it, pg=0.116, rm=0.75, ret=-0.134, glen=148, tlen=943, kl=0.263, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:09<01:04,  2.50s/it, pg=0.0754, rm=1.12, ret=-0.0939, glen=151, tlen=744, kl=0.297, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:09<00:57,  2.30s/it, pg=0.0754, rm=1.12, ret=-0.0939, glen=151, tlen=744, kl=0.297, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:18<00:57,  2.30s/it, pg=0.118, rm=1.06, ret=-0.135, glen=142, tlen=880, kl=0.271, act_lr=9.46e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:18<01:47,  4.47s/it, pg=0.118, rm=1.06, ret=-0.135, glen=142, tlen=880, kl=0.271, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:20<01:47,  4.47s/it, pg=0.0542, rm=0.938, ret=-0.0727, glen=150, tlen=840, kl=0.261, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:20<01:27,  3.79s/it, pg=0.0542, rm=0.938, ret=-0.0727, glen=150, tlen=840, kl=0.261, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:22<01:27,  3.79s/it, pg=-0.117, rm=1.06, ret=0.0967, glen=149, tlen=752, kl=0.296, act_lr=9.46e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:22<01:10,  3.20s/it, pg=-0.117, rm=1.06, ret=0.0967, glen=149, tlen=752, kl=0.296, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:24<01:10,  3.20s/it, pg=0.0483, rm=1.06, ret=-0.0687, glen=156, tlen=740, kl=0.285, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:24<01:00,  2.87s/it, pg=0.0483, rm=1.06, ret=-0.0687, glen=156, tlen=740, kl=0.285, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:26<01:00,  2.87s/it, pg=0.0352, rm=1, ret=-0.0535, glen=147, tlen=760, kl=0.271, act_lr=9.46e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:26<00:51,  2.56s/it, pg=0.0352, rm=1, ret=-0.0535, glen=147, tlen=760, kl=0.271, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:28<00:51,  2.56s/it, pg=-0.0621, rm=1.06, ret=0.0424, glen=151, tlen=946, kl=0.285, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:28<00:45,  2.40s/it, pg=-0.0621, rm=1.06, ret=0.0424, glen=151, tlen=946, kl=0.285, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:30<00:45,  2.40s/it, pg=0.0262, rm=0.938, ret=-0.0478, glen=167, tlen=783, kl=0.286, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:30<00:41,  2.33s/it, pg=0.0262, rm=0.938, ret=-0.0478, glen=167, tlen=783, kl=0.286, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:33<00:41,  2.33s/it, pg=-0.101, rm=1.19, ret=0.0805, glen=151, tlen=738, kl=0.295, act_lr=9.46e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:33<00:39,  2.34s/it, pg=-0.101, rm=1.19, ret=0.0805, glen=151, tlen=738, kl=0.295, act_lr=9.46e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:42<00:39,  2.34s/it, pg=-0.13, rm=1, ret=0.111, glen=144, tlen=740, kl=0.281, act_lr=9.45e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:42<01:11,  4.48s/it, pg=-0.13, rm=1, ret=0.111, glen=144, tlen=740, kl=0.281, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:45<01:11,  4.48s/it, pg=-0.114, rm=1.12, ret=0.0957, glen=153, tlen=745, kl=0.28, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:45<00:58,  3.89s/it, pg=-0.114, rm=1.12, ret=0.0957, glen=153, tlen=745, kl=0.28, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:47<00:58,  3.89s/it, pg=-0.237, rm=1.06, ret=0.218, glen=146, tlen=1.03e+3, kl=0.26, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:47<00:46,  3.34s/it, pg=-0.237, rm=1.06, ret=0.218, glen=146, tlen=1.03e+3, kl=0.26, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:49<00:46,  3.34s/it, pg=-0.0725, rm=1.12, ret=0.0556, glen=149, tlen=815, kl=0.267, act_lr=9.45e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|██���█████▉ | 115/128 [05:49<00:37,  2.90s/it, pg=-0.0725, rm=1.12, ret=0.0556, glen=149, tlen=815, kl=0.267, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:51<00:37,  2.90s/it, pg=0.0325, rm=1, ret=-0.0492, glen=152, tlen=873, kl=0.25, act_lr=9.45e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:51<00:31,  2.65s/it, pg=0.0325, rm=1, ret=-0.0492, glen=152, tlen=873, kl=0.25, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:53<00:31,  2.65s/it, pg=-0.082, rm=1.06, ret=0.062, glen=163, tlen=776, kl=0.278, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:53<00:26,  2.41s/it, pg=-0.082, rm=1.06, ret=0.062, glen=163, tlen=776, kl=0.278, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:55<00:26,  2.41s/it, pg=0.14, rm=0.812, ret=-0.157, glen=160, tlen=793, kl=0.275, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:55<00:23,  2.30s/it, pg=0.14, rm=0.812, ret=-0.157, glen=160, tlen=793, kl=0.275, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:56<00:23,  2.30s/it, pg=-0.00458, rm=0.875, ret=-0.0173, glen=170, tlen=790, kl=0.281, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:56<00:19,  2.15s/it, pg=-0.00458, rm=0.875, ret=-0.0173, glen=170, tlen=790, kl=0.281, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:06<00:19,  2.15s/it, pg=0.0589, rm=0.812, ret=-0.0809, glen=165, tlen=910, kl=0.301, act_lr=9.45e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:06<00:34,  4.32s/it, pg=0.0589, rm=0.812, ret=-0.0809, glen=165, tlen=910, kl=0.301, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:08<00:34,  4.32s/it, pg=0.107, rm=0.875, ret=-0.126, glen=142, tlen=912, kl=0.31, act_lr=9.45e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:08<00:25,  3.60s/it, pg=0.107, rm=0.875, ret=-0.126, glen=142, tlen=912, kl=0.31, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:10<00:25,  3.60s/it, pg=-0.0294, rm=1.25, ret=0.00718, glen=158, tlen=736, kl=0.323, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:10<00:19,  3.26s/it, pg=-0.0294, rm=1.25, ret=0.00718, glen=158, tlen=736, kl=0.323, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:12<00:19,  3.26s/it, pg=-0.146, rm=0.875, ret=0.126, glen=152, tlen=764, kl=0.269, act_lr=9.45e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:12<00:14,  2.84s/it, pg=-0.146, rm=0.875, ret=0.126, glen=152, tlen=764, kl=0.269, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:14<00:14,  2.84s/it, pg=0.323, rm=0.938, ret=-0.34, glen=138, tlen=915, kl=0.264, act_lr=9.45e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:14<00:10,  2.65s/it, pg=0.323, rm=0.938, ret=-0.34, glen=138, tlen=915, kl=0.264, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:16<00:10,  2.65s/it, pg=0.0188, rm=0.875, ret=-0.0391, glen=164, tlen=779, kl=0.276, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:16<00:07,  2.53s/it, pg=0.0188, rm=0.875, ret=-0.0391, glen=164, tlen=779, kl=0.276, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:18<00:07,  2.53s/it, pg=0.154, rm=1.06, ret=-0.176, glen=165, tlen=777, kl=0.302, act_lr=9.45e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:18<00:04,  2.32s/it, pg=0.154, rm=1.06, ret=-0.176, glen=165, tlen=777, kl=0.302, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:20<00:04,  2.32s/it, pg=0.0127, rm=0.875, ret=-0.0306, glen=152, tlen=1.07e+3, kl=0.256, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:20<00:02,  2.25s/it, pg=0.0127, rm=0.875, ret=-0.0306, glen=152, tlen=1.07e+3, kl=0.256, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:30<00:02,  2.25s/it, pg=-0.0513, rm=1.19, ret=0.0308, glen=160, tlen=754, kl=0.282, act_lr=9.45e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:30<00:00,  4.44s/it, pg=-0.0513, rm=1.19, ret=0.0308, glen=160, tlen=754, kl=0.282, act_lr=9.45e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:30<00:00,  3.05s/it, pg=-0.0513, rm=1.19, ret=0.0308, glen=160, tlen=754, kl=0.282, act_lr=9.45e-7]
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 13:01:02 [executor_base.py:219] It took 1.713214 seconds to wake up.
+[36m(LLMRayActor pid=279381)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279374)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279379)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:01:04 [executor_base.py:219] It took 3.160411 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3289x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.11.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 935x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.21.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 960x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:01:25 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:01:25 [executor_base.py:208] It took 1.411697 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 607x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   6%|▋         | 8/127 [1:48:08<23:39:55, 715.93s/it, policy_loss=0.0232, actor_lr=9.46e-7, kl=0.28, reward=0.962, response_length=153, total_length=865, acc_rewards=0.462, format_rewards=0.5, return=-0.0428] 
+Episode [1/2]:   7%|▋         | 9/127 [1:48:08<23:24:41, 714.25s/it, policy_loss=0.0232, actor_lr=9.46e-7, kl=0.28, reward=0.962, response_length=153, total_length=865, acc_rewards=0.462, format_rewards=0.5, return=-0.0428]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:01:27 [executor_base.py:219] It took 1.499449 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 1/256 [00:17<1:13:40, 17.33s/it, est. speed input: 88.96 toks/s, output: 5.25 toks/s]
+Processed prompts:   1%|          | 3/256 [00:17<19:13,  4.56s/it, est. speed input: 133.33 toks/s, output: 15.82 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:17<09:32,  2.28s/it, est. speed input: 187.82 toks/s, output: 26.91 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   2%|▏         | 6/256 [00:18<07:39,  1.84s/it, est. speed input: 202.51 toks/s, output: 31.79 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   3%|▎         | 8/256 [00:18<04:24,  1.07s/it, est. speed input: 243.99 toks/s, output: 43.40 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   4%|▍         | 10/256 [00:18<02:50,  1.45it/s, est. speed input: 351.10 toks/s, output: 55.10 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   5%|▌         | 14/256 [00:18<01:25,  2.84it/s, est. speed input: 437.47 toks/s, output: 79.09 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   7%|▋         | 18/256 [00:19<00:53,  4.45it/s, est. speed input: 521.20 toks/s, output: 103.37 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   8%|▊         | 21/256 [00:19<00:39,  5.98it/s, est. speed input: 579.69 toks/s, output: 122.06 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  11%|█▏        | 29/256 [00:19<00:19, 11.84it/s, est. speed input: 744.96 toks/s, output: 173.96 toks/s]
+Processed prompts:  14%|█▍        | 37/256 [00:19<00:11, 18.41it/s, est. speed input: 1084.47 toks/s, output: 226.48 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  18%|█▊        | 45/256 [00:19<00:08, 25.39it/s, est. speed input: 1365.69 toks/s, output: 279.55 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  22%|██▏       | 56/256 [00:19<00:05, 36.95it/s, est. speed input: 1598.07 toks/s, output: 354.25 toks/s]
+Processed prompts:  27%|██▋       | 68/256 [00:19<00:03, 50.09it/s, est. speed input: 2073.31 toks/s, output: 436.55 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  30%|███       | 78/256 [00:19<00:03, 58.91it/s, est. speed input: 2282.76 toks/s, output: 505.82 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  34%|███▍      | 87/256 [00:20<00:02, 64.89it/s, est. speed input: 2453.05 toks/s, output: 568.56 toks/s]
+Processed prompts:  39%|███▊      | 99/256 [00:20<00:02, 77.43it/s, est. speed input: 2749.65 toks/s, output: 654.22 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  45%|████▍     | 115/256 [00:20<00:01, 91.33it/s, est. speed input: 3116.95 toks/s, output: 770.26 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  50%|█████     | 129/256 [00:20<00:01, 98.47it/s, est. speed input: 3463.43 toks/s, output: 872.99 toks/s]
+Processed prompts:  56%|█████▋    | 144/256 [00:20<00:01, 109.13it/s, est. speed input: 3756.40 toks/s, output: 985.47 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  64%|██████▎   | 163/256 [00:20<00:00, 122.47it/s, est. speed input: 4151.09 toks/s, output: 1131.02 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  71%|███████   | 181/256 [00:20<00:00, 131.69it/s, est. speed input: 4566.85 toks/s, output: 1271.91 toks/s]
+Processed prompts:  76%|███████▌  | 195/256 [00:20<00:00, 131.62it/s, est. speed input: 4862.20 toks/s, output: 1382.77 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  82%|████████▏ | 211/256 [00:20<00:00, 132.60it/s, est. speed input: 5224.43 toks/s, output: 1512.31 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  88%|████████▊ | 225/256 [00:21<00:00, 132.52it/s, est. speed input: 5553.96 toks/s, output: 1628.47 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  93%|█████████▎| 239/256 [00:21<00:00, 112.90it/s, est. speed input: 5830.62 toks/s, output: 1744.36 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  98%|█████████▊| 251/256 [00:21<00:00, 72.37it/s, est. speed input: 6003.16 toks/s, output: 1836.96 toks/s] 
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:22<05:54,  1.42s/it, est. speed input: 153.02 toks/s, output: 34.85 toks/s]
+Processed prompts:   4%|▎         | 9/256 [00:22<03:57,  1.04it/s, est. speed input: 187.80 toks/s, output: 45.20 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   3%|▎         | 8/256 [00:21<05:41,  1.38s/it, est. speed input: 413.07 toks/s, output: 35.44 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|███���██████| 256/256 [00:23<00:00, 11.10it/s, est. speed input: 5718.13 toks/s, output: 1778.54 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   6%|▌         | 15/256 [00:22<01:27,  2.74it/s, est. speed input: 444.99 toks/s, output: 77.31 toks/s]
+Processed prompts:   9%|▉         | 23/256 [00:23<00:32,  7.07it/s, est. speed input: 696.08 toks/s, output: 123.22 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:25<00:00, 10.07it/s, est. speed input: 6541.96 toks/s, output: 1553.94 toks/s] [32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   9%|▉         | 24/256 [00:21<00:38,  5.97it/s, est. speed input: 553.54 toks/s, output: 145.37 toks/s]
+Processed prompts:  12%|█▏        | 30/256 [00:21<00:24,  9.24it/s, est. speed input: 680.21 toks/s, output: 183.99 toks/s][32m [repeated 17x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  22%|██▏       | 56/256 [00:21<00:06, 30.84it/s, est. speed input: 1283.41 toks/s, output: 356.51 toks/s][32m [repeated 40x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:24<00:00, 10.56it/s, est. speed input: 5914.71 toks/s, output: 1797.38 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  51%|█████     | 130/256 [00:30<00:01, 84.94it/s, est. speed input: 4291.10 toks/s, output: 555.19 toks/s]
+Processed prompts:  57%|█████▋    | 147/256 [00:30<00:01, 104.99it/s, est. speed input: 4658.04 toks/s, output: 641.47 toks/s][32m [repeated 14x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  46%|████▌     | 117/256 [00:30<00:01, 76.18it/s, est. speed input: 3981.40 toks/s, output: 491.21 toks/s][32m [repeated 33x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  83%|████████▎ | 213/256 [00:25<00:00, 133.98it/s, est. speed input: 5564.18 toks/s, output: 1251.84 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:25<00:00, 148.51it/s, est. speed input: 5983.05 toks/s, output: 1399.88 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:31<00:00,  8.15it/s, est. speed input: 6719.39 toks/s, output: 1239.60 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  98%|█████████▊| 250/256 [00:25<00:00, 101.28it/s, est. speed input: 6263.82 toks/s, output: 1508.95 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:25<00:00,  9.94it/s, est. speed input: 6334.95 toks/s, output: 1549.29 toks/s] 
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:01:25 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.33 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:01:25 [executor_base.py:208] It took 1.553422 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:01:29 [executor_base.py:219] It took 3.237195 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 1040x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 1040x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:03:08 [worker.py:133] Sleep mode freed 38.28 GiB memory, 21.52 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:03:08 [executor_base.py:208] It took 1.482692 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287378)[0m ele.get("min_pixels" 3136[32m [repeated 882x across cluster][0m
+[36m(ActorModelRayActor pid=287378)[0m ele.get("max_pixels" 1254400[32m [repeated 882x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  65%|██████▌   | 167/256 [00:24<00:00, 117.29it/s, est. speed input: 4720.58 toks/s, output: 946.23 toks/s]
+Processed prompts:  70%|███████   | 180/256 [00:24<00:00, 116.95it/s, est. speed input: 4940.05 toks/s, output: 1030.20 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  77%|███████▋  | 196/256 [00:25<00:00, 126.32it/s, est. speed input: 5246.37 toks/s, output: 1136.48 toks/s][32m [repeated 14x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:51,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:51,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<03:02,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<02:54,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<02:52,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:50,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:09<02:44,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:45,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:46,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:13<02:44,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:15<02:45,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:16<02:43,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:18<02:44,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:19<02:40,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:21<02:40,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:22<02:37,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:23<02:22,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:24<02:10,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:25<02:06,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:26<02:01,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:27<01:56,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:28<01:52,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:29<01:48,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:30<01:47,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:31<01:54,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:33<02:00,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:34<02:05,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:35<02:06,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:37<02:08,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:38<02:07,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:39<02:08,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:41<02:06,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:42<02:07,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:43<02:05,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:45<02:06,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:46<02:05,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:48<02:03,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:49<02:01,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:50<02:01,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:52<02:00,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:53<01:49,  1.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:54<01:41,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:55<01:34,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:56<01:29,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [00:57<01:27,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [00:58<01:24,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [00:59<01:22,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:00<01:20,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:01<01:26,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:02<01:31,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:04<01:33,  1.21s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:05<01:37,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:06<01:36,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:08<01:37,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:09<01:36,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:10<01:34,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:11<01:26,  1.23s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:12<01:19,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:13<01:14,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:14<01:11,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:15<01:08,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:16<01:07,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:17<01:05,  1.00s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:18<01:03,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:19<01:09,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:21<01:12,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:22<01:15,  1.23s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:24<01:16,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:25<01:16,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:26<01:16,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:28<01:16,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:29<01:15,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:30<01:09,  1.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:31<01:05,  1.21s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:32<01:01,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:33<00:58,  1.13s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:34<00:57,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:35<00:55,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:36<00:52,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:38<00:52,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:39<00:53,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:40<00:55,  1.21s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:41<00:55,  1.23s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:43<00:55,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:44<00:55,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:45<00:53,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:47<00:53,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:48<00:54,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [01:50<00:52,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [01:51<00:50,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [01:52<00:48,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [01:53<00:47,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [01:55<00:45,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [01:56<00:44,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [01:57<00:44,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [01:59<00:42,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:00<00:39,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:01<00:35,  1.19s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:02<00:33,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:03<00:31,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:04<00:29,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:05<00:27,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:06<00:26,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:07<00:24,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:08<00:25,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:10<00:26,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:11<00:26,  1.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:13<00:25,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:14<00:24,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:15<00:23,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:17<00:22,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:18<00:21,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:20<00:21,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:23<00:28,  2.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:25<00:24,  1.89s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:27<00:25,  2.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:30<00:24,  2.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:31<00:20,  2.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:33<00:16,  1.86s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:34<00:14,  1.79s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:36<00:11,  1.64s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:37<00:09,  1.60s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:39<00:07,  1.58s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:40<00:06,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:42<00:04,  1.55s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:43<00:03,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:45<00:01,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:46<00:00,  1.50s/it][A
+make_experience: 100%|██████████| 128/128 [02:46<00:00,  1.30s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nWhat is your overall rating of this image’s techniqual quality? Provide a float between 0 and 5, rounded to two decimal places. A rating of 0 represents very poor quality, while 5 represents excellent quality.\nassistant\n<think>The image appears to be clear and well-lit, with no apparent noise or blurring. The lighting is consistent, and the details of the objects in the room are visible. The colors are natural and true to life, suggesting that the image was taken with a camera capable of capturing good quality photographs. The composition is also well-balanced, with the main subject (the room) being the focus of the image. There are no signs of image manipulation or poor exposure.</think>\n<answer>4.38</answer>']
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:03:09 [worker.py:133] Sleep mode freed 38.18 GiB memory, 21.58 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:03:09 [executor_base.py:208] It took 1.802933 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("min_pixels" 3136[32m [repeated 118x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("max_pixels" 1254400[32m [repeated 118x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.11, rm=0.875, ret=-0.133, glen=161, tlen=744, kl=0.3, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:59,  2.83s/it, pg=0.11, rm=0.875, ret=-0.133, glen=161, tlen=744, kl=0.3, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:05<05:59,  2.83s/it, pg=-0.0479, rm=1, ret=0.0282, glen=146, tlen=789, kl=0.285, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:05<05:15,  2.50s/it, pg=-0.0479, rm=1, ret=0.0282, glen=146, tlen=789, kl=0.285, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<05:15,  2.50s/it, pg=0.0237, rm=0.812, ret=-0.0463, glen=164, tlen=694, kl=0.282, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<04:41,  2.25s/it, pg=0.0237, rm=0.812, ret=-0.0463, glen=164, tlen=694, kl=0.282, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<04:41,  2.25s/it, pg=0.0937, rm=1.06, ret=-0.114, glen=161, tlen=689, kl=0.278, act_lr=9.45e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:27,  2.16s/it, pg=0.0937, rm=1.06, ret=-0.114, glen=161, tlen=689, kl=0.278, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:10<04:27,  2.16s/it, pg=-0.211, rm=0.875, ret=0.191, glen=163, tlen=692, kl=0.264, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:10<04:10,  2.04s/it, pg=-0.211, rm=0.875, ret=0.191, glen=163, tlen=692, kl=0.264, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:10,  2.04s/it, pg=-0.294, rm=1.06, ret=0.274, glen=149, tlen=787, kl=0.286, act_lr=9.45e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:16,  2.10s/it, pg=-0.294, rm=1.06, ret=0.274, glen=149, tlen=787, kl=0.286, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:16,  2.10s/it, pg=0.195, rm=0.875, ret=-0.214, glen=153, tlen=884, kl=0.275, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:08,  2.05s/it, pg=0.195, rm=0.875, ret=-0.214, glen=153, tlen=884, kl=0.275, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:24<04:08,  2.05s/it, pg=0.0394, rm=0.812, ret=-0.0603, glen=155, tlen=684, kl=0.288, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:24<09:02,  4.52s/it, pg=0.0394, rm=0.812, ret=-0.0603, glen=155, tlen=684, kl=0.288, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:26<09:02,  4.52s/it, pg=-0.00351, rm=0.938, ret=-0.0165, glen=155, tlen=874, kl=0.294, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:26<07:24,  3.73s/it, pg=-0.00351, rm=0.938, ret=-0.0165, glen=155, tlen=874, kl=0.294, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:28<07:24,  3.73s/it, pg=-0.107, rm=1, ret=0.0835, glen=158, tlen=868, kl=0.307, act_lr=9.45e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:28<06:12,  3.15s/it, pg=-0.107, rm=1, ret=0.0835, glen=158, tlen=868, kl=0.307, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:30<06:12,  3.15s/it, pg=0.0798, rm=0.688, ret=-0.1, glen=161, tlen=1033.25, kl=0.262, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:30<05:30,  2.82s/it, pg=0.0798, rm=0.688, ret=-0.1, glen=161, tlen=1033.25, kl=0.262, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:33<05:30,  2.82s/it, pg=-0.0941, rm=1.06, ret=0.0731, glen=155, tlen=822, kl=0.296, act_lr=9.45e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:33<05:21,  2.77s/it, pg=-0.0941, rm=1.06, ret=0.0731, glen=155, tlen=822, kl=0.296, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:35<05:21,  2.77s/it, pg=0.0586, rm=0.812, ret=-0.0793, glen=157, tlen=748, kl=0.283, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:35<04:48,  2.51s/it, pg=0.0586, rm=0.812, ret=-0.0793, glen=157, tlen=748, kl=0.283, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:37<04:48,  2.51s/it, pg=0.176, rm=0.688, ret=-0.197, glen=158, tlen=672, kl=0.3, act_lr=9.45e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:37<04:21,  2.30s/it, pg=0.176, rm=0.688, ret=-0.197, glen=158, tlen=672, kl=0.3, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:39<04:21,  2.30s/it, pg=-0.107, rm=0.688, ret=0.0877, glen=153, tlen=881, kl=0.274, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:39<04:13,  2.24s/it, pg=-0.107, rm=0.688, ret=0.0877, glen=153, tlen=881, kl=0.274, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:48<04:13,  2.24s/it, pg=-0.061, rm=0.812, ret=0.0372, glen=170, tlen=777, kl=0.309, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:48<08:16,  4.43s/it, pg=-0.061, rm=0.812, ret=0.0372, glen=170, tlen=777, kl=0.309, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:51<08:16,  4.43s/it, pg=-0.0408, rm=0.688, ret=0.0173, glen=162, tlen=943, kl=0.303, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:51<06:58,  3.77s/it, pg=-0.0408, rm=0.688, ret=0.0173, glen=162, tlen=943, kl=0.303, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<06:58,  3.77s/it, pg=0.0515, rm=0.75, ret=-0.071, glen=145, tlen=984, kl=0.291, act_lr=9.45e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:52<05:52,  3.21s/it, pg=0.0515, rm=0.75, ret=-0.071, glen=145, tlen=984, kl=0.291, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:55<05:52,  3.21s/it, pg=-0.0607, rm=1.12, ret=0.0398, glen=158, tlen=685, kl=0.29, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:55<05:16,  2.90s/it, pg=-0.0607, rm=1.12, ret=0.0398, glen=158, tlen=685, kl=0.29, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:57<05:16,  2.90s/it, pg=0.0857, rm=0.812, ret=-0.104, glen=152, tlen=1.07e+3, kl=0.263, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:57<04:46,  2.65s/it, pg=0.0857, rm=0.812, ret=-0.104, glen=152, tlen=1.07e+3, kl=0.263, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:59<04:46,  2.65s/it, pg=0.00375, rm=0.75, ret=-0.0262, glen=163, tlen=800, kl=0.301, act_lr=9.45e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [00:59<04:17,  2.41s/it, pg=0.00375, rm=0.75, ret=-0.0262, glen=163, tlen=800, kl=0.301, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:00<04:17,  2.41s/it, pg=0.224, rm=0.688, ret=-0.246, glen=165, tlen=772, kl=0.304, act_lr=9.45e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:00<03:57,  2.24s/it, pg=0.224, rm=0.688, ret=-0.246, glen=165, tlen=772, kl=0.304, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:03<03:57,  2.24s/it, pg=0.0917, rm=0.75, ret=-0.112, glen=146, tlen=778, kl=0.273, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:03<03:51,  2.20s/it, pg=0.0917, rm=0.75, ret=-0.112, glen=146, tlen=778, kl=0.273, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:12<03:51,  2.20s/it, pg=-0.0162, rm=1, ret=-0.00418, glen=157, tlen=627, kl=0.286, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:12<07:49,  4.52s/it, pg=-0.0162, rm=1, ret=-0.00418, glen=157, tlen=627, kl=0.286, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:14<07:49,  4.52s/it, pg=0.00151, rm=1, ret=-0.0205, glen=154, tlen=779, kl=0.272, act_lr=9.45e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:14<06:24,  3.73s/it, pg=0.00151, rm=1, ret=-0.0205, glen=154, tlen=779, kl=0.272, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:17<06:24,  3.73s/it, pg=-0.0182, rm=0.938, ret=-0.00201, glen=159, tlen=834, kl=0.27, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:17<05:33,  3.27s/it, pg=-0.0182, rm=0.938, ret=-0.00201, glen=159, tlen=834, kl=0.27, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:18<05:33,  3.27s/it, pg=0.0419, rm=0.938, ret=-0.0627, glen=151, tlen=803, kl=0.316, act_lr=9.45e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:18<04:46,  2.84s/it, pg=0.0419, rm=0.938, ret=-0.0627, glen=151, tlen=803, kl=0.316, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:21<04:46,  2.84s/it, pg=0.108, rm=1.12, ret=-0.129, glen=157, tlen=765, kl=0.313, act_lr=9.45e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:21<04:24,  2.65s/it, pg=0.108, rm=1.12, ret=-0.129, glen=157, tlen=765, kl=0.313, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:22<04:24,  2.65s/it, pg=0.22, rm=1, ret=-0.235, glen=158, tlen=718, kl=0.263, act_lr=9.45e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:22<03:57,  2.40s/it, pg=0.22, rm=1, ret=-0.235, glen=158, tlen=718, kl=0.263, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:25<03:57,  2.40s/it, pg=0.0449, rm=0.938, ret=-0.0643, glen=159, tlen=735, kl=0.268, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:25<03:49,  2.34s/it, pg=0.0449, rm=0.938, ret=-0.0643, glen=159, tlen=735, kl=0.268, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:26<03:49,  2.34s/it, pg=-0.138, rm=0.875, ret=0.116, glen=155, tlen=836, kl=0.275, act_lr=9.45e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:26<03:34,  2.21s/it, pg=-0.138, rm=0.875, ret=0.116, glen=155, tlen=836, kl=0.275, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:36<03:34,  2.21s/it, pg=0.00137, rm=0.938, ret=-0.0233, glen=163, tlen=879, kl=0.302, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:36<07:01,  4.39s/it, pg=0.00137, rm=0.938, ret=-0.0233, glen=163, tlen=879, kl=0.302, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:38<07:01,  4.39s/it, pg=0.00784, rm=0.875, ret=-0.0265, glen=151, tlen=890, kl=0.275, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:38<05:51,  3.70s/it, pg=0.00784, rm=0.875, ret=-0.0265, glen=151, tlen=890, kl=0.275, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:40<05:51,  3.70s/it, pg=0.131, rm=1, ret=-0.151, glen=164, tlen=697, kl=0.282, act_lr=9.45e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:40<04:46,  3.04s/it, pg=0.131, rm=1, ret=-0.151, glen=164, tlen=697, kl=0.282, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:42<04:46,  3.04s/it, pg=-0.136, rm=0.875, ret=0.115, glen=158, tlen=870, kl=0.275, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:42<04:29,  2.89s/it, pg=-0.136, rm=0.875, ret=0.115, glen=158, tlen=870, kl=0.275, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:44<04:29,  2.89s/it, pg=0.054, rm=0.812, ret=-0.0749, glen=166, tlen=739, kl=0.287, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:44<04:03,  2.65s/it, pg=0.054, rm=0.812, ret=-0.0749, glen=166, tlen=739, kl=0.287, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:46<04:03,  2.65s/it, pg=0.0268, rm=0.938, ret=-0.0478, glen=154, tlen=713, kl=0.297, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:46<03:43,  2.46s/it, pg=0.0268, rm=0.938, ret=-0.0478, glen=154, tlen=713, kl=0.297, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:48<03:43,  2.46s/it, pg=-0.165, rm=0.875, ret=0.144, glen=152, tlen=757, kl=0.297, act_lr=9.45e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:48<03:24,  2.27s/it, pg=-0.165, rm=0.875, ret=0.144, glen=152, tlen=757, kl=0.297, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:50<03:24,  2.27s/it, pg=-0.127, rm=0.938, ret=0.106, glen=145, tlen=867, kl=0.305, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:50<03:20,  2.25s/it, pg=-0.127, rm=0.938, ret=0.106, glen=145, tlen=867, kl=0.305, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:00<03:20,  2.25s/it, pg=0.0532, rm=0.812, ret=-0.0684, glen=142, tlen=826, kl=0.235, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:00<06:34,  4.49s/it, pg=0.0532, rm=0.812, ret=-0.0684, glen=142, tlen=826, kl=0.235, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:02<06:34,  4.49s/it, pg=0.0866, rm=0.625, ret=-0.111, glen=176, tlen=682, kl=0.3, act_lr=9.45e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:02<05:26,  3.76s/it, pg=0.0866, rm=0.625, ret=-0.111, glen=176, tlen=682, kl=0.3, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:04<05:26,  3.76s/it, pg=0.192, rm=0.875, ret=-0.212, glen=164, tlen=800, kl=0.301, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:04<04:34,  3.19s/it, pg=0.192, rm=0.875, ret=-0.212, glen=164, tlen=800, kl=0.301, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:06<04:34,  3.19s/it, pg=0.214, rm=0.562, ret=-0.235, glen=150, tlen=1006.75, kl=0.286, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:06<04:02,  2.85s/it, pg=0.214, rm=0.562, ret=-0.235, glen=150, tlen=1006.75, kl=0.286, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:08<04:02,  2.85s/it, pg=0.0379, rm=0.875, ret=-0.0586, glen=176, tlen=839, kl=0.267, act_lr=9.45e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:08<03:36,  2.57s/it, pg=0.0379, rm=0.875, ret=-0.0586, glen=176, tlen=839, kl=0.267, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:10<03:36,  2.57s/it, pg=-0.139, rm=1, ret=0.114, glen=156, tlen=808, kl=0.318, act_lr=9.45e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:10<03:15,  2.35s/it, pg=-0.139, rm=1, ret=0.114, glen=156, tlen=808, kl=0.318, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:12<03:15,  2.35s/it, pg=0.312, rm=0.75, ret=-0.334, glen=172, tlen=763, kl=0.283, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:12<03:07,  2.28s/it, pg=0.312, rm=0.75, ret=-0.334, glen=172, tlen=763, kl=0.283, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:14<03:07,  2.28s/it, pg=0.166, rm=0.812, ret=-0.188, glen=154, tlen=650, kl=0.302, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:14<02:57,  2.19s/it, pg=0.166, rm=0.812, ret=-0.188, glen=154, tlen=650, kl=0.302, act_lr=9.45e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:24<02:57,  2.19s/it, pg=0.239, rm=0.75, ret=-0.257, glen=152, tlen=809, kl=0.252, act_lr=9.44e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:24<06:05,  4.57s/it, pg=0.239, rm=0.75, ret=-0.257, glen=152, tlen=809, kl=0.252, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:26<06:05,  4.57s/it, pg=-0.17, rm=0.812, ret=0.149, glen=164, tlen=828, kl=0.277, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:26<05:04,  3.85s/it, pg=-0.17, rm=0.812, ret=0.149, glen=164, tlen=828, kl=0.277, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:28<05:04,  3.85s/it, pg=0.142, rm=0.812, ret=-0.161, glen=160, tlen=896, kl=0.261, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:28<04:25,  3.40s/it, pg=0.142, rm=0.812, ret=-0.161, glen=160, tlen=896, kl=0.261, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:30<04:25,  3.40s/it, pg=0.245, rm=0.875, ret=-0.269, glen=163, tlen=808, kl=0.317, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:30<03:46,  2.94s/it, pg=0.245, rm=0.875, ret=-0.269, glen=163, tlen=808, kl=0.317, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:33<03:46,  2.94s/it, pg=0.127, rm=1, ret=-0.148, glen=152, tlen=936, kl=0.289, act_lr=9.44e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:33<03:28,  2.74s/it, pg=0.127, rm=1, ret=-0.148, glen=152, tlen=936, kl=0.289, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:35<03:28,  2.74s/it, pg=0.11, rm=0.812, ret=-0.134, glen=164, tlen=875, kl=0.313, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:35<03:13,  2.58s/it, pg=0.11, rm=0.812, ret=-0.134, glen=164, tlen=875, kl=0.313, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:37<03:13,  2.58s/it, pg=0.0663, rm=1.06, ret=-0.0858, glen=148, tlen=827, kl=0.299, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:37<02:54,  2.36s/it, pg=0.0663, rm=1.06, ret=-0.0858, glen=148, tlen=827, kl=0.299, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:39<02:54,  2.36s/it, pg=0.0377, rm=0.875, ret=-0.058, glen=154, tlen=818, kl=0.301, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:39<02:42,  2.23s/it, pg=0.0377, rm=0.875, ret=-0.058, glen=154, tlen=818, kl=0.301, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:48<02:42,  2.23s/it, pg=-0.0681, rm=0.812, ret=0.0494, glen=161, tlen=829, kl=0.265, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:48<05:16,  4.40s/it, pg=-0.0681, rm=0.812, ret=0.0494, glen=161, tlen=829, kl=0.265, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:50<05:16,  4.40s/it, pg=0.116, rm=0.812, ret=-0.138, glen=161, tlen=821, kl=0.277, act_lr=9.44e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:50<04:25,  3.74s/it, pg=0.116, rm=0.812, ret=-0.138, glen=161, tlen=821, kl=0.277, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:52<04:25,  3.74s/it, pg=-0.0857, rm=0.812, ret=0.0649, glen=158, tlen=672, kl=0.294, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:52<03:40,  3.16s/it, pg=-0.0857, rm=0.812, ret=0.0649, glen=158, tlen=672, kl=0.294, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:54<03:40,  3.16s/it, pg=0.167, rm=0.812, ret=-0.184, glen=148, tlen=949, kl=0.286, act_lr=9.44e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:54<03:22,  2.93s/it, pg=0.167, rm=0.812, ret=-0.184, glen=148, tlen=949, kl=0.286, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:57<03:22,  2.93s/it, pg=-0.0192, rm=0.875, ret=-0.00268, glen=160, tlen=816, kl=0.284, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:57<03:02,  2.69s/it, pg=-0.0192, rm=0.875, ret=-0.00268, glen=160, tlen=816, kl=0.284, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:59<03:02,  2.69s/it, pg=0.0819, rm=0.688, ret=-0.106, glen=161, tlen=940, kl=0.299, act_lr=9.44e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:59<02:53,  2.58s/it, pg=0.0819, rm=0.688, ret=-0.106, glen=161, tlen=940, kl=0.299, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:01<02:53,  2.58s/it, pg=0.148, rm=0.812, ret=-0.168, glen=147, tlen=794, kl=0.31, act_lr=9.44e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:01<02:36,  2.38s/it, pg=0.148, rm=0.812, ret=-0.168, glen=147, tlen=794, kl=0.31, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:03<02:36,  2.38s/it, pg=0.0685, rm=0.688, ret=-0.0895, glen=164, tlen=637, kl=0.273, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:03<02:22,  2.18s/it, pg=0.0685, rm=0.688, ret=-0.0895, glen=164, tlen=637, kl=0.273, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:12<02:22,  2.18s/it, pg=0.0293, rm=0.875, ret=-0.0516, glen=160, tlen=811, kl=0.286, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:12<04:38,  4.35s/it, pg=0.0293, rm=0.875, ret=-0.0516, glen=160, tlen=811, kl=0.286, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:15<04:38,  4.35s/it, pg=0.0699, rm=0.75, ret=-0.0872, glen=148, tlen=864, kl=0.266, act_lr=9.44e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:15<04:03,  3.86s/it, pg=0.0699, rm=0.75, ret=-0.0872, glen=148, tlen=864, kl=0.266, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:17<04:03,  3.86s/it, pg=-0.0139, rm=0.75, ret=-0.00609, glen=164, tlen=872, kl=0.297, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:17<03:26,  3.32s/it, pg=-0.0139, rm=0.75, ret=-0.00609, glen=164, tlen=872, kl=0.297, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:18<03:26,  3.32s/it, pg=-0.00178, rm=0.938, ret=-0.0181, glen=159, tlen=663, kl=0.285, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:18<02:49,  2.77s/it, pg=-0.00178, rm=0.938, ret=-0.0181, glen=159, tlen=663, kl=0.285, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:20<02:49,  2.77s/it, pg=-0.16, rm=0.938, ret=0.139, glen=154, tlen=966, kl=0.281, act_lr=9.44e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:20<02:35,  2.59s/it, pg=-0.16, rm=0.938, ret=0.139, glen=154, tlen=966, kl=0.281, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:22<02:35,  2.59s/it, pg=0.0366, rm=0.75, ret=-0.055, glen=150, tlen=1.08e+3, kl=0.254, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:22<02:24,  2.44s/it, pg=0.0366, rm=0.75, ret=-0.055, glen=150, tlen=1.08e+3, kl=0.254, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:24<02:24,  2.44s/it, pg=-0.0464, rm=0.688, ret=0.0278, glen=147, tlen=928, kl=0.263, act_lr=9.44e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:24<02:12,  2.28s/it, pg=-0.0464, rm=0.688, ret=0.0278, glen=147, tlen=928, kl=0.263, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:27<02:12,  2.28s/it, pg=0.0659, rm=0.938, ret=-0.0854, glen=153, tlen=880, kl=0.274, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:27<02:13,  2.34s/it, pg=0.0659, rm=0.938, ret=-0.0854, glen=153, tlen=880, kl=0.274, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:37<02:13,  2.34s/it, pg=0.108, rm=0.688, ret=-0.126, glen=159, tlen=731, kl=0.256, act_lr=9.44e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:37<04:16,  4.59s/it, pg=0.108, rm=0.688, ret=-0.126, glen=159, tlen=731, kl=0.256, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:39<04:16,  4.59s/it, pg=-0.0671, rm=0.875, ret=0.0497, glen=166, tlen=894, kl=0.261, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:39<03:38,  3.98s/it, pg=-0.0671, rm=0.875, ret=0.0497, glen=166, tlen=894, kl=0.261, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:42<03:38,  3.98s/it, pg=0.0935, rm=0.688, ret=-0.112, glen=158, tlen=1.07e+3, kl=0.271, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:42<03:07,  3.47s/it, pg=0.0935, rm=0.688, ret=-0.112, glen=158, tlen=1.07e+3, kl=0.271, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:43<03:07,  3.47s/it, pg=0.042, rm=0.812, ret=-0.0634, glen=163, tlen=600, kl=0.293, act_lr=9.44e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:43<02:31,  2.85s/it, pg=0.042, rm=0.812, ret=-0.0634, glen=163, tlen=600, kl=0.293, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:45<02:31,  2.85s/it, pg=-0.0423, rm=0.75, ret=0.0207, glen=155, tlen=934, kl=0.3, act_lr=9.44e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:45<02:16,  2.63s/it, pg=-0.0423, rm=0.75, ret=0.0207, glen=155, tlen=934, kl=0.3, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:47<02:16,  2.63s/it, pg=0.0877, rm=0.938, ret=-0.11, glen=169, tlen=811, kl=0.29, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:47<02:02,  2.41s/it, pg=0.0877, rm=0.938, ret=-0.11, glen=169, tlen=811, kl=0.29, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:49<02:02,  2.41s/it, pg=-0.0473, rm=0.688, ret=0.029, glen=149, tlen=1e+3, kl=0.269, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:49<01:54,  2.29s/it, pg=-0.0473, rm=0.688, ret=0.029, glen=149, tlen=1e+3, kl=0.269, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:51<01:54,  2.29s/it, pg=0.261, rm=0.875, ret=-0.281, glen=145, tlen=938, kl=0.28, act_lr=9.44e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:51<01:52,  2.30s/it, pg=0.261, rm=0.875, ret=-0.281, glen=145, tlen=938, kl=0.28, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:01<01:52,  2.30s/it, pg=-0.000527, rm=0.875, ret=-0.0204, glen=154, tlen=738, kl=0.296, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:01<03:33,  4.46s/it, pg=-0.000527, rm=0.875, ret=-0.0204, glen=154, tlen=738, kl=0.296, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:03<03:33,  4.46s/it, pg=-0.14, rm=0.875, ret=0.12, glen=158, tlen=773, kl=0.28, act_lr=9.44e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:03<02:56,  3.75s/it, pg=-0.14, rm=0.875, ret=0.12, glen=158, tlen=773, kl=0.28, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:05<02:56,  3.75s/it, pg=-0.138, rm=0.875, ret=0.118, glen=171, tlen=786, kl=0.269, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:05<02:25,  3.17s/it, pg=-0.138, rm=0.875, ret=0.118, glen=171, tlen=786, kl=0.269, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:07<02:25,  3.17s/it, pg=-0.0699, rm=0.812, ret=0.0458, glen=168, tlen=639, kl=0.298, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:07<02:06,  2.81s/it, pg=-0.0699, rm=0.812, ret=0.0458, glen=168, tlen=639, kl=0.298, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:09<02:06,  2.81s/it, pg=-0.121, rm=1.12, ret=0.0995, glen=161, tlen=795, kl=0.301, act_lr=9.44e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:09<01:55,  2.63s/it, pg=-0.121, rm=1.12, ret=0.0995, glen=161, tlen=795, kl=0.301, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:11<01:55,  2.63s/it, pg=0.0116, rm=0.812, ret=-0.0332, glen=157, tlen=775, kl=0.286, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:11<01:42,  2.39s/it, pg=0.0116, rm=0.812, ret=-0.0332, glen=157, tlen=775, kl=0.286, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:13<01:42,  2.39s/it, pg=0.0625, rm=0.875, ret=-0.0875, glen=174, tlen=674, kl=0.323, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:13<01:35,  2.26s/it, pg=0.0625, rm=0.875, ret=-0.0875, glen=174, tlen=674, kl=0.323, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:15<01:35,  2.26s/it, pg=0.00465, rm=0.688, ret=-0.0247, glen=161, tlen=889, kl=0.274, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:15<01:27,  2.14s/it, pg=0.00465, rm=0.688, ret=-0.0247, glen=161, tlen=889, kl=0.274, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:24<01:27,  2.14s/it, pg=-0.185, rm=1.06, ret=0.164, glen=146, tlen=786, kl=0.333, act_lr=9.44e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:24<02:56,  4.42s/it, pg=-0.185, rm=1.06, ret=0.164, glen=146, tlen=786, kl=0.333, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:26<02:56,  4.42s/it, pg=-0.108, rm=0.938, ret=0.0859, glen=165, tlen=809, kl=0.294, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:26<02:22,  3.66s/it, pg=-0.108, rm=0.938, ret=0.0859, glen=165, tlen=809, kl=0.294, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:28<02:22,  3.66s/it, pg=0.221, rm=0.875, ret=-0.24, glen=152, tlen=945, kl=0.281, act_lr=9.44e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:28<02:03,  3.26s/it, pg=0.221, rm=0.875, ret=-0.24, glen=152, tlen=945, kl=0.281, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:30<02:03,  3.26s/it, pg=0.0721, rm=0.75, ret=-0.0929, glen=165, tlen=881, kl=0.273, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:30<01:44,  2.83s/it, pg=0.0721, rm=0.75, ret=-0.0929, glen=165, tlen=881, kl=0.273, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:32<01:44,  2.83s/it, pg=-0.0629, rm=1.12, ret=0.0438, glen=159, tlen=687, kl=0.263, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:32<01:31,  2.53s/it, pg=-0.0629, rm=1.12, ret=0.0438, glen=159, tlen=687, kl=0.263, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:34<01:31,  2.53s/it, pg=-0.121, rm=1, ret=0.0973, glen=179, tlen=961, kl=0.302, act_lr=9.44e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:34<01:26,  2.47s/it, pg=-0.121, rm=1, ret=0.0973, glen=179, tlen=961, kl=0.302, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:37<01:26,  2.47s/it, pg=-0.0335, rm=1, ret=0.0119, glen=157, tlen=711, kl=0.295, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:37<01:20,  2.36s/it, pg=-0.0335, rm=1, ret=0.0119, glen=157, tlen=711, kl=0.295, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:39<01:20,  2.36s/it, pg=-0.105, rm=0.938, ret=0.0843, glen=155, tlen=957, kl=0.283, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:39<01:15,  2.28s/it, pg=-0.105, rm=0.938, ret=0.0843, glen=155, tlen=957, kl=0.283, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:49<01:15,  2.28s/it, pg=-0.0565, rm=1, ret=0.0372, glen=143, tlen=870, kl=0.289, act_lr=9.44e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:49<02:25,  4.56s/it, pg=-0.0565, rm=1, ret=0.0372, glen=143, tlen=870, kl=0.289, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:51<02:25,  4.56s/it, pg=0.0961, rm=0.688, ret=-0.116, glen=170, tlen=1.09e+3, kl=0.274, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:51<02:00,  3.89s/it, pg=0.0961, rm=0.688, ret=-0.116, glen=170, tlen=1.09e+3, kl=0.274, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:53<02:00,  3.89s/it, pg=0.000183, rm=0.625, ret=-0.0213, glen=159, tlen=767, kl=0.292, act_lr=9.44e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:53<01:38,  3.27s/it, pg=0.000183, rm=0.625, ret=-0.0213, glen=159, tlen=767, kl=0.292, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:55<01:38,  3.27s/it, pg=-0.0178, rm=0.938, ret=-0.00555, glen=168, tlen=747, kl=0.275, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:55<01:24,  2.91s/it, pg=-0.0178, rm=0.938, ret=-0.00555, glen=168, tlen=747, kl=0.275, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:57<01:24,  2.91s/it, pg=-0.01, rm=0.938, ret=-0.0101, glen=147, tlen=885, kl=0.29, act_lr=9.44e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:57<01:15,  2.68s/it, pg=-0.01, rm=0.938, ret=-0.0101, glen=147, tlen=885, kl=0.29, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:59<01:15,  2.68s/it, pg=-0.062, rm=1.06, ret=0.0418, glen=150, tlen=790, kl=0.306, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:59<01:06,  2.48s/it, pg=-0.062, rm=1.06, ret=0.0418, glen=150, tlen=790, kl=0.306, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:01<01:06,  2.48s/it, pg=-0.026, rm=0.75, ret=0.00857, glen=154, tlen=999, kl=0.273, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:01<01:00,  2.32s/it, pg=-0.026, rm=0.75, ret=0.00857, glen=154, tlen=999, kl=0.273, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:03<01:00,  2.32s/it, pg=0.149, rm=0.875, ret=-0.169, glen=164, tlen=879, kl=0.297, act_lr=9.44e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:03<00:55,  2.20s/it, pg=0.149, rm=0.875, ret=-0.169, glen=164, tlen=879, kl=0.297, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:13<00:55,  2.20s/it, pg=-0.123, rm=0.875, ret=0.104, glen=161, tlen=817, kl=0.309, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:13<01:51,  4.65s/it, pg=-0.123, rm=0.875, ret=0.104, glen=161, tlen=817, kl=0.309, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:15<01:51,  4.65s/it, pg=0.238, rm=0.875, ret=-0.26, glen=163, tlen=709, kl=0.319, act_lr=9.44e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:15<01:29,  3.88s/it, pg=0.238, rm=0.875, ret=-0.26, glen=163, tlen=709, kl=0.319, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:17<01:29,  3.88s/it, pg=0.0727, rm=0.812, ret=-0.0931, glen=156, tlen=733, kl=0.315, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:17<01:11,  3.25s/it, pg=0.0727, rm=0.812, ret=-0.0931, glen=156, tlen=733, kl=0.315, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:19<01:11,  3.25s/it, pg=0.0577, rm=0.875, ret=-0.0809, glen=165, tlen=770, kl=0.315, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:19<01:01,  2.91s/it, pg=0.0577, rm=0.875, ret=-0.0809, glen=165, tlen=770, kl=0.315, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:21<01:01,  2.91s/it, pg=0.07, rm=0.688, ret=-0.0934, glen=156, tlen=629, kl=0.313, act_lr=9.44e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:21<00:51,  2.59s/it, pg=0.07, rm=0.688, ret=-0.0934, glen=156, tlen=629, kl=0.313, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:23<00:51,  2.59s/it, pg=-0.124, rm=0.938, ret=0.104, glen=148, tlen=796, kl=0.295, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:23<00:45,  2.41s/it, pg=-0.124, rm=0.938, ret=0.104, glen=148, tlen=796, kl=0.295, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:25<00:45,  2.41s/it, pg=0.236, rm=0.625, ret=-0.256, glen=158, tlen=730, kl=0.291, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:25<00:40,  2.23s/it, pg=0.236, rm=0.625, ret=-0.256, glen=158, tlen=730, kl=0.291, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:27<00:40,  2.23s/it, pg=0.145, rm=0.688, ret=-0.169, glen=170, tlen=807, kl=0.305, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:27<00:37,  2.19s/it, pg=0.145, rm=0.688, ret=-0.169, glen=170, tlen=807, kl=0.305, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:36<00:37,  2.19s/it, pg=0.0299, rm=0.875, ret=-0.0511, glen=163, tlen=814, kl=0.278, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:36<01:10,  4.42s/it, pg=0.0299, rm=0.875, ret=-0.0511, glen=163, tlen=814, kl=0.278, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:38<01:10,  4.42s/it, pg=0.0609, rm=1.06, ret=-0.0834, glen=166, tlen=782, kl=0.301, act_lr=9.44e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:38<00:54,  3.66s/it, pg=0.0609, rm=1.06, ret=-0.0834, glen=166, tlen=782, kl=0.301, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:40<00:54,  3.66s/it, pg=0.0601, rm=0.812, ret=-0.0817, glen=159, tlen=842, kl=0.295, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:40<00:44,  3.19s/it, pg=0.0601, rm=0.812, ret=-0.0817, glen=159, tlen=842, kl=0.295, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:42<00:44,  3.19s/it, pg=0.15, rm=0.812, ret=-0.172, glen=162, tlen=690, kl=0.29, act_lr=9.44e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:42<00:36,  2.77s/it, pg=0.15, rm=0.812, ret=-0.172, glen=162, tlen=690, kl=0.29, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:44<00:36,  2.77s/it, pg=-0.03, rm=0.75, ret=0.0107, glen=155, tlen=727, kl=0.281, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:44<00:30,  2.58s/it, pg=-0.03, rm=0.75, ret=0.0107, glen=155, tlen=727, kl=0.281, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:46<00:30,  2.58s/it, pg=-0.102, rm=0.875, ret=0.086, glen=142, tlen=1061.0, kl=0.298, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████���███▏| 117/128 [05:46<00:26,  2.42s/it, pg=-0.102, rm=0.875, ret=0.086, glen=142, tlen=1061.0, kl=0.298, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:48<00:26,  2.42s/it, pg=0.0591, rm=0.875, ret=-0.0745, glen=148, tlen=812, kl=0.259, act_lr=9.44e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:48<00:22,  2.26s/it, pg=0.0591, rm=0.875, ret=-0.0745, glen=148, tlen=812, kl=0.259, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:50<00:22,  2.26s/it, pg=0.131, rm=0.875, ret=-0.152, glen=156, tlen=894, kl=0.285, act_lr=9.44e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:50<00:19,  2.20s/it, pg=0.131, rm=0.875, ret=-0.152, glen=156, tlen=894, kl=0.285, act_lr=9.44e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:00<00:19,  2.20s/it, pg=-0.0572, rm=1.06, ret=0.0356, glen=158, tlen=798, kl=0.329, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:00<00:35,  4.41s/it, pg=-0.0572, rm=1.06, ret=0.0356, glen=158, tlen=798, kl=0.329, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:02<00:35,  4.41s/it, pg=0.0867, rm=0.75, ret=-0.108, glen=154, tlen=690, kl=0.31, act_lr=9.43e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:02<00:25,  3.64s/it, pg=0.0867, rm=0.75, ret=-0.108, glen=154, tlen=690, kl=0.31, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:03<00:25,  3.64s/it, pg=0.0538, rm=0.75, ret=-0.0749, glen=159, tlen=630, kl=0.288, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:03<00:17,  2.99s/it, pg=0.0538, rm=0.75, ret=-0.0749, glen=159, tlen=630, kl=0.288, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:05<00:17,  2.99s/it, pg=-0.0382, rm=0.875, ret=0.0188, glen=151, tlen=1.07e+3, kl=0.28, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:05<00:13,  2.76s/it, pg=-0.0382, rm=0.875, ret=0.0188, glen=151, tlen=1.07e+3, kl=0.28, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:08<00:13,  2.76s/it, pg=0.127, rm=0.812, ret=-0.148, glen=157, tlen=817, kl=0.287, act_lr=9.43e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:08<00:10,  2.64s/it, pg=0.127, rm=0.812, ret=-0.148, glen=157, tlen=817, kl=0.287, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:10<00:10,  2.64s/it, pg=0.0781, rm=0.938, ret=-0.101, glen=163, tlen=874, kl=0.307, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:10<00:07,  2.41s/it, pg=0.0781, rm=0.938, ret=-0.101, glen=163, tlen=874, kl=0.307, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:12<00:07,  2.41s/it, pg=-0.138, rm=1.06, ret=0.117, glen=171, tlen=776, kl=0.278, act_lr=9.43e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:12<00:04,  2.24s/it, pg=-0.138, rm=1.06, ret=0.117, glen=171, tlen=776, kl=0.278, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:14<00:04,  2.24s/it, pg=-0.0141, rm=0.938, ret=-0.00788, glen=164, tlen=743, kl=0.278, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:14<00:02,  2.18s/it, pg=-0.0141, rm=0.938, ret=-0.00788, glen=164, tlen=743, kl=0.278, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:23<00:02,  2.18s/it, pg=0.00458, rm=1.06, ret=-0.0283, glen=169, tlen=702, kl=0.317, act_lr=9.43e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:23<00:00,  4.30s/it, pg=0.00458, rm=1.06, ret=-0.0283, glen=169, tlen=702, kl=0.317, act_lr=9.43e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:23<00:00,  2.99s/it, pg=0.00458, rm=1.06, ret=-0.0283, glen=169, tlen=702, kl=0.317, act_lr=9.43e-7]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:12:29 [executor_base.py:219] It took 1.537285 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 13:12:30 [executor_base.py:219] It took 3.249734 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3292x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.11.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 843x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.20.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 943x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:12:52 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:12:52 [executor_base.py:208] It took 1.432669 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 695x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   7%|▋         | 9/127 [1:59:34<23:24:41, 714.25s/it, policy_loss=0.0248, actor_lr=9.44e-7, kl=0.288, reward=0.862, response_length=158, total_length=816, acc_rewards=0.362, format_rewards=0.5, return=-0.0455]
+[36m(ActorModelRayActor pid=286523)[0m Deleted oldest ckpt /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step60
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 13:12:55,688] [INFO] [logging.py:128:log_dist] [Rank 0] [Torch] Checkpoint global_step70 is about to be saved!
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 13:12:55,704] [INFO] [logging.py:128:log_dist] [Rank 0] Saving model checkpoint: /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step70/zero_pp_rank_0_mp_rank_00_model_states.pt
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 13:12:55,704] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step70/zero_pp_rank_0_mp_rank_00_model_states.pt...
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 13:12:55,776] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step70/zero_pp_rank_0_mp_rank_00_model_states.pt.
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 13:12:55,779] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step70/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 13:13:33,248] [INFO] [engine.py:3645:_save_zero_checkpoint] zero checkpoint saved /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step70/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:12:52 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.33 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:12:52 [executor_base.py:208] It took 1.624764 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287375)[0m [2025-05-28 13:12:55,702] [INFO] [logging.py:128:log_dist] [Rank 1] Saving model checkpoint: /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step70/zero_pp_rank_1_mp_rank_00_model_states.pt
+[36m(ActorModelRayActor pid=287374)[0m [2025-05-28 13:12:55,779] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step70/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt...[32m [repeated 14x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 13:13:33,238] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step70/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.[32m [repeated 8x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 13:13:37,659] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step70 is ready now!
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   8%|▊         | 10/127 [2:01:24<24:02:06, 739.54s/it, policy_loss=0.0248, actor_lr=9.44e-7, kl=0.288, reward=0.862, response_length=158, total_length=816, acc_rewards=0.362, format_rewards=0.5, return=-0.0455]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:14:43 [executor_base.py:219] It took 1.400717 seconds to wake up.
+[36m(ActorModelRayActor pid=287372)[0m [2025-05-28 13:13:37,638] [INFO] [engine.py:3645:_save_zero_checkpoint] zero checkpoint saved /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step70/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m [2025-05-28 13:13:37,638] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step70/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m [2025-05-28 13:13:37,658] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step70 is ready now![32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   0%|          | 1/256 [00:20<1:25:20, 20.08s/it, est. speed input: 25.75 toks/s, output: 4.23 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   1%|          | 2/256 [00:20<35:58,  8.50s/it, est. speed input: 50.52 toks/s, output: 8.75 toks/s]  
+Processed prompts:   1%|          | 3/256 [00:20<19:43,  4.68s/it, est. speed input: 74.28 toks/s, output: 13.40 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   2%|▏         | 6/256 [00:20<06:49,  1.64s/it, est. speed input: 146.70 toks/s, output: 27.57 toks/s]
+Processed prompts:   4%|▍         | 11/256 [00:20<02:39,  1.53it/s, est. speed input: 316.21 toks/s, output: 52.37 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   8%|▊         | 21/256 [00:21<00:58,  4.03it/s, est. speed input: 645.41 toks/s, output: 102.71 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  10%|▉         | 25/256 [00:21<00:44,  5.25it/s, est. speed input: 730.93 toks/s, output: 122.99 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  12%|█▏        | 31/256 [00:21<00:29,  7.75it/s, est. speed input: 955.51 toks/s, output: 154.43 toks/s]
+Processed prompts:  14%|█▍        | 36/256 [00:21<00:21, 10.23it/s, est. speed input: 1110.36 toks/s, output: 180.86 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  16%|█▌        | 41/256 [00:21<00:16, 13.23it/s, est. speed input: 1311.07 toks/s, output: 207.63 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  18%|█▊        | 45/256 [00:21<00:13, 15.62it/s, est. speed input: 1380.70 toks/s, output: 229.24 toks/s]
+Processed prompts:  19%|█▉        | 49/256 [00:21<00:11, 18.28it/s, est. speed input: 1508.06 toks/s, output: 251.12 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  23%|██▎       | 58/256 [00:22<00:07, 28.27it/s, est. speed input: 1725.54 toks/s, output: 302.52 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  26%|██▌       | 66/256 [00:22<00:05, 36.24it/s, est. speed input: 1934.42 toks/s, output: 348.80 toks/s]
+Processed prompts:  29%|██▊       | 73/256 [00:22<00:04, 41.80it/s, est. speed input: 2115.64 toks/s, output: 389.75 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  33%|███▎      | 84/256 [00:22<00:03, 55.51it/s, est. speed input: 2419.98 toks/s, output: 455.90 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  37%|███▋      | 95/256 [00:22<00:02, 67.33it/s, est. speed input: 2826.93 toks/s, output: 523.11 toks/s]
+Processed prompts:  43%|████▎     | 110/256 [00:22<00:01, 87.46it/s, est. speed input: 3269.91 toks/s, output: 616.75 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  50%|█████     | 129/256 [00:22<00:01, 100.48it/s, est. speed input: 3714.69 toks/s, output: 736.45 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  57%|█████▋    | 145/256 [00:22<00:00, 112.96it/s, est. speed input: 4077.25 toks/s, output: 839.91 toks/s]
+Processed prompts:  63%|██████▎   | 162/256 [00:22<00:00, 127.21it/s, est. speed input: 4489.40 toks/s, output: 952.61 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  72%|███████▏  | 185/256 [00:23<00:00, 147.85it/s, est. speed input: 5054.36 toks/s, output: 1108.90 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  79%|███████▊  | 201/256 [00:23<00:00, 148.28it/s, est. speed input: 5336.42 toks/s, output: 1219.45 toks/s]
+Processed prompts:  85%|████████▍ | 217/256 [00:23<00:00, 145.37it/s, est. speed input: 5735.95 toks/s, output: 1331.51 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  91%|█████████ | 232/256 [00:23<00:00, 140.74it/s, est. speed input: 6065.10 toks/s, output: 1439.55 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  96%|█████████▋| 247/256 [00:23<00:00, 105.38it/s, est. speed input: 6304.76 toks/s, output: 1545.49 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:24<00:00, 10.55it/s, est. speed input: 6327.81 toks/s, output: 1585.00 toks/s] 
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   1%|          | 2/256 [00:21<38:30,  9.10s/it, est. speed input: 140.05 toks/s, output: 8.75 toks/s] [32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   2%|▏         | 6/256 [00:22<08:49,  2.12s/it, est. speed input: 314.24 toks/s, output: 27.23 toks/s]
+Processed prompts:   4%|▍         | 10/256 [00:22<04:12,  1.03s/it, est. speed input: 589.47 toks/s, output: 46.08 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   7%|▋         | 17/256 [00:22<01:45,  2.26it/s, est. speed input: 1000.01 toks/s, output: 80.31 toks/s]
+Processed prompts:   8%|▊         | 20/256 [00:23<01:15,  3.11it/s, est. speed input: 1056.92 toks/s, output: 96.03 toks/s]
+Processed prompts:  10%|█         | 26/256 [00:23<00:41,  5.49it/s, est. speed input: 1283.19 toks/s, output: 128.31 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  17%|█▋        | 43/256 [00:23<00:13, 15.31it/s, est. speed input: 1696.55 toks/s, output: 221.78 toks/s]
+Processed prompts:  20%|█▉        | 51/256 [00:23<00:09, 22.29it/s, est. speed input: 1910.28 toks/s, output: 267.56 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  29%|██▉       | 74/256 [00:23<00:03, 47.62it/s, est. speed input: 2348.36 toks/s, output: 402.90 toks/s]
+Processed prompts:  32%|███▏      | 82/256 [00:23<00:03, 52.63it/s, est. speed input: 2543.26 toks/s, output: 450.26 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  92%|█████████▏| 235/256 [00:25<00:00, 110.03it/s, est. speed input: 5976.69 toks/s, output: 1433.83 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  97%|█████████▋| 248/256 [00:25<00:00, 92.30it/s, est. speed input: 6212.06 toks/s, output: 1525.81 toks/s] 
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  63%|██████▎   | 161/256 [00:27<00:00, 104.54it/s, est. speed input: 4626.16 toks/s, output: 767.34 toks/s][32m [repeated 28x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   4%|▎         | 9/256 [00:25<03:43,  1.10it/s, est. speed input: 459.21 toks/s, output: 32.07 toks/s]
+Processed prompts:   5%|▍         | 12/256 [00:25<02:05,  1.95it/s, est. speed input: 555.78 toks/s, output: 43.65 toks/s]
+Processed prompts:   7%|▋         | 18/256 [00:25<00:56,  4.24it/s, est. speed input: 869.49 toks/s, output: 67.58 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  71%|███████   | 181/256 [00:29<00:00, 110.93it/s, est. speed input: 5282.39 toks/s, output: 868.28 toks/s]
+Processed prompts:  78%|███████▊  | 199/256 [00:29<00:00, 126.68it/s, est. speed input: 5640.65 toks/s, output: 973.05 toks/s][32m [repeated 16x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  89%|████████▊ | 227/256 [00:29<00:00, 126.43it/s, est. speed input: 6158.44 toks/s, output: 1140.25 toks/s]
+Processed prompts:  94%|█████████▍| 241/256 [00:29<00:00, 122.63it/s, est. speed input: 6419.96 toks/s, output: 1227.00 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:30<00:00,  8.53it/s, est. speed input: 6619.27 toks/s, output: 1311.92 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  24%|██▍       | 62/256 [00:25<00:05, 36.07it/s, est. speed input: 1923.29 toks/s, output: 276.18 toks/s][32m [repeated 43x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  80%|███████▉  | 204/256 [00:27<00:00, 126.44it/s, est. speed input: 5233.19 toks/s, output: 1084.51 toks/s]
+Processed prompts:  86%|████████▌ | 219/256 [00:27<00:00, 131.67it/s, est. speed input: 5575.15 toks/s, output: 1181.87 toks/s][32m [repeated 21x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:28<00:00,  8.94it/s, est. speed input: 6159.54 toks/s, output: 1391.21 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  91%|█████████ | 233/256 [00:27<00:00, 126.85it/s, est. speed input: 5843.83 toks/s, output: 1274.47 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 1/256 [00:30<2:08:59, 30.35s/it, est. speed input: 16.34 toks/s, output: 2.80 toks/s]
+Processed prompts:   1%|          | 3/256 [00:30<33:23,  7.92s/it, est. speed input: 117.89 toks/s, output: 8.53 toks/s] 
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:30<16:26,  3.93s/it, est. speed input: 183.22 toks/s, output: 14.61 toks/s]
+Processed prompts:   3%|▎         | 7/256 [00:30<09:31,  2.29s/it, est. speed input: 282.63 toks/s, output: 20.85 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  11%|█         | 28/256 [00:32<00:33,  6.76it/s, est. speed input: 1117.51 toks/s, output: 91.06 toks/s]
+Processed prompts:  12%|█▏        | 31/256 [00:32<00:27,  8.27it/s, est. speed input: 1256.72 toks/s, output: 101.82 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  18%|█▊        | 47/256 [00:32<00:09, 21.12it/s, est. speed input: 1740.43 toks/s, output: 162.10 toks/s]
+Processed prompts:  20%|██        | 52/256 [00:32<00:08, 24.53it/s, est. speed input: 1940.24 toks/s, output: 181.44 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  35%|███▍      | 89/256 [00:33<00:02, 63.89it/s, est. speed input: 2940.37 toks/s, output: 332.44 toks/s]
+Processed prompts:  39%|███▊      | 99/256 [00:33<00:02, 70.48it/s, est. speed input: 3283.63 toks/s, output: 374.60 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  50%|████▉     | 127/256 [00:33<00:01, 90.84it/s, est. speed input: 3960.07 toks/s, output: 495.94 toks/s]
+Processed prompts:  57%|█████▋    | 147/256 [00:33<00:00, 112.18it/s, est. speed input: 4508.06 toks/s, output: 585.94 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  70%|██████▉   | 178/256 [00:33<00:00, 125.58it/s, est. speed input: 5161.44 toks/s, output: 729.17 toks/s]
+Processed prompts:  76%|███████▌  | 195/256 [00:34<00:00, 132.23it/s, est. speed input: 5503.14 toks/s, output: 810.46 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:14:45 [executor_base.py:219] It took 2.955960 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 844x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 844x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m  3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 725x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 725x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 13:16:40 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.84 GiB memory is still in use.
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 13:16:40 [executor_base.py:208] It took 1.449453 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287371)[0m ele.get("min_pixels" 3136[32m [repeated 468x across cluster][0m
+[36m(ActorModelRayActor pid=287371)[0m ele.get("max_pixels" 1254400[32m [repeated 468x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:35<00:00,  7.31it/s, est. speed input: 6616.22 toks/s, output: 1119.77 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  88%|████████▊ | 224/256 [00:34<00:00, 110.94it/s, est. speed input: 6025.31 toks/s, output: 952.71 toks/s][32m [repeated 13x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:43,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:47,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<02:49,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<02:50,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:06<02:51,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:46,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:09<02:46,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:10<02:45,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:11<02:31,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:13<02:21,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:13<02:10,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:14<02:06,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:15<02:00,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:16<01:58,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:17<01:54,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:19<01:57,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:20<02:07,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:21<02:12,  1.21s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:23<02:16,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:24<02:18,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:25<02:17,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:27<02:20,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:28<02:20,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:29<02:18,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:31<02:18,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:32<02:21,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:34<02:21,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:35<02:17,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:36<02:18,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:38<02:16,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:39<02:14,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:41<02:14,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:42<02:11,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:43<02:11,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:45<02:08,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:46<02:06,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:47<02:05,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:49<02:04,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:50<02:02,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:52<01:59,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:53<01:56,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:54<01:54,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:56<01:53,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:57<01:55,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [00:58<01:52,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:00<01:51,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:01<01:48,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:02<01:49,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:04<01:48,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:05<01:53,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:07<01:49,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:08<01:48,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:10<01:46,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:11<01:47,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:13<01:44,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:14<01:43,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:15<01:38,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:16<01:34,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:18<01:33,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:19<01:30,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:20<01:29,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:22<01:28,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:23<01:26,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:25<01:26,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:26<01:27,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:28<01:28,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:29<01:27,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:30<01:27,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:32<01:26,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:34<01:25,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:35<01:24,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:36<01:23,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:38<01:20,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:39<01:17,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:41<01:17,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:42<01:17,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:44<01:15,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:45<01:15,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:47<01:12,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:48<01:11,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:50<01:07,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:51<01:05,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:52<01:03,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:54<01:01,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:55<00:59,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:57<00:58,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:58<00:55,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:59<00:54,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:01<00:52,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:02<00:53,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:03<00:52,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:05<00:51,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:06<00:50,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:08<00:49,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:09<00:48,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:11<00:46,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:12<00:44,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:14<00:42,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:15<00:40,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:16<00:39,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:18<00:37,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:19<00:36,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:21<00:35,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:22<00:33,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:23<00:31,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:25<00:31,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:26<00:28,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:27<00:27,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:29<00:25,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:30<00:24,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:31<00:23,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:33<00:21,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:34<00:20,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:35<00:19,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:37<00:17,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:38<00:16,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:40<00:15,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:41<00:13,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:42<00:12,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:44<00:11,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:45<00:09,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:47<00:08,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:48<00:07,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:50<00:05,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:51<00:04,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:53<00:03,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:54<00:01,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:56<00:00,  1.49s/it][A
+make_experience: 100%|██████████| 128/128 [02:56<00:00,  1.38s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nAssess the image-prompt alignment: "compressed flowers, morphed earth, ridiculed bandages, changed eye color, subliminal time travel, impossible food, concept love, valued at 2 million yen, museum - quality oil painting, traditional art"\nPlease evaluate how well the image matches each element of provided prompt.\n\n And answer with the final alignment rating.\nRate it from 0 to 5 (float, 2 decimals). A rating of 0 represents very poor alignment level, while 5 represents excellent alignment level.\'\nassistant\n<think> The image depicts a vibrant and colorful floral arrangement with a whimsical, dreamlike quality. It does not resemble "compressed flowers" or "morphed earth." The "ridiculed bandages" and "changed eye color" are unrelated to the content of the image. The concept of "subliminal time travel" is not represented. The image does not feature any "impossible food." There is a "concept love" element if one interprets the floral arrangement as symbolizing love, but it is not explicitly stated. The valuation of "2 million yen" is also not indicated in the image. The image appears to be a traditional art piece, but it does not align with the other elements of the prompt.</think>\n<answer>1.00</answer>']
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:16:41 [worker.py:133] Sleep mode freed 38.28 GiB memory, 22.32 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:16:41 [executor_base.py:208] It took 1.724628 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287376)[0m ele.get("min_pixels" 3136[32m [repeated 6x across cluster][0m
+[36m(ActorModelRayActor pid=287376)[0m ele.get("max_pixels" 1254400[32m [repeated 6x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.0277, rm=0.938, ret=-0.0503, glen=165, tlen=812, kl=0.299, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<04:49,  2.28s/it, pg=0.0277, rm=0.938, ret=-0.0503, glen=165, tlen=812, kl=0.299, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:04<04:49,  2.28s/it, pg=0.262, rm=0.938, ret=-0.284, glen=154, tlen=973, kl=0.293, act_lr=9.43e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:04<04:57,  2.36s/it, pg=0.262, rm=0.938, ret=-0.284, glen=154, tlen=973, kl=0.293, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:06<04:57,  2.36s/it, pg=-0.0467, rm=1.06, ret=0.0274, glen=149, tlen=988, kl=0.277, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:06<04:35,  2.21s/it, pg=-0.0467, rm=1.06, ret=0.0274, glen=149, tlen=988, kl=0.277, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<04:35,  2.21s/it, pg=0.082, rm=0.812, ret=-0.1, glen=134, tlen=1071.25, kl=0.282, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:47,  2.31s/it, pg=0.082, rm=0.812, ret=-0.1, glen=134, tlen=1071.25, kl=0.282, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:10<04:47,  2.31s/it, pg=0.0838, rm=0.5, ret=-0.105, glen=155, tlen=706, kl=0.303, act_lr=9.43e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:10<04:20,  2.12s/it, pg=0.0838, rm=0.5, ret=-0.105, glen=155, tlen=706, kl=0.303, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:20,  2.12s/it, pg=0.19, rm=0.875, ret=-0.213, glen=169, tlen=910, kl=0.299, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:24,  2.17s/it, pg=0.19, rm=0.875, ret=-0.213, glen=169, tlen=910, kl=0.299, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:24,  2.17s/it, pg=0.00202, rm=1, ret=-0.022, glen=166, tlen=869, kl=0.263, act_lr=9.43e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:23,  2.18s/it, pg=0.00202, rm=1, ret=-0.022, glen=166, tlen=869, kl=0.263, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:25<04:23,  2.18s/it, pg=0.0475, rm=0.938, ret=-0.0685, glen=149, tlen=1.03e+3, kl=0.306, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:25<09:38,  4.82s/it, pg=0.0475, rm=0.938, ret=-0.0685, glen=149, tlen=1.03e+3, kl=0.306, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:28<09:38,  4.82s/it, pg=0.0503, rm=0.938, ret=-0.0692, glen=148, tlen=1.1e+3, kl=0.281, act_lr=9.43e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:28<08:04,  4.07s/it, pg=0.0503, rm=0.938, ret=-0.0692, glen=148, tlen=1.1e+3, kl=0.281, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:30<08:04,  4.07s/it, pg=-0.102, rm=0.75, ret=0.0815, glen=156, tlen=796, kl=0.285, act_lr=9.43e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:30<06:41,  3.40s/it, pg=-0.102, rm=0.75, ret=0.0815, glen=156, tlen=796, kl=0.285, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:32<06:41,  3.40s/it, pg=-0.00953, rm=1.12, ret=-0.0132, glen=177, tlen=794, kl=0.292, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:32<05:44,  2.95s/it, pg=-0.00953, rm=1.12, ret=-0.0132, glen=177, tlen=794, kl=0.292, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:34<05:44,  2.95s/it, pg=0.0255, rm=1.25, ret=-0.0463, glen=156, tlen=782, kl=0.297, act_lr=9.43e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:34<05:07,  2.65s/it, pg=0.0255, rm=1.25, ret=-0.0463, glen=156, tlen=782, kl=0.297, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:36<05:07,  2.65s/it, pg=-0.00256, rm=0.875, ret=-0.0177, glen=140, tlen=875, kl=0.29, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<04:49,  2.52s/it, pg=-0.00256, rm=0.875, ret=-0.0177, glen=140, tlen=875, kl=0.29, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:38<04:49,  2.52s/it, pg=-0.0353, rm=0.938, ret=0.0114, glen=152, tlen=902, kl=0.324, act_lr=9.43e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:24,  2.32s/it, pg=-0.0353, rm=0.938, ret=0.0114, glen=152, tlen=902, kl=0.324, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:40<04:24,  2.32s/it, pg=-0.012, rm=0.688, ret=-0.0066, glen=146, tlen=994, kl=0.274, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:40<04:08,  2.20s/it, pg=-0.012, rm=0.688, ret=-0.0066, glen=146, tlen=994, kl=0.274, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:50<04:08,  2.20s/it, pg=-0.136, rm=1.19, ret=0.114, glen=158, tlen=913, kl=0.298, act_lr=9.43e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:40,  4.64s/it, pg=-0.136, rm=1.19, ret=0.114, glen=158, tlen=913, kl=0.298, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:52<08:40,  4.64s/it, pg=-0.0629, rm=1.19, ret=0.043, glen=157, tlen=786, kl=0.271, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<07:15,  3.93s/it, pg=-0.0629, rm=1.19, ret=0.043, glen=157, tlen=786, kl=0.271, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:54<07:15,  3.93s/it, pg=-0.00443, rm=1.12, ret=-0.0186, glen=164, tlen=781, kl=0.303, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:54<06:17,  3.43s/it, pg=-0.00443, rm=1.12, ret=-0.0186, glen=164, tlen=781, kl=0.303, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:57<06:17,  3.43s/it, pg=-0.0236, rm=1.12, ret=0.000392, glen=156, tlen=841, kl=0.321, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:57<05:31,  3.05s/it, pg=-0.0236, rm=1.12, ret=0.000392, glen=156, tlen=841, kl=0.321, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:59<05:31,  3.05s/it, pg=-0.00539, rm=0.938, ret=-0.0162, glen=155, tlen=969, kl=0.29, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:59<05:08,  2.86s/it, pg=-0.00539, rm=0.938, ret=-0.0162, glen=155, tlen=969, kl=0.29, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:01<05:08,  2.86s/it, pg=0.0267, rm=0.938, ret=-0.0472, glen=161, tlen=779, kl=0.293, act_lr=9.43e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:01<04:33,  2.55s/it, pg=0.0267, rm=0.938, ret=-0.0472, glen=161, tlen=779, kl=0.293, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:03<04:33,  2.55s/it, pg=0.008, rm=0.75, ret=-0.03, glen=157, tlen=934, kl=0.304, act_lr=9.43e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:03<04:09,  2.36s/it, pg=0.008, rm=0.75, ret=-0.03, glen=157, tlen=934, kl=0.304, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:05<04:09,  2.36s/it, pg=0.17, rm=1, ret=-0.189, glen=160, tlen=952, kl=0.277, act_lr=9.43e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:05<04:07,  2.36s/it, pg=0.17, rm=1, ret=-0.189, glen=160, tlen=952, kl=0.277, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:15<04:07,  2.36s/it, pg=0.0491, rm=0.875, ret=-0.073, glen=160, tlen=1006.5, kl=0.311, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:15<07:56,  4.58s/it, pg=0.0491, rm=0.875, ret=-0.073, glen=160, tlen=1006.5, kl=0.311, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:18<07:56,  4.58s/it, pg=0.176, rm=0.875, ret=-0.195, glen=147, tlen=961, kl=0.279, act_lr=9.43e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:18<06:55,  4.03s/it, pg=0.176, rm=0.875, ret=-0.195, glen=147, tlen=961, kl=0.279, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:20<06:55,  4.03s/it, pg=0.00125, rm=1, ret=-0.0211, glen=154, tlen=827, kl=0.286, act_lr=9.43e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:20<05:51,  3.44s/it, pg=0.00125, rm=1, ret=-0.0211, glen=154, tlen=827, kl=0.286, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:22<05:51,  3.44s/it, pg=0.00265, rm=0.875, ret=-0.0246, glen=157, tlen=998, kl=0.284, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:22<05:14,  3.11s/it, pg=0.00265, rm=0.875, ret=-0.0246, glen=157, tlen=998, kl=0.284, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:24<05:14,  3.11s/it, pg=0.0249, rm=0.938, ret=-0.0448, glen=152, tlen=799, kl=0.289, act_lr=9.43e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:24<04:40,  2.81s/it, pg=0.0249, rm=0.938, ret=-0.0448, glen=152, tlen=799, kl=0.289, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:26<04:40,  2.81s/it, pg=0.0693, rm=0.875, ret=-0.0901, glen=149, tlen=905, kl=0.289, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:26<04:11,  2.54s/it, pg=0.0693, rm=0.875, ret=-0.0901, glen=149, tlen=905, kl=0.289, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:28<04:11,  2.54s/it, pg=-0.0204, rm=1, ret=0.000751, glen=151, tlen=860, kl=0.291, act_lr=9.43e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:28<04:01,  2.46s/it, pg=-0.0204, rm=1, ret=0.000751, glen=151, tlen=860, kl=0.291, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:31<04:01,  2.46s/it, pg=0.065, rm=1, ret=-0.0852, glen=162, tlen=931, kl=0.274, act_lr=9.43e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:31<03:50,  2.38s/it, pg=0.065, rm=1, ret=-0.0852, glen=162, tlen=931, kl=0.274, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:40<03:50,  2.38s/it, pg=0.0819, rm=1, ret=-0.106, glen=165, tlen=859, kl=0.316, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:40<07:25,  4.64s/it, pg=0.0819, rm=1, ret=-0.106, glen=165, tlen=859, kl=0.316, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:43<07:25,  4.64s/it, pg=-0.02, rm=1, ret=-0.000751, glen=160, tlen=840, kl=0.291, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:43<06:08,  3.87s/it, pg=-0.02, rm=1, ret=-0.000751, glen=160, tlen=840, kl=0.291, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:44<06:08,  3.87s/it, pg=-0.0198, rm=1.12, ret=-0.00209, glen=170, tlen=817, kl=0.275, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:44<05:07,  3.27s/it, pg=-0.0198, rm=1.12, ret=-0.00209, glen=170, tlen=817, kl=0.275, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:46<05:07,  3.27s/it, pg=0.00221, rm=1, ret=-0.0229, glen=156, tlen=830, kl=0.293, act_lr=9.43e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:46<04:30,  2.90s/it, pg=0.00221, rm=1, ret=-0.0229, glen=156, tlen=830, kl=0.293, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:49<04:30,  2.90s/it, pg=-0.132, rm=1.06, ret=0.111, glen=156, tlen=903, kl=0.27, act_lr=9.43e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:49<04:08,  2.70s/it, pg=-0.132, rm=1.06, ret=0.111, glen=156, tlen=903, kl=0.27, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:51<04:08,  2.70s/it, pg=0.016, rm=0.938, ret=-0.0349, glen=143, tlen=922, kl=0.285, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:51<03:43,  2.45s/it, pg=0.016, rm=0.938, ret=-0.0349, glen=143, tlen=922, kl=0.285, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:53<03:43,  2.45s/it, pg=0.0602, rm=0.812, ret=-0.0783, glen=149, tlen=969, kl=0.252, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:53<03:31,  2.35s/it, pg=0.0602, rm=0.812, ret=-0.0783, glen=149, tlen=969, kl=0.252, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:55<03:31,  2.35s/it, pg=0.0915, rm=1.19, ret=-0.112, glen=159, tlen=762, kl=0.285, act_lr=9.43e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:55<03:27,  2.33s/it, pg=0.0915, rm=1.19, ret=-0.112, glen=159, tlen=762, kl=0.285, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:04<03:27,  2.33s/it, pg=-0.034, rm=1.06, ret=0.0129, glen=157, tlen=938, kl=0.273, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:05<06:35,  4.49s/it, pg=-0.034, rm=1.06, ret=0.0129, glen=157, tlen=938, kl=0.273, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:07<06:35,  4.49s/it, pg=0.0783, rm=1.12, ret=-0.1, glen=165, tlen=764, kl=0.298, act_lr=9.43e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:07<05:28,  3.78s/it, pg=0.0783, rm=1.12, ret=-0.1, glen=165, tlen=764, kl=0.298, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:09<05:28,  3.78s/it, pg=0.12, rm=0.812, ret=-0.142, glen=159, tlen=853, kl=0.311, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:09<04:46,  3.33s/it, pg=0.12, rm=0.812, ret=-0.142, glen=159, tlen=853, kl=0.311, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:11<04:46,  3.33s/it, pg=0.0903, rm=0.938, ret=-0.111, glen=145, tlen=973, kl=0.327, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:11<04:16,  3.02s/it, pg=0.0903, rm=0.938, ret=-0.111, glen=145, tlen=973, kl=0.327, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:13<04:16,  3.02s/it, pg=0.0197, rm=0.812, ret=-0.041, glen=152, tlen=804, kl=0.308, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:13<03:51,  2.75s/it, pg=0.0197, rm=0.812, ret=-0.041, glen=152, tlen=804, kl=0.308, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:15<03:51,  2.75s/it, pg=0.123, rm=1, ret=-0.142, glen=145, tlen=964, kl=0.295, act_lr=9.43e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:15<03:31,  2.55s/it, pg=0.123, rm=1, ret=-0.142, glen=145, tlen=964, kl=0.295, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:18<03:31,  2.55s/it, pg=-0.0173, rm=0.812, ret=-0.00162, glen=148, tlen=1030.0, kl=0.278, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:18<03:17,  2.41s/it, pg=-0.0173, rm=0.812, ret=-0.00162, glen=148, tlen=1030.0, kl=0.278, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:20<03:17,  2.41s/it, pg=-0.0299, rm=1, ret=0.0106, glen=152, tlen=1.1e+3, kl=0.277, act_lr=9.43e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:20<03:07,  2.32s/it, pg=-0.0299, rm=1, ret=0.0106, glen=152, tlen=1.1e+3, kl=0.277, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:29<03:07,  2.32s/it, pg=-0.0627, rm=1.06, ret=0.0433, glen=145, tlen=807, kl=0.299, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:29<06:00,  4.51s/it, pg=-0.0627, rm=1.06, ret=0.0433, glen=145, tlen=807, kl=0.299, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:31<06:00,  4.51s/it, pg=-0.0425, rm=1.06, ret=0.0215, glen=153, tlen=808, kl=0.276, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:31<04:53,  3.72s/it, pg=-0.0425, rm=1.06, ret=0.0215, glen=153, tlen=808, kl=0.276, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:33<04:53,  3.72s/it, pg=0.0864, rm=1, ret=-0.108, glen=150, tlen=960, kl=0.3, act_lr=9.43e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:33<04:15,  3.27s/it, pg=0.0864, rm=1, ret=-0.108, glen=150, tlen=960, kl=0.3, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:36<04:15,  3.27s/it, pg=-0.0795, rm=1, ret=0.0596, glen=159, tlen=924, kl=0.287, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:36<03:50,  2.99s/it, pg=-0.0795, rm=1, ret=0.0596, glen=159, tlen=924, kl=0.287, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:38<03:50,  2.99s/it, pg=-0.0778, rm=0.812, ret=0.0578, glen=159, tlen=871, kl=0.285, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:38<03:22,  2.66s/it, pg=-0.0778, rm=0.812, ret=0.0578, glen=159, tlen=871, kl=0.285, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:40<03:22,  2.66s/it, pg=0.262, rm=1.12, ret=-0.285, glen=163, tlen=784, kl=0.308, act_lr=9.43e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:40<03:12,  2.56s/it, pg=0.262, rm=1.12, ret=-0.285, glen=163, tlen=784, kl=0.308, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:42<03:12,  2.56s/it, pg=0.0664, rm=1, ret=-0.0889, glen=164, tlen=933, kl=0.293, act_lr=9.43e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:42<02:58,  2.41s/it, pg=0.0664, rm=1, ret=-0.0889, glen=164, tlen=933, kl=0.293, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:45<02:58,  2.41s/it, pg=-0.00544, rm=1, ret=-0.015, glen=142, tlen=1.03e+3, kl=0.295, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:45<03:02,  2.50s/it, pg=-0.00544, rm=1, ret=-0.015, glen=142, tlen=1.03e+3, kl=0.295, act_lr=9.43e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:54<03:02,  2.50s/it, pg=-0.0112, rm=0.875, ret=-0.00861, glen=142, tlen=709, kl=0.304, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:54<05:34,  4.65s/it, pg=-0.0112, rm=0.875, ret=-0.00861, glen=142, tlen=709, kl=0.304, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:56<05:34,  4.65s/it, pg=0.0377, rm=1.06, ret=-0.0552, glen=153, tlen=944, kl=0.267, act_lr=9.42e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:56<04:32,  3.84s/it, pg=0.0377, rm=1.06, ret=-0.0552, glen=153, tlen=944, kl=0.267, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:58<04:32,  3.84s/it, pg=-0.123, rm=1.12, ret=0.101, glen=153, tlen=829, kl=0.309, act_lr=9.42e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:58<03:46,  3.24s/it, pg=-0.123, rm=1.12, ret=0.101, glen=153, tlen=829, kl=0.309, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [03:00<03:46,  3.24s/it, pg=0.0479, rm=0.812, ret=-0.0682, glen=165, tlen=839, kl=0.275, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:00<03:14,  2.82s/it, pg=0.0479, rm=0.812, ret=-0.0682, glen=165, tlen=839, kl=0.275, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:02<03:14,  2.82s/it, pg=0.0316, rm=0.812, ret=-0.0513, glen=163, tlen=938, kl=0.276, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:02<02:57,  2.61s/it, pg=0.0316, rm=0.812, ret=-0.0513, glen=163, tlen=938, kl=0.276, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:04<02:57,  2.61s/it, pg=0.00886, rm=1.19, ret=-0.0287, glen=161, tlen=782, kl=0.276, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:04<02:46,  2.49s/it, pg=0.00886, rm=1.19, ret=-0.0287, glen=161, tlen=782, kl=0.276, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:06<02:46,  2.49s/it, pg=-0.12, rm=0.875, ret=0.0982, glen=166, tlen=779, kl=0.3, act_lr=9.42e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:06<02:31,  2.29s/it, pg=-0.12, rm=0.875, ret=0.0982, glen=166, tlen=779, kl=0.3, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:08<02:31,  2.29s/it, pg=0.00367, rm=1.19, ret=-0.0234, glen=162, tlen=813, kl=0.279, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:08<02:26,  2.25s/it, pg=0.00367, rm=1.19, ret=-0.0234, glen=162, tlen=813, kl=0.279, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:19<02:26,  2.25s/it, pg=0.0409, rm=0.812, ret=-0.0616, glen=154, tlen=980, kl=0.284, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:19<05:02,  4.72s/it, pg=0.0409, rm=0.812, ret=-0.0616, glen=154, tlen=980, kl=0.284, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:21<05:02,  4.72s/it, pg=0.00619, rm=0.875, ret=-0.0261, glen=160, tlen=1.06e+3, kl=0.274, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:21<04:09,  3.95s/it, pg=0.00619, rm=0.875, ret=-0.0261, glen=160, tlen=1.06e+3, kl=0.274, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:23<04:09,  3.95s/it, pg=0.249, rm=0.781, ret=-0.267, glen=152, tlen=1.18e+3, kl=0.253, act_lr=9.42e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:23<03:30,  3.40s/it, pg=0.249, rm=0.781, ret=-0.267, glen=152, tlen=1.18e+3, kl=0.253, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:25<03:30,  3.40s/it, pg=-0.0578, rm=1, ret=0.0398, glen=150, tlen=1.03e+3, kl=0.256, act_lr=9.42e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:25<03:07,  3.08s/it, pg=-0.0578, rm=1, ret=0.0398, glen=150, tlen=1.03e+3, kl=0.256, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:28<03:07,  3.08s/it, pg=0.168, rm=0.875, ret=-0.191, glen=156, tlen=926, kl=0.329, act_lr=9.42e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:28<02:58,  2.97s/it, pg=0.168, rm=0.875, ret=-0.191, glen=156, tlen=926, kl=0.329, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:30<02:58,  2.97s/it, pg=0.137, rm=1, ret=-0.159, glen=161, tlen=913, kl=0.299, act_lr=9.42e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:30<02:39,  2.70s/it, pg=0.137, rm=1, ret=-0.159, glen=161, tlen=913, kl=0.299, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:32<02:39,  2.70s/it, pg=0.162, rm=0.812, ret=-0.181, glen=159, tlen=901, kl=0.273, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:32<02:25,  2.52s/it, pg=0.162, rm=0.812, ret=-0.181, glen=159, tlen=901, kl=0.273, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:34<02:25,  2.52s/it, pg=-0.0745, rm=1.19, ret=0.0542, glen=153, tlen=820, kl=0.29, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:34<02:11,  2.31s/it, pg=-0.0745, rm=1.19, ret=0.0542, glen=153, tlen=820, kl=0.29, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:44<02:11,  2.31s/it, pg=0.0469, rm=0.812, ret=-0.0678, glen=161, tlen=835, kl=0.278, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:44<04:11,  4.48s/it, pg=0.0469, rm=0.812, ret=-0.0678, glen=161, tlen=835, kl=0.278, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:46<04:11,  4.48s/it, pg=-0.0101, rm=1.19, ret=-0.0104, glen=160, tlen=848, kl=0.284, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:46<03:29,  3.81s/it, pg=-0.0101, rm=1.19, ret=-0.0104, glen=160, tlen=848, kl=0.284, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:48<03:29,  3.81s/it, pg=-0.0477, rm=0.938, ret=0.0311, glen=151, tlen=1.02e+3, kl=0.256, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:48<02:56,  3.27s/it, pg=-0.0477, rm=0.938, ret=0.0311, glen=151, tlen=1.02e+3, kl=0.256, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:50<02:56,  3.27s/it, pg=0.0838, rm=0.75, ret=-0.105, glen=154, tlen=961, kl=0.302, act_lr=9.42e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:50<02:39,  3.01s/it, pg=0.0838, rm=0.75, ret=-0.105, glen=154, tlen=961, kl=0.302, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:53<02:39,  3.01s/it, pg=0.016, rm=0.812, ret=-0.0306, glen=128, tlen=1272.5, kl=0.24, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:53<02:26,  2.82s/it, pg=0.016, rm=0.812, ret=-0.0306, glen=128, tlen=1272.5, kl=0.24, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:55<02:26,  2.82s/it, pg=-0.0122, rm=0.688, ret=-0.00524, glen=144, tlen=992, kl=0.269, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:55<02:09,  2.55s/it, pg=-0.0122, rm=0.688, ret=-0.00524, glen=144, tlen=992, kl=0.269, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:56<02:09,  2.55s/it, pg=0.0833, rm=0.625, ret=-0.105, glen=160, tlen=839, kl=0.296, act_lr=9.42e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:56<01:56,  2.33s/it, pg=0.0833, rm=0.625, ret=-0.105, glen=160, tlen=839, kl=0.296, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:59<01:56,  2.33s/it, pg=-0.0198, rm=0.875, ret=-0.000323, glen=147, tlen=988, kl=0.304, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:59<01:58,  2.41s/it, pg=-0.0198, rm=0.875, ret=-0.000323, glen=147, tlen=988, kl=0.304, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:09<01:58,  2.41s/it, pg=0.0587, rm=0.875, ret=-0.0798, glen=148, tlen=1047.0, kl=0.303, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:09<03:47,  4.75s/it, pg=0.0587, rm=0.875, ret=-0.0798, glen=148, tlen=1047.0, kl=0.303, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:11<03:47,  4.75s/it, pg=-0.0437, rm=0.875, ret=0.028, glen=139, tlen=1.08e+3, kl=0.249, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:11<03:06,  3.96s/it, pg=-0.0437, rm=0.875, ret=0.028, glen=139, tlen=1.08e+3, kl=0.249, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:13<03:06,  3.96s/it, pg=-0.0307, rm=1, ret=0.00894, glen=161, tlen=908, kl=0.303, act_lr=9.42e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:13<02:35,  3.39s/it, pg=-0.0307, rm=1, ret=0.00894, glen=161, tlen=908, kl=0.303, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:15<02:35,  3.39s/it, pg=0.0566, rm=1.12, ret=-0.0795, glen=155, tlen=822, kl=0.306, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:15<02:11,  2.93s/it, pg=0.0566, rm=1.12, ret=-0.0795, glen=155, tlen=822, kl=0.306, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:18<02:11,  2.93s/it, pg=-0.024, rm=0.875, ret=0.00505, glen=158, tlen=1.06e+3, kl=0.27, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:18<02:02,  2.78s/it, pg=-0.024, rm=0.875, ret=0.00505, glen=158, tlen=1.06e+3, kl=0.27, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:19<02:02,  2.78s/it, pg=0.198, rm=1.06, ret=-0.217, glen=161, tlen=828, kl=0.283, act_lr=9.42e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:19<01:47,  2.50s/it, pg=0.198, rm=1.06, ret=-0.217, glen=161, tlen=828, kl=0.283, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:22<01:47,  2.50s/it, pg=0.0414, rm=0.875, ret=-0.0624, glen=147, tlen=1.05e+3, kl=0.291, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:22<01:42,  2.45s/it, pg=0.0414, rm=0.875, ret=-0.0624, glen=147, tlen=1.05e+3, kl=0.291, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:24<01:42,  2.45s/it, pg=0.0371, rm=0.875, ret=-0.0559, glen=147, tlen=1220.25, kl=0.274, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:24<01:39,  2.42s/it, pg=0.0371, rm=0.875, ret=-0.0559, glen=147, tlen=1220.25, kl=0.274, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:34<01:39,  2.42s/it, pg=-0.182, rm=0.938, ret=0.163, glen=163, tlen=973, kl=0.268, act_lr=9.42e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:34<03:02,  4.57s/it, pg=-0.182, rm=0.938, ret=0.163, glen=163, tlen=973, kl=0.268, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:36<03:02,  4.57s/it, pg=-0.0224, rm=1.12, ret=0.00303, glen=150, tlen=768, kl=0.284, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:36<02:29,  3.82s/it, pg=-0.0224, rm=1.12, ret=0.00303, glen=150, tlen=768, kl=0.284, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:38<02:29,  3.82s/it, pg=0.115, rm=0.625, ret=-0.134, glen=146, tlen=994, kl=0.289, act_lr=9.42e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:38<02:03,  3.24s/it, pg=0.115, rm=0.625, ret=-0.134, glen=146, tlen=994, kl=0.289, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:40<02:03,  3.24s/it, pg=0.0306, rm=0.938, ret=-0.0518, glen=162, tlen=874, kl=0.282, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:40<01:50,  2.98s/it, pg=0.0306, rm=0.938, ret=-0.0518, glen=162, tlen=874, kl=0.282, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:42<01:50,  2.98s/it, pg=-0.0812, rm=1, ret=0.0619, glen=156, tlen=921, kl=0.278, act_lr=9.42e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:42<01:39,  2.77s/it, pg=-0.0812, rm=1, ret=0.0619, glen=156, tlen=921, kl=0.278, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:44<01:39,  2.77s/it, pg=0.0546, rm=0.875, ret=-0.0756, glen=163, tlen=752, kl=0.285, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:44<01:26,  2.47s/it, pg=0.0546, rm=0.875, ret=-0.0756, glen=163, tlen=752, kl=0.285, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:46<01:26,  2.47s/it, pg=0.0333, rm=0.938, ret=-0.0558, glen=160, tlen=778, kl=0.303, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:46<01:17,  2.29s/it, pg=0.0333, rm=0.938, ret=-0.0558, glen=160, tlen=778, kl=0.303, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:48<01:17,  2.29s/it, pg=0.0177, rm=1.12, ret=-0.0369, glen=157, tlen=913, kl=0.272, act_lr=9.42e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:48<01:14,  2.24s/it, pg=0.0177, rm=1.12, ret=-0.0369, glen=157, tlen=913, kl=0.272, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:58<01:14,  2.24s/it, pg=0.0263, rm=0.938, ret=-0.0484, glen=157, tlen=775, kl=0.308, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:58<02:27,  4.61s/it, pg=0.0263, rm=0.938, ret=-0.0484, glen=157, tlen=775, kl=0.308, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [05:01<02:27,  4.61s/it, pg=-0.0931, rm=1, ret=0.0704, glen=153, tlen=923, kl=0.334, act_lr=9.42e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [05:01<02:04,  4.03s/it, pg=-0.0931, rm=1, ret=0.0704, glen=153, tlen=923, kl=0.334, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [05:03<02:04,  4.03s/it, pg=0.186, rm=0.75, ret=-0.205, glen=157, tlen=770, kl=0.274, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:03<01:42,  3.43s/it, pg=0.186, rm=0.75, ret=-0.205, glen=157, tlen=770, kl=0.274, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:05<01:42,  3.43s/it, pg=0.0292, rm=0.938, ret=-0.0508, glen=159, tlen=807, kl=0.312, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:05<01:25,  2.95s/it, pg=0.0292, rm=0.938, ret=-0.0508, glen=159, tlen=807, kl=0.312, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:07<01:25,  2.95s/it, pg=-0.0466, rm=0.938, ret=0.0275, glen=149, tlen=1.02e+3, kl=0.283, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:07<01:15,  2.68s/it, pg=-0.0466, rm=0.938, ret=0.0275, glen=149, tlen=1.02e+3, kl=0.283, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:09<01:15,  2.68s/it, pg=0.0271, rm=1.25, ret=-0.0485, glen=164, tlen=790, kl=0.296, act_lr=9.42e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:09<01:06,  2.47s/it, pg=0.0271, rm=1.25, ret=-0.0485, glen=164, tlen=790, kl=0.296, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:11<01:06,  2.47s/it, pg=-0.1, rm=0.938, ret=0.0796, glen=152, tlen=740, kl=0.305, act_lr=9.42e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:11<01:00,  2.32s/it, pg=-0.1, rm=0.938, ret=0.0796, glen=152, tlen=740, kl=0.305, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:13<01:00,  2.32s/it, pg=0.215, rm=0.875, ret=-0.238, glen=162, tlen=874, kl=0.3, act_lr=9.42e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:13<00:56,  2.26s/it, pg=0.215, rm=0.875, ret=-0.238, glen=162, tlen=874, kl=0.3, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:22<00:56,  2.26s/it, pg=0.0615, rm=0.812, ret=-0.0806, glen=142, tlen=962, kl=0.281, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:22<01:46,  4.43s/it, pg=0.0615, rm=0.812, ret=-0.0806, glen=142, tlen=962, kl=0.281, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:24<01:46,  4.43s/it, pg=0.0394, rm=0.938, ret=-0.0627, glen=174, tlen=886, kl=0.283, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:24<01:24,  3.68s/it, pg=0.0394, rm=0.938, ret=-0.0627, glen=174, tlen=886, kl=0.283, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:26<01:24,  3.68s/it, pg=-0.0823, rm=1.06, ret=0.0626, glen=151, tlen=844, kl=0.302, act_lr=9.42e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:26<01:09,  3.18s/it, pg=-0.0823, rm=1.06, ret=0.0626, glen=151, tlen=844, kl=0.302, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:29<01:09,  3.18s/it, pg=-0.0465, rm=1.06, ret=0.0271, glen=160, tlen=969, kl=0.267, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:29<01:00,  2.88s/it, pg=-0.0465, rm=1.06, ret=0.0271, glen=160, tlen=969, kl=0.267, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:31<01:00,  2.88s/it, pg=0.0787, rm=1, ret=-0.0988, glen=148, tlen=842, kl=0.3, act_lr=9.42e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:31<00:52,  2.64s/it, pg=0.0787, rm=1, ret=-0.0988, glen=148, tlen=842, kl=0.3, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:33<00:52,  2.64s/it, pg=0.249, rm=1, ret=-0.269, glen=151, tlen=932, kl=0.31, act_lr=9.42e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:33<00:47,  2.48s/it, pg=0.249, rm=1, ret=-0.269, glen=151, tlen=932, kl=0.31, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:35<00:47,  2.48s/it, pg=-0.051, rm=0.938, ret=0.0331, glen=143, tlen=1.01e+3, kl=0.257, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:35<00:42,  2.35s/it, pg=-0.051, rm=0.938, ret=0.0331, glen=143, tlen=1.01e+3, kl=0.257, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:37<00:42,  2.35s/it, pg=0.0129, rm=1.19, ret=-0.0356, glen=166, tlen=787, kl=0.31, act_lr=9.42e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:37<00:38,  2.26s/it, pg=0.0129, rm=1.19, ret=-0.0356, glen=166, tlen=787, kl=0.31, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:46<00:38,  2.26s/it, pg=-0.00599, rm=0.812, ret=-0.0102, glen=143, tlen=1171.25, kl=0.262, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:46<01:11,  4.44s/it, pg=-0.00599, rm=0.812, ret=-0.0102, glen=143, tlen=1171.25, kl=0.262, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:49<01:11,  4.44s/it, pg=0.0201, rm=0.938, ret=-0.0413, glen=154, tlen=933, kl=0.306, act_lr=9.42e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:49<00:56,  3.77s/it, pg=0.0201, rm=0.938, ret=-0.0413, glen=154, tlen=933, kl=0.306, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:51<00:56,  3.77s/it, pg=-0.0356, rm=1.12, ret=0.0162, glen=148, tlen=833, kl=0.281, act_lr=9.42e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:51<00:46,  3.29s/it, pg=-0.0356, rm=1.12, ret=0.0162, glen=148, tlen=833, kl=0.281, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:53<00:46,  3.29s/it, pg=0.174, rm=0.812, ret=-0.193, glen=154, tlen=720, kl=0.29, act_lr=9.42e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:53<00:37,  2.91s/it, pg=0.174, rm=0.812, ret=-0.193, glen=154, tlen=720, kl=0.29, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:55<00:37,  2.91s/it, pg=0.0487, rm=0.938, ret=-0.0658, glen=138, tlen=1.09e+3, kl=0.277, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:55<00:31,  2.66s/it, pg=0.0487, rm=0.938, ret=-0.0658, glen=138, tlen=1.09e+3, kl=0.277, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:57<00:31,  2.66s/it, pg=0.224, rm=1, ret=-0.241, glen=150, tlen=942, kl=0.293, act_lr=9.42e-7]          [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:57<00:27,  2.48s/it, pg=0.224, rm=1, ret=-0.241, glen=150, tlen=942, kl=0.293, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:59<00:27,  2.48s/it, pg=0.0276, rm=0.938, ret=-0.0487, glen=168, tlen=815, kl=0.284, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:59<00:22,  2.29s/it, pg=0.0276, rm=0.938, ret=-0.0487, glen=168, tlen=815, kl=0.284, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [06:01<00:22,  2.29s/it, pg=0.0766, rm=0.625, ret=-0.0981, glen=161, tlen=746, kl=0.287, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:01<00:19,  2.20s/it, pg=0.0766, rm=0.625, ret=-0.0981, glen=161, tlen=746, kl=0.287, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:11<00:19,  2.20s/it, pg=-0.104, rm=0.875, ret=0.085, glen=151, tlen=919, kl=0.271, act_lr=9.42e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|��████████▍| 120/128 [06:11<00:36,  4.53s/it, pg=-0.104, rm=0.875, ret=0.085, glen=151, tlen=919, kl=0.271, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:13<00:36,  4.53s/it, pg=-0.0106, rm=0.812, ret=-0.00599, glen=145, tlen=1.12e+3, kl=0.271, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:13<00:26,  3.84s/it, pg=-0.0106, rm=0.812, ret=-0.00599, glen=145, tlen=1.12e+3, kl=0.271, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:15<00:26,  3.84s/it, pg=-0.127, rm=1.06, ret=0.108, glen=162, tlen=909, kl=0.282, act_lr=9.42e-7]         [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:15<00:20,  3.40s/it, pg=-0.127, rm=1.06, ret=0.108, glen=162, tlen=909, kl=0.282, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:17<00:20,  3.40s/it, pg=-0.00104, rm=0.875, ret=-0.0195, glen=150, tlen=885, kl=0.283, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:17<00:14,  3.00s/it, pg=-0.00104, rm=0.875, ret=-0.0195, glen=150, tlen=885, kl=0.283, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:20<00:14,  3.00s/it, pg=0.0647, rm=0.938, ret=-0.0849, glen=152, tlen=1100.5, kl=0.28, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:20<00:11,  2.81s/it, pg=0.0647, rm=0.938, ret=-0.0849, glen=152, tlen=1100.5, kl=0.28, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:22<00:11,  2.81s/it, pg=-0.11, rm=0.812, ret=0.0903, glen=153, tlen=772, kl=0.307, act_lr=9.42e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:22<00:07,  2.62s/it, pg=-0.11, rm=0.812, ret=0.0903, glen=153, tlen=772, kl=0.307, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:24<00:07,  2.62s/it, pg=0.00212, rm=1, ret=-0.0227, glen=164, tlen=837, kl=0.278, act_lr=9.42e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:24<00:05,  2.51s/it, pg=0.00212, rm=1, ret=-0.0227, glen=164, tlen=837, kl=0.278, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:26<00:05,  2.51s/it, pg=0.0304, rm=0.938, ret=-0.0496, glen=154, tlen=986, kl=0.284, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:26<00:02,  2.38s/it, pg=0.0304, rm=0.938, ret=-0.0496, glen=154, tlen=986, kl=0.284, act_lr=9.42e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:36<00:02,  2.38s/it, pg=-0.0555, rm=1.06, ret=0.0344, glen=162, tlen=885, kl=0.297, act_lr=9.41e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:36<00:00,  4.53s/it, pg=-0.0555, rm=1.06, ret=0.0344, glen=162, tlen=885, kl=0.297, act_lr=9.41e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:36<00:00,  3.10s/it, pg=-0.0555, rm=1.06, ret=0.0344, glen=162, tlen=885, kl=0.297, act_lr=9.41e-7]
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 13:26:22 [executor_base.py:219] It took 1.764392 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 13:26:23 [executor_base.py:219] It took 3.263101 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3260x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.10.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 847x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.20.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 926x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:26:46 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:26:46 [executor_base.py:208] It took 1.402988 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 729x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   8%|▊         | 10/127 [2:13:28<24:02:06, 739.54s/it, policy_loss=0.0243, actor_lr=9.42e-7, kl=0.288, reward=0.948, response_length=155, total_length=907, acc_rewards=0.448, format_rewards=0.5, return=-0.0446]
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   9%|▊         | 11/127 [2:13:28<23:40:42, 734.85s/it, policy_loss=0.0243, actor_lr=9.42e-7, kl=0.288, reward=0.948, response_length=155, total_length=907, acc_rewards=0.448, format_rewards=0.5, return=-0.0446]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:26:48 [executor_base.py:219] It took 1.512000 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   0%|          | 1/256 [00:21<1:32:48, 21.84s/it, est. speed input: 71.02 toks/s, output: 3.16 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   1%|          | 2/256 [00:22<38:56,  9.20s/it, est. speed input: 139.78 toks/s, output: 6.58 toks/s] 
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   1%|          | 3/256 [00:22<21:51,  5.18s/it, est. speed input: 205.95 toks/s, output: 10.27 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:22<09:37,  2.30s/it, est. speed input: 340.21 toks/s, output: 17.92 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   2%|▏         | 6/256 [00:22<07:05,  1.70s/it, est. speed input: 358.54 toks/s, output: 21.88 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   4%|▎         | 9/256 [00:23<03:14,  1.27it/s, est. speed input: 420.84 toks/s, output: 34.29 toks/s]
+Processed prompts:   4%|▍         | 11/256 [00:23<02:11,  1.86it/s, est. speed input: 506.13 toks/s, output: 42.74 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   5%|▌         | 14/256 [00:23<01:19,  3.05it/s, est. speed input: 701.94 toks/s, output: 55.72 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   7%|▋         | 17/256 [00:23<00:52,  4.54it/s, est. speed input: 801.79 toks/s, output: 68.81 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   8%|▊         | 21/256 [00:23<00:33,  7.06it/s, est. speed input: 876.85 toks/s, output: 86.75 toks/s]
+Processed prompts:   9%|▉         | 24/256 [00:23<00:25,  9.03it/s, est. speed input: 936.26 toks/s, output: 100.38 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  12%|█▎        | 32/256 [00:23<00:13, 16.86it/s, est. speed input: 1309.44 toks/s, output: 138.10 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  14%|█▍        | 36/256 [00:24<00:11, 19.38it/s, est. speed input: 1378.94 toks/s, output: 156.94 toks/s]
+Processed prompts:  16%|█▋        | 42/256 [00:24<00:08, 25.04it/s, est. speed input: 1708.87 toks/s, output: 185.92 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  23%|██▎       | 58/256 [00:24<00:04, 42.15it/s, est. speed input: 2259.13 toks/s, output: 266.25 toks/s]
+Processed prompts:  26%|██▌       | 67/256 [00:24<00:03, 51.05it/s, est. speed input: 2544.97 toks/s, output: 312.46 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  29%|██▉       | 74/256 [00:24<00:03, 54.05it/s, est. speed input: 2790.03 toks/s, output: 348.72 toks/s]
+Processed prompts:  32%|███▏      | 82/256 [00:24<00:02, 59.07it/s, est. speed input: 3058.99 toks/s, output: 391.12 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  92%|█████████▏| 236/256 [00:26<00:00, 96.13it/s, est. speed input: 6215.44 toks/s, output: 1330.45 toks/s] 
+Processed prompts:  96%|█████████▌| 246/256 [00:26<00:00, 86.51it/s, est. speed input: 6434.13 toks/s, output: 1401.46 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:26<00:00, 45.61it/s, est. speed input: 6552.30 toks/s, output: 1452.11 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  17%|█▋        | 43/256 [00:26<00:13, 15.75it/s, est. speed input: 1543.64 toks/s, output: 193.85 toks/s][32m [repeated 35x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.46it/s, est. speed input: 6527.07 toks/s, output: 1451.83 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  68%|██████▊   | 174/256 [00:27<00:00, 133.83it/s, est. speed input: 5039.03 toks/s, output: 912.94 toks/s]
+Processed prompts:  77%|███████▋  | 196/256 [00:27<00:00, 144.49it/s, est. speed input: 5589.79 toks/s, output: 1045.21 toks/s][32m [repeated 24x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00, 69.40it/s, est. speed input: 6590.21 toks/s, output: 1401.39 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.18it/s, est. speed input: 6590.21 toks/s, output: 1401.39 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  97%|█████████▋| 249/256 [00:30<00:00, 85.07it/s, est. speed input: 6566.56 toks/s, output: 1244.25 toks/s][32m [repeated 10x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  89%|████████▊ | 227/256 [00:29<00:00, 106.91it/s, est. speed input: 6264.45 toks/s, output: 1109.85 toks/s][32m [repeated 31x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   1%|          | 3/256 [00:24<23:49,  5.65s/it, est. speed input: 102.39 toks/s, output: 8.86 toks/s]
+Processed prompts:   2%|▏         | 4/256 [00:25<14:39,  3.49s/it, est. speed input: 163.60 toks/s, output: 12.16 toks/s][32m [repeated 11x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:31<00:00,  8.15it/s, est. speed input: 6501.89 toks/s, output: 1253.15 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  93%|█████████▎| 238/256 [00:28<00:00, 91.75it/s, est. speed input: 6254.61 toks/s, output: 1180.65 toks/s] 
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  97%|█████████▋| 249/256 [00:28<00:00, 78.31it/s, est. speed input: 6393.50 toks/s, output: 1251.03 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00,  8.66it/s, est. speed input: 6333.67 toks/s, output: 1272.92 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  88%|████████▊ | 226/256 [00:28<00:00, 115.54it/s, est. speed input: 6083.55 toks/s, output: 1107.71 toks/s][32m [repeated 14x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 1/256 [00:31<2:14:42, 31.70s/it, est. speed input: 48.58 toks/s, output: 2.74 toks/s]
+Processed prompts:   1%|          | 2/256 [00:31<55:36, 13.14s/it, est. speed input: 97.02 toks/s, output: 5.56 toks/s]  [32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   2%|▏         | 4/256 [00:32<20:53,  4.97s/it, est. speed input: 193.00 toks/s, output: 11.32 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   2%|▏         | 6/256 [00:32<11:04,  2.66s/it, est. speed input: 255.71 toks/s, output: 17.32 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   4%|▎         | 9/256 [00:32<05:33,  1.35s/it, est. speed input: 332.99 toks/s, output: 26.48 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   6%|▌         | 15/256 [00:32<02:16,  1.76it/s, est. speed input: 584.89 toks/s, output: 45.42 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  13%|█▎        | 34/256 [00:32<00:29,  7.56it/s, est. speed input: 1152.04 toks/s, output: 107.92 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  20%|██        | 52/256 [00:33<00:10, 18.89it/s, est. speed input: 1848.82 toks/s, output: 171.13 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  41%|████      | 104/256 [00:33<00:02, 60.62it/s, est. speed input: 3344.42 toks/s, output: 367.89 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  55%|█████▍    | 140/256 [00:34<00:01, 92.56it/s, est. speed input: 4275.37 toks/s, output: 515.75 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  72%|███████▏  | 184/256 [00:34<00:00, 115.45it/s, est. speed input: 5317.39 toks/s, output: 708.46 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  90%|█████████ | 231/256 [00:35<00:00, 103.53it/s, est. speed input: 6379.35 toks/s, output: 930.71 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  95%|█████████▍| 242/256 [00:35<00:00, 92.00it/s, est. speed input: 6542.87 toks/s, output: 986.43 toks/s] 
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  98%|█████████▊| 252/256 [00:35<00:00, 77.95it/s, est. speed input: 6658.18 toks/s, output: 1039.22 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:36<00:00,  7.08it/s, est. speed input: 6577.11 toks/s, output: 1044.87 toks/s]
+[36m(ActorModelRayActor pid=287378)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=287378)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=287378)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=287378)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 13:26:46 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.41 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 13:26:46 [executor_base.py:208] It took 1.606529 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:26:49 [executor_base.py:219] It took 3.178653 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 876x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 876x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 735x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 735x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 13:28:48 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.47 GiB memory is still in use.
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 13:28:48 [executor_base.py:208] It took 1.374738 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287371)[0m ele.get("min_pixels" 3136[32m [repeated 417x across cluster][0m
+[36m(ActorModelRayActor pid=287371)[0m ele.get("max_pixels" 1254400[32m [repeated 417x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  78%|███████▊  | 200/256 [00:34<00:00, 119.14it/s, est. speed input: 5705.27 toks/s, output: 782.13 toks/s]
+Processed prompts:  85%|████████▌ | 218/256 [00:34<00:00, 124.95it/s, est. speed input: 6061.11 toks/s, output: 867.74 toks/s][32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<03:09,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<03:03,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<03:08,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<03:01,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<02:56,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:51,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:09<02:48,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:48,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:31,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:13<02:18,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:14<02:11,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:15<02:07,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:16<01:59,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:17<02:00,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:18<01:54,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:19<01:51,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:20<02:05,  1.13s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:22<02:11,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:23<02:19,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:24<02:21,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:26<02:25,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:27<02:23,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:29<02:25,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:30<02:24,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:31<02:23,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:33<02:23,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:34<02:20,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:36<02:21,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:37<02:18,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:39<02:17,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:40<02:15,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:41<02:18,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:43<02:15,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:44<02:13,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:46<02:14,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:47<02:11,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:49<02:10,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:50<02:08,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:51<02:06,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:53<02:05,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:54<02:01,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:56<01:57,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:57<01:55,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:58<01:55,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [01:00<01:51,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:01<01:51,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:02<01:48,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:04<01:46,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:05<01:37,  1.23s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:06<01:33,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:07<01:26,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:08<01:24,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:09<01:22,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:10<01:20,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:11<01:18,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:12<01:16,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:13<01:16,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:14<01:15,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:15<01:13,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:16<01:11,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:17<01:09,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:18<01:07,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:19<01:06,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:20<01:04,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:21<01:09,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:23<01:13,  1.19s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:24<01:16,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:26<01:16,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:27<01:18,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:29<01:19,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:30<01:19,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:31<01:17,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:33<01:17,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:34<01:16,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:36<01:16,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:37<01:15,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:39<01:14,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:40<01:13,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:42<01:10,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:43<01:10,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:45<01:08,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:47<01:27,  1.89s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:49<01:17,  1.73s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:50<01:13,  1.67s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:52<01:08,  1.60s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:53<01:04,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:55<01:01,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:56<00:59,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [01:57<00:56,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [01:59<00:55,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:00<00:53,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:02<00:51,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:03<00:50,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:05<00:48,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:06<00:47,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:07<00:45,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:09<00:46,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:10<00:43,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:12<00:41,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:13<00:40,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:15<00:39,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:16<00:37,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:18<00:35,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:19<00:34,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:20<00:32,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:22<00:31,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:23<00:29,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:25<00:28,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:26<00:27,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:28<00:25,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:29<00:25,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:31<00:23,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:32<00:21,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:33<00:20,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:35<00:18,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:36<00:17,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:38<00:16,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:39<00:14,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:41<00:13,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:42<00:11,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:43<00:09,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:45<00:07,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:46<00:06,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:47<00:04,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:48<00:03,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:49<00:02,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:50<00:01,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:51<00:00,  1.16s/it][A
+make_experience: 100%|██████████| 128/128 [02:51<00:00,  1.34s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nDoes this image correspond accurately to the prompt: "somebody once told me the world was gonna roll me, i ain\'t the sharpest tool in the shed"?\nPlease evaluate how well the image matches each element of provided prompt.\n\n And answer with the final alignment rating.\nRate it from 0 to 5 (float, 2 decimals). A rating of 0 represents very poor alignment level, while 5 represents excellent alignment level.\'\nassistant\n<think> The image depicts a person seated at a desk with books and other cluttered objects surrounding them, which could symbolize a world of knowledge and complexity. However, the quote "somebody once told me the world was gonna roll me, i ain\'t the sharpest tool in the shed" implies a sense of being overwhelmed or-led by circumstances, possibly feeling lost or not in control. The image does not visually represent the feeling of being overwhelmed or out of control, nor does it suggest that the person is not capable or knowledgeable. The scene is more about exploration and learning, rather than a sense of being led or overwhelmed by the world.</think>\n<answer>1.00</answer>']
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:28:48 [worker.py:133] Sleep mode freed 38.21 GiB memory, 22.67 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:28:48 [executor_base.py:208] It took 1.651580 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287371)[0m ele.get("min_pixels" 3136[32m [repeated 18x across cluster][0m
+[36m(ActorModelRayActor pid=287371)[0m ele.get("max_pixels" 1254400[32m [repeated 18x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.129, rm=0.812, ret=-0.15, glen=153, tlen=962, kl=0.281, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:28,  2.58s/it, pg=0.129, rm=0.812, ret=-0.15, glen=153, tlen=962, kl=0.281, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:04<05:28,  2.58s/it, pg=0.00331, rm=0.938, ret=-0.0242, glen=158, tlen=974, kl=0.294, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:04<05:01,  2.39s/it, pg=0.00331, rm=0.938, ret=-0.0242, glen=158, tlen=974, kl=0.294, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<05:01,  2.39s/it, pg=0.00983, rm=0.875, ret=-0.0332, glen=162, tlen=963, kl=0.301, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<04:59,  2.39s/it, pg=0.00983, rm=0.875, ret=-0.0332, glen=162, tlen=963, kl=0.301, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<04:59,  2.39s/it, pg=-0.0356, rm=0.812, ret=0.013, glen=168, tlen=904, kl=0.282, act_lr=9.41e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:33,  2.21s/it, pg=-0.0356, rm=0.812, ret=0.013, glen=168, tlen=904, kl=0.282, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:33,  2.21s/it, pg=0.062, rm=0.875, ret=-0.0825, glen=146, tlen=925, kl=0.294, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:39,  2.28s/it, pg=0.062, rm=0.875, ret=-0.0825, glen=146, tlen=925, kl=0.294, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:39,  2.28s/it, pg=-0.0584, rm=1.12, ret=0.0385, glen=163, tlen=1.06e+3, kl=0.276, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:39,  2.29s/it, pg=-0.0584, rm=1.12, ret=0.0385, glen=163, tlen=1.06e+3, kl=0.276, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:16<04:39,  2.29s/it, pg=-0.0792, rm=1, ret=0.0555, glen=152, tlen=1.02e+3, kl=0.338, act_lr=9.41e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:16<04:31,  2.24s/it, pg=-0.0792, rm=1, ret=0.0555, glen=152, tlen=1.02e+3, kl=0.338, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:25<04:31,  2.24s/it, pg=0.132, rm=0.875, ret=-0.154, glen=163, tlen=650, kl=0.292, act_lr=9.41e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:25<09:03,  4.53s/it, pg=0.132, rm=0.875, ret=-0.154, glen=163, tlen=650, kl=0.292, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:27<09:03,  4.53s/it, pg=0.0781, rm=0.875, ret=-0.0997, glen=154, tlen=880, kl=0.289, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:27<07:38,  3.85s/it, pg=0.0781, rm=0.875, ret=-0.0997, glen=154, tlen=880, kl=0.289, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:30<07:38,  3.85s/it, pg=0.0583, rm=0.938, ret=-0.0781, glen=157, tlen=888, kl=0.29, act_lr=9.41e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:30<06:48,  3.46s/it, pg=0.0583, rm=0.938, ret=-0.0781, glen=157, tlen=888, kl=0.29, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:32<06:48,  3.46s/it, pg=0.0982, rm=0.875, ret=-0.116, glen=149, tlen=1.09e+3, kl=0.268, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:32<05:53,  3.02s/it, pg=0.0982, rm=0.875, ret=-0.116, glen=149, tlen=1.09e+3, kl=0.268, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:34<05:53,  3.02s/it, pg=0.102, rm=0.75, ret=-0.123, glen=154, tlen=737, kl=0.293, act_lr=9.41e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:34<05:19,  2.75s/it, pg=0.102, rm=0.75, ret=-0.123, glen=154, tlen=737, kl=0.293, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:36<05:19,  2.75s/it, pg=0.197, rm=0.875, ret=-0.216, glen=143, tlen=908, kl=0.307, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<04:46,  2.49s/it, pg=0.197, rm=0.875, ret=-0.216, glen=143, tlen=908, kl=0.307, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:38<04:46,  2.49s/it, pg=-0.0772, rm=1, ret=0.0566, glen=148, tlen=934, kl=0.295, act_lr=9.41e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:30,  2.37s/it, pg=-0.0772, rm=1, ret=0.0566, glen=148, tlen=934, kl=0.295, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:40<04:30,  2.37s/it, pg=-0.0509, rm=1, ret=0.0332, glen=146, tlen=1007.75, kl=0.294, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:40<04:27,  2.36s/it, pg=-0.0509, rm=1, ret=0.0332, glen=146, tlen=1007.75, kl=0.294, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:51<04:27,  2.36s/it, pg=0.0106, rm=0.688, ret=-0.0331, glen=163, tlen=817, kl=0.298, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:51<09:01,  4.83s/it, pg=0.0106, rm=0.688, ret=-0.0331, glen=163, tlen=817, kl=0.298, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:53<09:01,  4.83s/it, pg=-0.223, rm=1.12, ret=0.202, glen=160, tlen=791, kl=0.295, act_lr=9.41e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:53<07:28,  4.04s/it, pg=-0.223, rm=1.12, ret=0.202, glen=160, tlen=791, kl=0.295, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:56<07:28,  4.04s/it, pg=0.188, rm=0.875, ret=-0.208, glen=157, tlen=936, kl=0.277, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:56<06:35,  3.60s/it, pg=0.188, rm=0.875, ret=-0.208, glen=157, tlen=936, kl=0.277, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:58<06:35,  3.60s/it, pg=0.0752, rm=0.75, ret=-0.0972, glen=143, tlen=1e+3, kl=0.307, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:58<05:39,  3.11s/it, pg=0.0752, rm=0.75, ret=-0.0972, glen=143, tlen=1e+3, kl=0.307, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [01:00<05:39,  3.11s/it, pg=-0.0239, rm=0.812, ret=0.000552, glen=153, tlen=737, kl=0.302, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:00<04:55,  2.73s/it, pg=-0.0239, rm=0.812, ret=0.000552, glen=153, tlen=737, kl=0.302, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:02<04:55,  2.73s/it, pg=0.0623, rm=0.875, ret=-0.0829, glen=148, tlen=927, kl=0.293, act_lr=9.41e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:02<04:44,  2.66s/it, pg=0.0623, rm=0.875, ret=-0.0829, glen=148, tlen=927, kl=0.293, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:04<04:44,  2.66s/it, pg=-0.00902, rm=0.938, ret=-0.0104, glen=143, tlen=878, kl=0.292, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:04<04:35,  2.60s/it, pg=-0.00902, rm=0.938, ret=-0.0104, glen=143, tlen=878, kl=0.292, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:07<04:35,  2.60s/it, pg=0.0747, rm=1, ret=-0.0947, glen=144, tlen=1147.5, kl=0.289, act_lr=9.41e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:07<04:24,  2.52s/it, pg=0.0747, rm=1, ret=-0.0947, glen=144, tlen=1147.5, kl=0.289, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:17<04:24,  2.52s/it, pg=-0.00288, rm=1, ret=-0.0175, glen=161, tlen=925, kl=0.268, act_lr=9.41e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:17<08:07,  4.68s/it, pg=-0.00288, rm=1, ret=-0.0175, glen=161, tlen=925, kl=0.268, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:19<08:07,  4.68s/it, pg=0.0458, rm=0.875, ret=-0.0686, glen=158, tlen=839, kl=0.313, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:19<06:38,  3.87s/it, pg=0.0458, rm=0.875, ret=-0.0686, glen=158, tlen=839, kl=0.313, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:21<06:38,  3.87s/it, pg=0.0878, rm=1, ret=-0.111, glen=149, tlen=858, kl=0.299, act_lr=9.41e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:21<05:38,  3.32s/it, pg=0.0878, rm=1, ret=-0.111, glen=149, tlen=858, kl=0.299, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:23<05:38,  3.32s/it, pg=0.0392, rm=1.12, ret=-0.062, glen=172, tlen=826, kl=0.291, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:23<04:56,  2.94s/it, pg=0.0392, rm=1.12, ret=-0.062, glen=172, tlen=826, kl=0.291, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:24<04:56,  2.94s/it, pg=-0.00472, rm=0.938, ret=-0.0185, glen=178, tlen=665, kl=0.293, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:24<04:19,  2.60s/it, pg=-0.00472, rm=0.938, ret=-0.0185, glen=178, tlen=665, kl=0.293, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:26<04:19,  2.60s/it, pg=0.291, rm=0.938, ret=-0.312, glen=159, tlen=766, kl=0.311, act_lr=9.41e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:26<04:00,  2.43s/it, pg=0.291, rm=0.938, ret=-0.312, glen=159, tlen=766, kl=0.311, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:28<04:00,  2.43s/it, pg=0.0237, rm=1, ret=-0.0461, glen=156, tlen=1.11e+3, kl=0.295, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:28<03:42,  2.27s/it, pg=0.0237, rm=1, ret=-0.0461, glen=156, tlen=1.11e+3, kl=0.295, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:30<03:42,  2.27s/it, pg=0.0566, rm=0.938, ret=-0.077, glen=158, tlen=889, kl=0.283, act_lr=9.41e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:30<03:33,  2.21s/it, pg=0.0566, rm=0.938, ret=-0.077, glen=158, tlen=889, kl=0.283, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:40<03:33,  2.21s/it, pg=-0.00577, rm=0.938, ret=-0.0157, glen=147, tlen=882, kl=0.319, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:40<07:13,  4.51s/it, pg=-0.00577, rm=0.938, ret=-0.0157, glen=147, tlen=882, kl=0.319, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:43<07:13,  4.51s/it, pg=-0.0666, rm=1, ret=0.0478, glen=141, tlen=837, kl=0.294, act_lr=9.41e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:43<06:14,  3.94s/it, pg=-0.0666, rm=1, ret=0.0478, glen=141, tlen=837, kl=0.294, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:45<06:14,  3.94s/it, pg=0.00925, rm=1.12, ret=-0.0336, glen=165, tlen=833, kl=0.321, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:45<05:20,  3.41s/it, pg=0.00925, rm=1.12, ret=-0.0336, glen=165, tlen=833, kl=0.321, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:47<05:20,  3.41s/it, pg=-0.275, rm=1, ret=0.256, glen=147, tlen=1.09e+3, kl=0.262, act_lr=9.41e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:47<04:36,  2.97s/it, pg=-0.275, rm=1, ret=0.256, glen=147, tlen=1.09e+3, kl=0.262, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:49<04:36,  2.97s/it, pg=0.0375, rm=1, ret=-0.0579, glen=144, tlen=1.1e+3, kl=0.294, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:49<04:08,  2.70s/it, pg=0.0375, rm=1, ret=-0.0579, glen=144, tlen=1.1e+3, kl=0.294, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:51<04:08,  2.70s/it, pg=-0.00696, rm=1.06, ret=-0.0172, glen=167, tlen=784, kl=0.311, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:51<03:43,  2.45s/it, pg=-0.00696, rm=1.06, ret=-0.0172, glen=167, tlen=784, kl=0.311, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:53<03:43,  2.45s/it, pg=0.0668, rm=0.875, ret=-0.0847, glen=138, tlen=903, kl=0.275, act_lr=9.41e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:53<03:25,  2.28s/it, pg=0.0668, rm=0.875, ret=-0.0847, glen=138, tlen=903, kl=0.275, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:55<03:25,  2.28s/it, pg=0.00513, rm=0.75, ret=-0.0294, glen=172, tlen=778, kl=0.304, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:55<03:16,  2.21s/it, pg=0.00513, rm=0.75, ret=-0.0294, glen=172, tlen=778, kl=0.304, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:04<03:16,  2.21s/it, pg=-0.0248, rm=0.938, ret=0.00226, glen=158, tlen=867, kl=0.298, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:04<06:28,  4.41s/it, pg=-0.0248, rm=0.938, ret=0.00226, glen=158, tlen=867, kl=0.298, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:07<06:28,  4.41s/it, pg=0.0704, rm=0.875, ret=-0.0928, glen=162, tlen=970, kl=0.291, act_lr=9.41e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:07<05:41,  3.92s/it, pg=0.0704, rm=0.875, ret=-0.0928, glen=162, tlen=970, kl=0.291, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:09<05:41,  3.92s/it, pg=0.0172, rm=1.06, ret=-0.0366, glen=154, tlen=932, kl=0.284, act_lr=9.41e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:09<04:50,  3.37s/it, pg=0.0172, rm=1.06, ret=-0.0366, glen=154, tlen=932, kl=0.284, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:11<04:50,  3.37s/it, pg=0.00393, rm=0.875, ret=-0.0224, glen=146, tlen=796, kl=0.302, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:11<04:14,  2.99s/it, pg=0.00393, rm=0.875, ret=-0.0224, glen=146, tlen=796, kl=0.302, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:13<04:14,  2.99s/it, pg=0.171, rm=0.75, ret=-0.192, glen=161, tlen=667, kl=0.301, act_lr=9.41e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:13<03:41,  2.63s/it, pg=0.171, rm=0.75, ret=-0.192, glen=161, tlen=667, kl=0.301, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:15<03:41,  2.63s/it, pg=0.107, rm=1, ret=-0.13, glen=168, tlen=775, kl=0.298, act_lr=9.41e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:15<03:27,  2.50s/it, pg=0.107, rm=1, ret=-0.13, glen=168, tlen=775, kl=0.298, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:18<03:27,  2.50s/it, pg=-0.287, rm=0.938, ret=0.266, glen=160, tlen=747, kl=0.273, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:18<03:15,  2.38s/it, pg=-0.287, rm=0.938, ret=0.266, glen=160, tlen=747, kl=0.273, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:19<03:15,  2.38s/it, pg=-0.021, rm=1, ret=0.00164, glen=154, tlen=780, kl=0.27, act_lr=9.41e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:19<03:00,  2.22s/it, pg=-0.021, rm=1, ret=0.00164, glen=154, tlen=780, kl=0.27, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:29<03:00,  2.22s/it, pg=0.0539, rm=0.875, ret=-0.0746, glen=148, tlen=969, kl=0.293, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:29<05:55,  4.45s/it, pg=0.0539, rm=0.875, ret=-0.0746, glen=148, tlen=969, kl=0.293, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:31<05:55,  4.45s/it, pg=0.00934, rm=0.688, ret=-0.0301, glen=157, tlen=811, kl=0.291, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:31<04:51,  3.69s/it, pg=0.00934, rm=0.688, ret=-0.0301, glen=157, tlen=811, kl=0.291, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:33<04:51,  3.69s/it, pg=-0.0736, rm=1.06, ret=0.0467, glen=172, tlen=706, kl=0.317, act_lr=9.41e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:33<03:58,  3.06s/it, pg=-0.0736, rm=1.06, ret=0.0467, glen=172, tlen=706, kl=0.317, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:35<03:58,  3.06s/it, pg=0.062, rm=0.875, ret=-0.0841, glen=152, tlen=799, kl=0.326, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:35<03:33,  2.78s/it, pg=0.062, rm=0.875, ret=-0.0841, glen=152, tlen=799, kl=0.326, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:37<03:33,  2.78s/it, pg=0.0227, rm=0.812, ret=-0.0425, glen=147, tlen=1.01e+3, kl=0.29, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:37<03:20,  2.64s/it, pg=0.0227, rm=0.812, ret=-0.0425, glen=147, tlen=1.01e+3, kl=0.29, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:38<03:20,  2.64s/it, pg=0.129, rm=0.688, ret=-0.15, glen=165, tlen=609, kl=0.29, act_lr=9.41e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:38<02:51,  2.28s/it, pg=0.129, rm=0.688, ret=-0.15, glen=165, tlen=609, kl=0.29, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:40<02:51,  2.28s/it, pg=0.12, rm=0.875, ret=-0.144, glen=170, tlen=657, kl=0.311, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:40<02:38,  2.15s/it, pg=0.12, rm=0.875, ret=-0.144, glen=170, tlen=657, kl=0.311, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:42<02:38,  2.15s/it, pg=0.0771, rm=0.938, ret=-0.101, glen=161, tlen=804, kl=0.31, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:42<02:38,  2.17s/it, pg=0.0771, rm=0.938, ret=-0.101, glen=161, tlen=804, kl=0.31, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:53<02:38,  2.17s/it, pg=0.0318, rm=1, ret=-0.0536, glen=150, tlen=859, kl=0.302, act_lr=9.41e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:53<05:26,  4.53s/it, pg=0.0318, rm=1, ret=-0.0536, glen=150, tlen=859, kl=0.302, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:55<05:26,  4.53s/it, pg=0.08, rm=1.12, ret=-0.102, glen=156, tlen=810, kl=0.297, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:55<04:37,  3.90s/it, pg=0.08, rm=1.12, ret=-0.102, glen=156, tlen=810, kl=0.297, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:57<04:37,  3.90s/it, pg=0.0345, rm=0.938, ret=-0.0555, glen=145, tlen=1e+3, kl=0.289, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:57<03:55,  3.36s/it, pg=0.0345, rm=0.938, ret=-0.0555, glen=145, tlen=1e+3, kl=0.289, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:59<03:55,  3.36s/it, pg=-0.0303, rm=0.75, ret=0.0106, glen=156, tlen=822, kl=0.272, act_lr=9.41e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:59<03:21,  2.91s/it, pg=-0.0303, rm=0.75, ret=0.0106, glen=156, tlen=822, kl=0.272, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [03:01<03:21,  2.91s/it, pg=0.0146, rm=0.875, ret=-0.0343, glen=147, tlen=905, kl=0.282, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:01<02:57,  2.61s/it, pg=0.0146, rm=0.875, ret=-0.0343, glen=147, tlen=905, kl=0.282, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:03<02:57,  2.61s/it, pg=0.211, rm=0.969, ret=-0.227, glen=138, tlen=1059.0, kl=0.285, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:03<02:44,  2.46s/it, pg=0.211, rm=0.969, ret=-0.227, glen=138, tlen=1059.0, kl=0.285, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:05<02:44,  2.46s/it, pg=0.175, rm=0.938, ret=-0.194, glen=147, tlen=1.15e+3, kl=0.266, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:05<02:34,  2.34s/it, pg=0.175, rm=0.938, ret=-0.194, glen=147, tlen=1.15e+3, kl=0.266, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:07<02:34,  2.34s/it, pg=0.0704, rm=0.875, ret=-0.0896, glen=159, tlen=978, kl=0.268, act_lr=9.41e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:07<02:32,  2.35s/it, pg=0.0704, rm=0.875, ret=-0.0896, glen=159, tlen=978, kl=0.268, act_lr=9.41e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:17<02:32,  2.35s/it, pg=0.0988, rm=0.938, ret=-0.121, glen=161, tlen=869, kl=0.303, act_lr=9.4e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:17<04:51,  4.56s/it, pg=0.0988, rm=0.938, ret=-0.121, glen=161, tlen=869, kl=0.303, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:20<04:51,  4.56s/it, pg=0.2, rm=0.812, ret=-0.222, glen=169, tlen=1.1e+3, kl=0.286, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:20<04:11,  4.00s/it, pg=0.2, rm=0.812, ret=-0.222, glen=169, tlen=1.1e+3, kl=0.286, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:22<04:11,  4.00s/it, pg=0.0913, rm=0.938, ret=-0.114, glen=163, tlen=805, kl=0.292, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:22<03:36,  3.50s/it, pg=0.0913, rm=0.938, ret=-0.114, glen=163, tlen=805, kl=0.292, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:24<03:36,  3.50s/it, pg=0.103, rm=0.812, ret=-0.124, glen=142, tlen=1014.0, kl=0.276, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:24<03:11,  3.14s/it, pg=0.103, rm=0.812, ret=-0.124, glen=142, tlen=1014.0, kl=0.276, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:27<03:11,  3.14s/it, pg=0.0838, rm=0.875, ret=-0.105, glen=142, tlen=906, kl=0.3, act_lr=9.4e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:27<02:52,  2.87s/it, pg=0.0838, rm=0.875, ret=-0.105, glen=142, tlen=906, kl=0.3, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:29<02:52,  2.87s/it, pg=-0.029, rm=1, ret=0.00795, glen=155, tlen=938, kl=0.288, act_lr=9.4e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:29<02:40,  2.72s/it, pg=-0.029, rm=1, ret=0.00795, glen=155, tlen=938, kl=0.288, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:31<02:40,  2.72s/it, pg=0.105, rm=0.812, ret=-0.124, glen=141, tlen=960, kl=0.275, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:31<02:26,  2.52s/it, pg=0.105, rm=0.812, ret=-0.124, glen=141, tlen=960, kl=0.275, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:33<02:26,  2.52s/it, pg=-0.0946, rm=1.12, ret=0.0763, glen=146, tlen=923, kl=0.276, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:33<02:13,  2.34s/it, pg=-0.0946, rm=1.12, ret=0.0763, glen=146, tlen=923, kl=0.276, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:43<02:13,  2.34s/it, pg=0.109, rm=0.938, ret=-0.131, glen=158, tlen=936, kl=0.303, act_lr=9.4e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:43<04:12,  4.51s/it, pg=0.109, rm=0.938, ret=-0.131, glen=158, tlen=936, kl=0.303, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:45<04:12,  4.51s/it, pg=-0.0972, rm=1.06, ret=0.0748, glen=158, tlen=949, kl=0.307, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:45<03:28,  3.79s/it, pg=-0.0972, rm=1.06, ret=0.0748, glen=158, tlen=949, kl=0.307, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:47<03:28,  3.79s/it, pg=-0.386, rm=1, ret=0.369, glen=147, tlen=958, kl=0.298, act_lr=9.4e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:47<02:58,  3.30s/it, pg=-0.386, rm=1, ret=0.369, glen=147, tlen=958, kl=0.298, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:49<02:58,  3.30s/it, pg=-0.144, rm=1, ret=0.123, glen=146, tlen=772, kl=0.312, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:49<02:32,  2.88s/it, pg=-0.144, rm=1, ret=0.123, glen=146, tlen=772, kl=0.312, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:51<02:32,  2.88s/it, pg=0.105, rm=0.812, ret=-0.124, glen=143, tlen=1.01e+3, kl=0.278, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:51<02:20,  2.70s/it, pg=0.105, rm=0.812, ret=-0.124, glen=143, tlen=1.01e+3, kl=0.278, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:53<02:20,  2.70s/it, pg=0.0768, rm=0.812, ret=-0.0974, glen=153, tlen=1.01e+3, kl=0.291, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:53<02:12,  2.60s/it, pg=0.0768, rm=0.812, ret=-0.0974, glen=153, tlen=1.01e+3, kl=0.291, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:56<02:12,  2.60s/it, pg=0.101, rm=0.875, ret=-0.121, glen=144, tlen=1.09e+3, kl=0.312, act_lr=9.4e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:56<02:03,  2.46s/it, pg=0.101, rm=0.875, ret=-0.121, glen=144, tlen=1.09e+3, kl=0.312, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:58<02:03,  2.46s/it, pg=0.0792, rm=1.06, ret=-0.0994, glen=152, tlen=899, kl=0.289, act_lr=9.4e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:58<01:54,  2.34s/it, pg=0.0792, rm=1.06, ret=-0.0994, glen=152, tlen=899, kl=0.289, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:08<01:54,  2.34s/it, pg=0.0173, rm=0.875, ret=-0.0378, glen=150, tlen=961, kl=0.3, act_lr=9.4e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:08<03:49,  4.78s/it, pg=0.0173, rm=0.875, ret=-0.0378, glen=150, tlen=961, kl=0.3, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:10<03:49,  4.78s/it, pg=-0.0272, rm=0.75, ret=0.00418, glen=164, tlen=831, kl=0.297, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:10<03:04,  3.93s/it, pg=-0.0272, rm=0.75, ret=0.00418, glen=164, tlen=831, kl=0.297, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:13<03:04,  3.93s/it, pg=-0.0163, rm=0.812, ret=-0.00493, glen=155, tlen=951, kl=0.281, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:13<02:42,  3.54s/it, pg=-0.0163, rm=0.812, ret=-0.00493, glen=155, tlen=951, kl=0.281, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:15<02:42,  3.54s/it, pg=0.131, rm=0.938, ret=-0.154, glen=166, tlen=860, kl=0.301, act_lr=9.4e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:15<02:17,  3.05s/it, pg=0.131, rm=0.938, ret=-0.154, glen=166, tlen=860, kl=0.301, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:16<02:17,  3.05s/it, pg=0.0762, rm=0.938, ret=-0.0988, glen=158, tlen=814, kl=0.311, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:16<01:58,  2.69s/it, pg=0.0762, rm=0.938, ret=-0.0988, glen=158, tlen=814, kl=0.311, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:18<01:58,  2.69s/it, pg=-0.0174, rm=1.06, ret=-0.00681, glen=167, tlen=936, kl=0.314, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:18<01:47,  2.51s/it, pg=-0.0174, rm=1.06, ret=-0.00681, glen=167, tlen=936, kl=0.314, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:20<01:47,  2.51s/it, pg=0.184, rm=0.812, ret=-0.203, glen=152, tlen=798, kl=0.306, act_lr=9.4e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:20<01:39,  2.37s/it, pg=0.184, rm=0.812, ret=-0.203, glen=152, tlen=798, kl=0.306, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:23<01:39,  2.37s/it, pg=-0.312, rm=1.06, ret=0.292, glen=154, tlen=797, kl=0.306, act_lr=9.4e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:23<01:32,  2.27s/it, pg=-0.312, rm=1.06, ret=0.292, glen=154, tlen=797, kl=0.306, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:32<01:32,  2.27s/it, pg=0.0646, rm=1.06, ret=-0.0866, glen=165, tlen=1.06e+3, kl=0.297, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:32<03:02,  4.56s/it, pg=0.0646, rm=1.06, ret=-0.0866, glen=165, tlen=1.06e+3, kl=0.297, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:35<03:02,  4.56s/it, pg=0.0131, rm=0.938, ret=-0.0332, glen=174, tlen=646, kl=0.292, act_lr=9.4e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:35<02:28,  3.82s/it, pg=0.0131, rm=0.938, ret=-0.0332, glen=174, tlen=646, kl=0.292, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:36<02:28,  3.82s/it, pg=0.0374, rm=1.12, ret=-0.0597, glen=169, tlen=823, kl=0.282, act_lr=9.4e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:36<02:02,  3.22s/it, pg=0.0374, rm=1.12, ret=-0.0597, glen=169, tlen=823, kl=0.282, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|���██████   | 90/128 [04:39<02:02,  3.22s/it, pg=0.145, rm=0.875, ret=-0.165, glen=156, tlen=1.16e+3, kl=0.285, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:39<01:50,  2.98s/it, pg=0.145, rm=0.875, ret=-0.165, glen=156, tlen=1.16e+3, kl=0.285, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:41<01:50,  2.98s/it, pg=-0.0442, rm=0.875, ret=0.0226, glen=160, tlen=749, kl=0.294, act_lr=9.4e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:41<01:37,  2.71s/it, pg=-0.0442, rm=0.875, ret=0.0226, glen=160, tlen=749, kl=0.294, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:43<01:37,  2.71s/it, pg=-0.247, rm=1.06, ret=0.23, glen=149, tlen=806, kl=0.292, act_lr=9.4e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:43<01:25,  2.46s/it, pg=-0.247, rm=1.06, ret=0.23, glen=149, tlen=806, kl=0.292, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:45<01:25,  2.46s/it, pg=-0.0609, rm=1.12, ret=0.0412, glen=160, tlen=1.06e+3, kl=0.264, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:45<01:21,  2.40s/it, pg=-0.0609, rm=1.12, ret=0.0412, glen=160, tlen=1.06e+3, kl=0.264, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:47<01:21,  2.40s/it, pg=0.043, rm=0.75, ret=-0.0642, glen=157, tlen=826, kl=0.31, act_lr=9.4e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:47<01:13,  2.23s/it, pg=0.043, rm=0.75, ret=-0.0642, glen=157, tlen=826, kl=0.31, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:57<01:13,  2.23s/it, pg=-0.123, rm=1, ret=0.101, glen=150, tlen=966, kl=0.309, act_lr=9.4e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:57<02:27,  4.59s/it, pg=-0.123, rm=1, ret=0.101, glen=150, tlen=966, kl=0.309, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:59<02:27,  4.59s/it, pg=-0.14, rm=0.938, ret=0.12, glen=155, tlen=750, kl=0.266, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:59<01:57,  3.80s/it, pg=-0.14, rm=0.938, ret=0.12, glen=155, tlen=750, kl=0.266, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [05:01<01:57,  3.80s/it, pg=0.0396, rm=0.875, ret=-0.0611, glen=150, tlen=1.02e+3, kl=0.303, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:01<01:38,  3.28s/it, pg=0.0396, rm=0.875, ret=-0.0611, glen=150, tlen=1.02e+3, kl=0.303, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [05:03<01:38,  3.28s/it, pg=0.072, rm=0.938, ret=-0.0903, glen=138, tlen=1142.5, kl=0.267, act_lr=9.4e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:03<01:26,  2.99s/it, pg=0.072, rm=0.938, ret=-0.0903, glen=138, tlen=1142.5, kl=0.267, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:06<01:26,  2.99s/it, pg=0.0437, rm=0.938, ret=-0.0648, glen=152, tlen=810, kl=0.3, act_lr=9.4e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:06<01:18,  2.80s/it, pg=0.0437, rm=0.938, ret=-0.0648, glen=152, tlen=810, kl=0.3, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:08<01:18,  2.80s/it, pg=0.075, rm=0.75, ret=-0.0956, glen=149, tlen=1.01e+3, kl=0.283, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:08<01:11,  2.63s/it, pg=0.075, rm=0.75, ret=-0.0956, glen=149, tlen=1.01e+3, kl=0.283, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████���  | 101/128 [05:10<01:11,  2.63s/it, pg=0.0833, rm=0.812, ret=-0.104, glen=147, tlen=921, kl=0.283, act_lr=9.4e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:10<01:02,  2.40s/it, pg=0.0833, rm=0.812, ret=-0.104, glen=147, tlen=921, kl=0.283, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:12<01:02,  2.40s/it, pg=-0.0286, rm=1, ret=0.00776, glen=152, tlen=892, kl=0.305, act_lr=9.4e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:12<00:58,  2.32s/it, pg=-0.0286, rm=1, ret=0.00776, glen=152, tlen=892, kl=0.305, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:22<00:58,  2.32s/it, pg=0.066, rm=1, ret=-0.0857, glen=143, tlen=1.22e+3, kl=0.286, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:22<01:55,  4.81s/it, pg=0.066, rm=1, ret=-0.0857, glen=143, tlen=1.22e+3, kl=0.286, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:25<01:55,  4.81s/it, pg=0.252, rm=0.688, ret=-0.275, glen=160, tlen=766, kl=0.299, act_lr=9.4e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:25<01:32,  4.02s/it, pg=0.252, rm=0.688, ret=-0.275, glen=160, tlen=766, kl=0.299, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:27<01:32,  4.02s/it, pg=-0.0696, rm=1, ret=0.0484, glen=147, tlen=851, kl=0.309, act_lr=9.4e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:27<01:15,  3.44s/it, pg=-0.0696, rm=1, ret=0.0484, glen=147, tlen=851, kl=0.309, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:29<01:15,  3.44s/it, pg=0.073, rm=0.75, ret=-0.0913, glen=147, tlen=1e+3, kl=0.258, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:29<01:04,  3.06s/it, pg=0.073, rm=0.75, ret=-0.0913, glen=147, tlen=1e+3, kl=0.258, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:31<01:04,  3.06s/it, pg=-0.0569, rm=1.12, ret=0.0358, glen=167, tlen=1065.25, kl=0.285, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:31<00:55,  2.76s/it, pg=-0.0569, rm=1.12, ret=0.0358, glen=167, tlen=1065.25, kl=0.285, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:33<00:55,  2.76s/it, pg=-0.0188, rm=1.06, ret=-0.00317, glen=175, tlen=943, kl=0.28, act_lr=9.4e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:33<00:48,  2.56s/it, pg=-0.0188, rm=1.06, ret=-0.00317, glen=175, tlen=943, kl=0.28, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:35<00:48,  2.56s/it, pg=0.201, rm=0.812, ret=-0.22, glen=148, tlen=959, kl=0.301, act_lr=9.4e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:35<00:42,  2.36s/it, pg=0.201, rm=0.812, ret=-0.22, glen=148, tlen=959, kl=0.301, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:37<00:42,  2.36s/it, pg=-0.0124, rm=1.12, ret=-0.00633, glen=138, tlen=1.28e+3, kl=0.271, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:37<00:40,  2.37s/it, pg=-0.0124, rm=1.12, ret=-0.00633, glen=138, tlen=1.28e+3, kl=0.271, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:48<00:40,  2.37s/it, pg=0.00664, rm=0.938, ret=-0.029, glen=152, tlen=847, kl=0.309, act_lr=9.4e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:48<01:15,  4.72s/it, pg=0.00664, rm=0.938, ret=-0.029, glen=152, tlen=847, kl=0.309, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:49<01:15,  4.72s/it, pg=0.142, rm=0.812, ret=-0.16, glen=148, tlen=744, kl=0.279, act_lr=9.4e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:49<00:58,  3.88s/it, pg=0.142, rm=0.812, ret=-0.16, glen=148, tlen=744, kl=0.279, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:51<00:58,  3.88s/it, pg=0.131, rm=0.875, ret=-0.153, glen=166, tlen=860, kl=0.295, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:51<00:45,  3.28s/it, pg=0.131, rm=0.875, ret=-0.153, glen=166, tlen=860, kl=0.295, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:54<00:45,  3.28s/it, pg=-0.178, rm=1, ret=0.158, glen=140, tlen=1.14e+3, kl=0.273, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:54<00:39,  3.04s/it, pg=-0.178, rm=1, ret=0.158, glen=140, tlen=1.14e+3, kl=0.273, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:56<00:39,  3.04s/it, pg=-0.0453, rm=1.06, ret=0.0273, glen=143, tlen=1.15e+3, kl=0.291, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:56<00:33,  2.83s/it, pg=-0.0453, rm=1.06, ret=0.0273, glen=143, tlen=1.15e+3, kl=0.291, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:58<00:33,  2.83s/it, pg=0.0425, rm=1.06, ret=-0.0622, glen=156, tlen=985, kl=0.274, act_lr=9.4e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:58<00:28,  2.55s/it, pg=0.0425, rm=1.06, ret=-0.0622, glen=156, tlen=985, kl=0.274, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [06:00<00:28,  2.55s/it, pg=-0.0166, rm=1.19, ret=-0.00281, glen=150, tlen=1.11e+3, kl=0.276, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [06:00<00:24,  2.48s/it, pg=-0.0166, rm=1.19, ret=-0.00281, glen=150, tlen=1.11e+3, kl=0.276, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [06:02<00:24,  2.48s/it, pg=0.0197, rm=1, ret=-0.0375, glen=140, tlen=1.09e+3, kl=0.268, act_lr=9.4e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:02<00:20,  2.31s/it, pg=0.0197, rm=1, ret=-0.0375, glen=140, tlen=1.09e+3, kl=0.268, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:12<00:20,  2.31s/it, pg=0.0579, rm=0.812, ret=-0.0801, glen=163, tlen=811, kl=0.278, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:12<00:36,  4.54s/it, pg=0.0579, rm=0.812, ret=-0.0801, glen=163, tlen=811, kl=0.278, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:14<00:36,  4.54s/it, pg=-0.0419, rm=0.875, ret=0.0215, glen=163, tlen=752, kl=0.295, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:14<00:26,  3.75s/it, pg=-0.0419, rm=0.875, ret=0.0215, glen=163, tlen=752, kl=0.295, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:16<00:26,  3.75s/it, pg=-0.102, rm=0.938, ret=0.0855, glen=139, tlen=960, kl=0.275, act_lr=9.4e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:16<00:19,  3.26s/it, pg=-0.102, rm=0.938, ret=0.0855, glen=139, tlen=960, kl=0.275, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:18<00:19,  3.26s/it, pg=-0.0674, rm=1, ret=0.0463, glen=150, tlen=806, kl=0.292, act_lr=9.4e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:18<00:14,  2.95s/it, pg=-0.0674, rm=1, ret=0.0463, glen=150, tlen=806, kl=0.292, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:20<00:14,  2.95s/it, pg=0.0568, rm=0.75, ret=-0.0792, glen=158, tlen=772, kl=0.303, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:20<00:10,  2.69s/it, pg=0.0568, rm=0.75, ret=-0.0792, glen=158, tlen=772, kl=0.303, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:22<00:10,  2.69s/it, pg=0.096, rm=0.75, ret=-0.118, glen=154, tlen=789, kl=0.294, act_lr=9.4e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:22<00:07,  2.45s/it, pg=0.096, rm=0.75, ret=-0.118, glen=154, tlen=789, kl=0.294, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:25<00:07,  2.45s/it, pg=-0.0133, rm=0.938, ret=-0.00602, glen=148, tlen=965, kl=0.296, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:25<00:04,  2.43s/it, pg=-0.0133, rm=0.938, ret=-0.00602, glen=148, tlen=965, kl=0.296, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:27<00:04,  2.43s/it, pg=0.136, rm=1, ret=-0.156, glen=153, tlen=867, kl=0.3, act_lr=9.4e-7]          [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:27<00:02,  2.47s/it, pg=0.136, rm=1, ret=-0.156, glen=153, tlen=867, kl=0.3, act_lr=9.4e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:37<00:02,  2.47s/it, pg=-0.0132, rm=0.812, ret=-0.0106, glen=169, tlen=965, kl=0.29, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:37<00:00,  4.60s/it, pg=-0.0132, rm=0.812, ret=-0.0106, glen=169, tlen=965, kl=0.29, act_lr=9.39e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:37<00:00,  3.10s/it, pg=-0.0132, rm=0.812, ret=-0.0106, glen=169, tlen=965, kl=0.29, act_lr=9.39e-7]
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 13:38:24 [executor_base.py:219] It took 1.558122 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279378)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 13:38:25 [executor_base.py:219] It took 3.332018 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3351x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.11.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 865x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.21.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 960x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:38:47 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:38:47 [executor_base.py:208] It took 1.411256 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 606x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   9%|▊         | 11/127 [2:25:29<23:40:42, 734.85s/it, policy_loss=0.0242, actor_lr=9.4e-7, kl=0.292, reward=0.926, response_length=154, total_length=907, acc_rewards=0.426, format_rewards=0.5, return=-0.0451] 
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   9%|▉         | 12/127 [2:25:29<23:20:31, 730.71s/it, policy_loss=0.0242, actor_lr=9.4e-7, kl=0.292, reward=0.926, response_length=154, total_length=907, acc_rewards=0.426, format_rewards=0.5, return=-0.0451]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:38:49 [executor_base.py:219] It took 1.486471 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 1/256 [00:17<1:13:03, 17.19s/it, est. speed input: 89.93 toks/s, output: 5.06 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   1%|          | 2/256 [00:17<30:23,  7.18s/it, est. speed input: 178.13 toks/s, output: 10.25 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   1%|          | 3/256 [00:17<16:56,  4.02s/it, est. speed input: 197.96 toks/s, output: 15.61 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:17<07:29,  1.79s/it, est. speed input: 311.20 toks/s, output: 26.71 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   3%|▎         | 8/256 [00:17<03:26,  1.20it/s, est. speed input: 567.91 toks/s, output: 43.72 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   4%|▍         | 11/256 [00:18<01:59,  2.06it/s, est. speed input: 629.37 toks/s, output: 60.96 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   5%|▌         | 14/256 [00:18<01:17,  3.12it/s, est. speed input: 752.02 toks/s, output: 78.30 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   8%|▊         | 21/256 [00:18<00:35,  6.66it/s, est. speed input: 977.93 toks/s, output: 120.64 toks/s]
+Processed prompts:  11%|█         | 28/256 [00:18<00:20, 10.99it/s, est. speed input: 1251.75 toks/s, output: 163.46 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  13%|█▎        | 34/256 [00:18<00:15, 14.64it/s, est. speed input: 1385.48 toks/s, output: 200.24 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  19%|█▉        | 49/256 [00:18<00:07, 28.79it/s, est. speed input: 1766.05 toks/s, output: 297.03 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  22%|██▏       | 56/256 [00:19<00:07, 26.98it/s, est. speed input: 2007.16 toks/s, output: 339.51 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  24%|██▍       | 62/256 [00:19<00:06, 29.27it/s, est. speed input: 2182.79 toks/s, output: 378.75 toks/s]
+Processed prompts:  29%|██▊       | 73/256 [00:19<00:04, 40.75it/s, est. speed input: 2481.19 toks/s, output: 454.71 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  32%|███▏      | 81/256 [00:19<00:03, 47.32it/s, est. speed input: 2649.11 toks/s, output: 510.07 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  35%|███▌      | 90/256 [00:19<00:02, 55.62it/s, est. speed input: 2838.29 toks/s, output: 573.36 toks/s]
+Processed prompts:  38%|███▊      | 98/256 [00:19<00:02, 60.32it/s, est. speed input: 3056.64 toks/s, output: 630.31 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  42%|████▏     | 107/256 [00:19<00:02, 63.33it/s, est. speed input: 3233.48 toks/s, output: 694.60 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  46%|████▌     | 118/256 [00:19<00:01, 70.27it/s, est. speed input: 3475.30 toks/s, output: 775.40 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  52%|█████▏    | 134/256 [00:19<00:01, 88.77it/s, est. speed input: 3814.88 toks/s, output: 897.07 toks/s]
+Processed prompts:  59%|█████▉    | 152/256 [00:20<00:00, 111.51it/s, est. speed input: 4178.52 toks/s, output: 1037.63 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  66%|██████▌   | 168/256 [00:20<00:00, 119.13it/s, est. speed input: 4522.84 toks/s, output: 1163.20 toks/s]
+Processed prompts:  74%|███████▍  | 189/256 [00:20<00:00, 139.16it/s, est. speed input: 4965.94 toks/s, output: 1333.37 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  82%|████████▏ | 210/256 [00:20<00:00, 151.08it/s, est. speed input: 5402.11 toks/s, output: 1507.33 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  88%|████████▊ | 226/256 [00:20<00:00, 127.93it/s, est. speed input: 5733.15 toks/s, output: 1638.75 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  94%|█████████▍| 241/256 [00:20<00:00, 131.81it/s, est. speed input: 6019.62 toks/s, output: 1770.39 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:21<00:00, 73.94it/s, est. speed input: 6192.53 toks/s, output: 1873.60 toks/s] 
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:21<00:00, 12.05it/s, est. speed input: 6175.03 toks/s, output: 1873.88 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   6%|▋         | 16/256 [00:21<00:46,  5.18it/s, est. speed input: 378.68 toks/s, output: 79.31 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  37%|███▋      | 95/256 [00:22<00:02, 76.50it/s, est. speed input: 2800.98 toks/s, output: 541.30 toks/s]
+Processed prompts:  43%|████▎     | 109/256 [00:22<00:01, 91.62it/s, est. speed input: 3170.95 toks/s, output: 629.38 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  97%|█████████▋| 248/256 [00:23<00:00, 95.45it/s, est. speed input: 6346.99 toks/s, output: 1603.27 toks/s] [32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   5%|▌         | 13/256 [00:24<02:37,  1.54it/s, est. speed input: 720.24 toks/s, output: 58.47 toks/s][32m [repeated 25x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  14%|█▎        | 35/256 [00:24<00:21, 10.27it/s, est. speed input: 1239.50 toks/s, output: 153.94 toks/s]
+Processed prompts:  18%|█▊        | 46/256 [00:25<00:11, 18.99it/s, est. speed input: 1700.01 toks/s, output: 207.61 toks/s][32m [repeated 9x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  88%|████████▊ | 226/256 [00:27<00:00, 119.06it/s, est. speed input: 5828.09 toks/s, output: 1284.88 toks/s]
+Processed prompts:  93%|█████████▎| 239/256 [00:27<00:00, 115.55it/s, est. speed input: 6132.64 toks/s, output: 1373.96 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00, 61.41it/s, est. speed input: 6452.50 toks/s, output: 1414.51 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.33it/s, est. speed input: 6452.50 toks/s, output: 1414.51 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00,  8.78it/s, est. speed input: 6104.18 toks/s, output: 1416.55 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 1/256 [00:21<1:29:33, 21.07s/it, est. speed input: 18.51 toks/s, output: 4.60 toks/s][32m [repeated 24x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   2%|▏         | 4/256 [00:21<12:45,  3.04s/it, est. speed input: 82.93 toks/s, output: 19.29 toks/s]
+Processed prompts:   2%|▏         | 6/256 [00:21<06:05,  1.46s/it, est. speed input: 123.82 toks/s, output: 29.66 toks/s][32m [repeated 11x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:24<00:00, 10.34it/s, est. speed input: 6193.49 toks/s, output: 1619.88 toks/s] [32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  86%|████████▌ | 220/256 [00:31<00:00, 135.56it/s, est. speed input: 6080.35 toks/s, output: 1014.46 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:31<00:00, 126.69it/s, est. speed input: 6395.63 toks/s, output: 1092.27 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  48%|████▊     | 123/256 [00:25<00:01, 95.09it/s, est. speed input: 3790.29 toks/s, output: 643.62 toks/s][32m [repeated 33x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  69%|██████▉   | 176/256 [00:26<00:00, 114.09it/s, est. speed input: 4853.53 toks/s, output: 963.82 toks/s]
+Processed prompts:  75%|███████▌  | 192/256 [00:26<00:00, 122.13it/s, est. speed input: 5156.29 toks/s, output: 1065.45 toks/s][32m [repeated 17x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [01:11<00:00,  1.21s/it, est. speed input: 2137.56 toks/s, output: 604.87 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [01:11<00:00,  3.56it/s, est. speed input: 2137.56 toks/s, output: 604.87 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.42it/s, est. speed input: 6297.73 toks/s, output: 1475.32 toks/s] [32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  90%|█████████ | 231/256 [00:26<00:00, 154.14it/s, est. speed input: 5961.13 toks/s, output: 1325.00 toks/s][32m [repeated 3x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:38:47 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.33 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:38:47 [executor_base.py:208] It took 1.515151 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 13:38:51 [executor_base.py:219] It took 3.196019 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 1003x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 1003x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m  
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:41:05 [worker.py:133] Sleep mode freed 38.28 GiB memory, 21.76 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:41:05 [executor_base.py:208] It took 1.507166 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287374)[0m ele.get("min_pixels" 3136[32m [repeated 864x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m ele.get("max_pixels" 1254400[32m [repeated 864x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:21,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:12,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:03<02:14,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:04<02:09,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:05<02:08,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:06<02:04,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:07<02:02,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:08<02:00,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:09<02:10,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:10<02:16,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:12<02:23,  1.23s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:13<02:25,  1.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:14<02:27,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:16<02:27,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:17<02:25,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:18<02:26,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:20<02:27,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:21<02:28,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:22<02:26,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:24<02:27,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:25<02:22,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:26<02:22,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:28<02:23,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:29<02:21,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:30<02:08,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:31<01:57,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:32<01:50,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:33<01:44,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:34<01:40,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:35<01:38,  1.00s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:36<01:36,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:37<01:33,  1.02it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:38<01:44,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:40<01:50,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:41<01:55,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:42<01:58,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:44<02:00,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:45<02:01,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:47<02:01,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:48<02:02,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:49<02:00,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:51<01:57,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:52<01:55,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:54<01:56,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [00:55<01:52,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [00:56<01:51,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [00:58<01:53,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [00:59<01:50,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:00<01:40,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:01<01:35,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:02<01:29,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:03<01:24,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:04<01:22,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:05<01:18,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:06<01:17,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:07<01:16,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:09<01:22,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:10<01:25,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:12<01:28,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:13<01:30,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:14<01:30,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:16<01:29,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:17<01:30,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:19<01:29,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:20<01:28,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:21<01:27,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:23<01:25,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:24<01:24,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:26<01:22,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:27<01:20,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:28<01:19,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:30<01:16,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:31<01:15,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:33<01:14,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:34<01:13,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:35<01:11,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:37<01:10,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:38<01:09,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:39<01:08,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:41<01:06,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:42<01:03,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:43<01:02,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:45<01:00,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:46<00:58,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:47<00:57,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:49<00:55,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:50<00:54,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:51<00:53,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [01:53<00:51,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [01:54<00:52,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [01:56<00:51,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [01:57<00:51,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [01:59<00:49,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:00<00:48,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:01<00:47,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:03<00:45,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:04<00:43,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:06<00:42,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:07<00:40,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:09<00:39,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:10<00:38,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:11<00:36,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:13<00:35,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:14<00:34,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:16<00:38,  1.67s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:18<00:34,  1.59s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:19<00:32,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:21<00:30,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:22<00:28,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:24<00:27,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:25<00:24,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:27<00:23,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:28<00:20,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:29<00:17,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:30<00:15,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:31<00:14,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:32<00:12,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:33<00:11,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:34<00:10,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:35<00:08,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:37<00:08,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:38<00:07,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:40<00:06,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:41<00:05,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:43<00:04,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:44<00:02,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:45<00:01,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:47<00:00,  1.44s/it][A
+make_experience: 100%|██████████| 128/128 [02:47<00:00,  1.31s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nEvaluate the visual aesthetics of this photo using a float score from 0.00 to 5.00. A rating of 0 represents very poor aesthetic quality, while 5 represents excellent aesthetic quality.\nassistant\n<think>The image showcases a black dog lying on a grassy field with a tree in the background. The photo has a shallow depth of field, focusing on the dog while the surrounding elements are slightly out of focus. This gives the image a sense of depth but may also suggest a loss of detail in the background. The lighting appears natural, possibly taken during the day, but the overcast sky gives the scene a soft, diffused look without strong shadows. The composition is straightforward, with the dog centered in the frame, which might make the image feel a bit static. While the photo captures a moment of calm, it may lack the vibrancy or emotion that could enhance its appeal. The colors are muted, with the green of the grass and the black of the dog providing a simple palette without much visual excitement.</think>\n<answer>2.75</answer>']
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:41:05 [worker.py:133] Sleep mode freed 38.44 GiB memory, 21.45 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:41:05 [executor_base.py:208] It took 1.803200 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("min_pixels" 3136[32m [repeated 179x across cluster][0m
+[36m(ActorModelRayActor pid=287377)[0m ele.get("max_pixels" 1254400[32m [repeated 179x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.0588, rm=0.812, ret=-0.0817, glen=166, tlen=965, kl=0.305, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:29,  2.59s/it, pg=0.0588, rm=0.812, ret=-0.0817, glen=166, tlen=965, kl=0.305, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:04<05:29,  2.59s/it, pg=-0.0957, rm=0.875, ret=0.0738, glen=153, tlen=740, kl=0.32, act_lr=9.39e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:04<04:55,  2.35s/it, pg=-0.0957, rm=0.875, ret=0.0738, glen=153, tlen=740, kl=0.32, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<04:55,  2.35s/it, pg=-0.158, rm=1, ret=0.134, glen=170, tlen=754, kl=0.307, act_lr=9.39e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<04:52,  2.34s/it, pg=-0.158, rm=1, ret=0.134, glen=170, tlen=754, kl=0.307, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:08<04:52,  2.34s/it, pg=-0.0188, rm=0.875, ret=-0.00199, glen=145, tlen=805, kl=0.297, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:08<04:27,  2.16s/it, pg=-0.0188, rm=0.875, ret=-0.00199, glen=145, tlen=805, kl=0.297, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:27,  2.16s/it, pg=0.102, rm=1, ret=-0.124, glen=145, tlen=786, kl=0.335, act_lr=9.39e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:32,  2.21s/it, pg=0.102, rm=1, ret=-0.124, glen=145, tlen=786, kl=0.335, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:32,  2.21s/it, pg=0.0287, rm=0.938, ret=-0.0501, glen=151, tlen=921, kl=0.311, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:33,  2.24s/it, pg=0.0287, rm=0.938, ret=-0.0501, glen=151, tlen=921, kl=0.311, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:33,  2.24s/it, pg=-0.0957, rm=1.06, ret=0.0752, glen=149, tlen=844, kl=0.31, act_lr=9.39e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:24,  2.19s/it, pg=-0.0957, rm=1.06, ret=0.0752, glen=149, tlen=844, kl=0.31, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:25<04:24,  2.19s/it, pg=0.367, rm=0.688, ret=-0.388, glen=154, tlen=866, kl=0.302, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:25<09:26,  4.72s/it, pg=0.367, rm=0.688, ret=-0.388, glen=154, tlen=866, kl=0.302, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:27<09:26,  4.72s/it, pg=0.0304, rm=0.875, ret=-0.0528, glen=151, tlen=761, kl=0.31, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:27<07:38,  3.85s/it, pg=0.0304, rm=0.875, ret=-0.0528, glen=151, tlen=761, kl=0.31, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:29<07:38,  3.85s/it, pg=0.0631, rm=0.938, ret=-0.0868, glen=147, tlen=726, kl=0.343, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:30<06:36,  3.36s/it, pg=0.0631, rm=0.938, ret=-0.0868, glen=147, tlen=726, kl=0.343, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:31<06:36,  3.36s/it, pg=-0.0638, rm=1, ret=0.0431, glen=145, tlen=817, kl=0.304, act_lr=9.39e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:31<05:38,  2.90s/it, pg=-0.0638, rm=1, ret=0.0431, glen=145, tlen=817, kl=0.304, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:33<05:38,  2.90s/it, pg=0.0108, rm=0.875, ret=-0.0345, glen=156, tlen=758, kl=0.321, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:33<05:05,  2.63s/it, pg=0.0108, rm=0.875, ret=-0.0345, glen=156, tlen=758, kl=0.321, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:35<05:05,  2.63s/it, pg=-0.00862, rm=1.12, ret=-0.0133, glen=166, tlen=944, kl=0.297, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:35<04:42,  2.46s/it, pg=-0.00862, rm=1.12, ret=-0.0133, glen=166, tlen=944, kl=0.297, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:38<04:42,  2.46s/it, pg=-0.135, rm=1.25, ret=0.114, glen=163, tlen=866, kl=0.285, act_lr=9.39e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:27,  2.34s/it, pg=-0.135, rm=1.25, ret=0.114, glen=163, tlen=866, kl=0.285, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:39<04:27,  2.34s/it, pg=0.293, rm=0.812, ret=-0.317, glen=164, tlen=823, kl=0.321, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:39<04:09,  2.21s/it, pg=0.293, rm=0.812, ret=-0.317, glen=164, tlen=823, kl=0.321, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:50<04:09,  2.21s/it, pg=0.187, rm=0.75, ret=-0.207, glen=147, tlen=734, kl=0.313, act_lr=9.39e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:46,  4.70s/it, pg=0.187, rm=0.75, ret=-0.207, glen=147, tlen=734, kl=0.313, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:52<08:46,  4.70s/it, pg=-0.038, rm=0.875, ret=0.0157, glen=152, tlen=905, kl=0.316, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<07:21,  3.97s/it, pg=-0.038, rm=0.875, ret=0.0157, glen=152, tlen=905, kl=0.316, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:54<07:21,  3.97s/it, pg=-0.039, rm=1, ret=0.016, glen=171, tlen=843, kl=0.288, act_lr=9.39e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:54<06:14,  3.40s/it, pg=-0.039, rm=1, ret=0.016, glen=171, tlen=843, kl=0.288, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:56<06:14,  3.40s/it, pg=0.00906, rm=0.812, ret=-0.0298, glen=150, tlen=829, kl=0.289, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:56<05:20,  2.94s/it, pg=0.00906, rm=0.812, ret=-0.0298, glen=150, tlen=829, kl=0.289, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:58<05:20,  2.94s/it, pg=-0.0456, rm=1.06, ret=0.0217, glen=151, tlen=694, kl=0.343, act_lr=9.39e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:58<04:46,  2.65s/it, pg=-0.0456, rm=1.06, ret=0.0217, glen=151, tlen=694, kl=0.343, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:00<04:46,  2.65s/it, pg=0.0593, rm=0.938, ret=-0.0802, glen=144, tlen=723, kl=0.304, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:00<04:17,  2.40s/it, pg=0.0593, rm=0.938, ret=-0.0802, glen=144, tlen=723, kl=0.304, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:02<04:17,  2.40s/it, pg=-0.0136, rm=1.12, ret=-0.00687, glen=163, tlen=1.01e+3, kl=0.298, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:02<04:06,  2.32s/it, pg=-0.0136, rm=1.12, ret=-0.00687, glen=163, tlen=1.01e+3, kl=0.298, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:04<04:06,  2.32s/it, pg=0.0249, rm=0.875, ret=-0.0476, glen=142, tlen=816, kl=0.335, act_lr=9.39e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:04<03:48,  2.17s/it, pg=0.0249, rm=0.875, ret=-0.0476, glen=142, tlen=816, kl=0.335, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:13<03:48,  2.17s/it, pg=-0.00476, rm=0.938, ret=-0.0162, glen=146, tlen=869, kl=0.31, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:13<07:36,  4.39s/it, pg=-0.00476, rm=0.938, ret=-0.0162, glen=146, tlen=869, kl=0.31, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:16<07:36,  4.39s/it, pg=-0.0427, rm=1, ret=0.0204, glen=159, tlen=766, kl=0.31, act_lr=9.39e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:16<06:22,  3.72s/it, pg=-0.0427, rm=1, ret=0.0204, glen=159, tlen=766, kl=0.31, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:17<06:22,  3.72s/it, pg=-0.0156, rm=0.75, ret=-0.01, glen=156, tlen=806, kl=0.351, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:17<05:22,  3.16s/it, pg=-0.0156, rm=0.75, ret=-0.01, glen=156, tlen=806, kl=0.351, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:19<05:22,  3.16s/it, pg=-0.0283, rm=0.938, ret=0.00694, glen=151, tlen=876, kl=0.307, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:19<04:39,  2.77s/it, pg=-0.0283, rm=0.938, ret=0.00694, glen=151, tlen=876, kl=0.307, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:21<04:39,  2.77s/it, pg=0.0445, rm=0.75, ret=-0.0702, glen=173, tlen=839, kl=0.316, act_lr=9.39e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:21<04:14,  2.55s/it, pg=0.0445, rm=0.75, ret=-0.0702, glen=173, tlen=839, kl=0.316, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:24<04:14,  2.55s/it, pg=-0.0514, rm=0.875, ret=0.0278, glen=159, tlen=925, kl=0.317, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:24<04:06,  2.49s/it, pg=-0.0514, rm=0.875, ret=0.0278, glen=159, tlen=925, kl=0.317, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:26<04:06,  2.49s/it, pg=-0.0187, rm=0.875, ret=-0.00259, glen=161, tlen=748, kl=0.294, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:26<03:51,  2.37s/it, pg=-0.0187, rm=0.875, ret=-0.00259, glen=161, tlen=748, kl=0.294, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:28<03:51,  2.37s/it, pg=-0.121, rm=1.06, ret=0.0993, glen=154, tlen=829, kl=0.313, act_lr=9.39e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:28<03:43,  2.30s/it, pg=-0.121, rm=1.06, ret=0.0993, glen=154, tlen=829, kl=0.313, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:37<03:43,  2.30s/it, pg=0.049, rm=0.75, ret=-0.0717, glen=164, tlen=670, kl=0.309, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:37<07:02,  4.40s/it, pg=0.049, rm=0.75, ret=-0.0717, glen=164, tlen=670, kl=0.309, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:39<07:02,  4.40s/it, pg=-0.0612, rm=1.06, ret=0.0358, glen=164, tlen=760, kl=0.348, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:39<05:45,  3.64s/it, pg=-0.0612, rm=1.06, ret=0.0358, glen=164, tlen=760, kl=0.348, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:41<05:45,  3.64s/it, pg=0.122, rm=0.938, ret=-0.145, glen=177, tlen=697, kl=0.319, act_lr=9.39e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:41<04:51,  3.10s/it, pg=0.122, rm=0.938, ret=-0.145, glen=177, tlen=697, kl=0.319, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:44<04:51,  3.10s/it, pg=-0.0109, rm=0.938, ret=-0.0103, glen=165, tlen=857, kl=0.291, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:44<04:41,  3.03s/it, pg=-0.0109, rm=0.938, ret=-0.0103, glen=165, tlen=857, kl=0.291, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:46<04:41,  3.03s/it, pg=-0.00707, rm=0.875, ret=-0.0144, glen=169, tlen=805, kl=0.292, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:46<04:11,  2.73s/it, pg=-0.00707, rm=0.875, ret=-0.0144, glen=169, tlen=805, kl=0.292, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:48<04:11,  2.73s/it, pg=0.109, rm=0.938, ret=-0.131, glen=162, tlen=813, kl=0.292, act_lr=9.39e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:48<03:56,  2.60s/it, pg=0.109, rm=0.938, ret=-0.131, glen=162, tlen=813, kl=0.292, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:50<03:56,  2.60s/it, pg=0.0136, rm=0.812, ret=-0.0368, glen=160, tlen=826, kl=0.304, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:50<03:38,  2.43s/it, pg=0.0136, rm=0.812, ret=-0.0368, glen=160, tlen=826, kl=0.304, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:52<03:38,  2.43s/it, pg=-0.0393, rm=1, ret=0.0189, glen=143, tlen=834, kl=0.312, act_lr=9.39e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:52<03:20,  2.25s/it, pg=-0.0393, rm=1, ret=0.0189, glen=143, tlen=834, kl=0.312, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:02<03:20,  2.25s/it, pg=-0.029, rm=0.938, ret=0.0072, glen=158, tlen=882, kl=0.293, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:02<06:41,  4.56s/it, pg=-0.029, rm=0.938, ret=0.0072, glen=158, tlen=882, kl=0.293, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:04<06:41,  4.56s/it, pg=0.273, rm=1.12, ret=-0.292, glen=160, tlen=928, kl=0.27, act_lr=9.39e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:04<05:40,  3.91s/it, pg=0.273, rm=1.12, ret=-0.292, glen=160, tlen=928, kl=0.27, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:06<05:40,  3.91s/it, pg=0.239, rm=0.875, ret=-0.264, glen=164, tlen=737, kl=0.332, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:06<04:34,  3.19s/it, pg=0.239, rm=0.875, ret=-0.264, glen=164, tlen=737, kl=0.332, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:08<04:34,  3.19s/it, pg=-0.0374, rm=0.938, ret=0.016, glen=155, tlen=804, kl=0.312, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:08<04:03,  2.86s/it, pg=-0.0374, rm=0.938, ret=0.016, glen=155, tlen=804, kl=0.312, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:10<04:03,  2.86s/it, pg=-0.00327, rm=0.938, ret=-0.0191, glen=150, tlen=873, kl=0.322, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:10<03:39,  2.61s/it, pg=-0.00327, rm=0.938, ret=-0.0191, glen=150, tlen=873, kl=0.322, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:12<03:39,  2.61s/it, pg=-0.0272, rm=0.938, ret=0.00373, glen=164, tlen=889, kl=0.302, act_lr=9.39e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:12<03:25,  2.48s/it, pg=-0.0272, rm=0.938, ret=0.00373, glen=164, tlen=889, kl=0.302, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:14<03:25,  2.48s/it, pg=-0.13, rm=1.25, ret=0.11, glen=151, tlen=920, kl=0.304, act_lr=9.39e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:14<03:08,  2.30s/it, pg=-0.13, rm=1.25, ret=0.11, glen=151, tlen=920, kl=0.304, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:16<03:08,  2.30s/it, pg=0.0358, rm=1, ret=-0.0592, glen=155, tlen=850, kl=0.324, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:16<02:59,  2.21s/it, pg=0.0358, rm=1, ret=-0.0592, glen=155, tlen=850, kl=0.324, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:26<02:59,  2.21s/it, pg=0.137, rm=0.75, ret=-0.162, glen=158, tlen=804, kl=0.311, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:26<06:03,  4.54s/it, pg=0.137, rm=0.75, ret=-0.162, glen=158, tlen=804, kl=0.311, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:28<06:03,  4.54s/it, pg=-0.017, rm=0.875, ret=-0.00674, glen=152, tlen=739, kl=0.339, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:28<05:01,  3.81s/it, pg=-0.017, rm=0.875, ret=-0.00674, glen=152, tlen=739, kl=0.339, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:30<05:01,  3.81s/it, pg=-0.00319, rm=1, ret=-0.0197, glen=154, tlen=621, kl=0.332, act_lr=9.39e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:30<04:00,  3.09s/it, pg=-0.00319, rm=1, ret=-0.0197, glen=154, tlen=621, kl=0.332, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:31<04:00,  3.09s/it, pg=-0.152, rm=0.812, ret=0.129, glen=171, tlen=750, kl=0.307, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:31<03:28,  2.71s/it, pg=-0.152, rm=0.812, ret=0.129, glen=171, tlen=750, kl=0.307, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:34<03:28,  2.71s/it, pg=0.123, rm=0.938, ret=-0.144, glen=147, tlen=971, kl=0.301, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:34<03:20,  2.64s/it, pg=0.123, rm=0.938, ret=-0.144, glen=147, tlen=971, kl=0.301, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:36<03:20,  2.64s/it, pg=-0.0368, rm=1, ret=0.0163, glen=149, tlen=840, kl=0.318, act_lr=9.39e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:36<03:08,  2.51s/it, pg=-0.0368, rm=1, ret=0.0163, glen=149, tlen=840, kl=0.318, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:38<03:08,  2.51s/it, pg=-0.383, rm=1.06, ret=0.359, glen=166, tlen=624, kl=0.302, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:38<02:45,  2.24s/it, pg=-0.383, rm=1.06, ret=0.359, glen=166, tlen=624, kl=0.302, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:39<02:45,  2.24s/it, pg=0.00567, rm=0.875, ret=-0.0283, glen=154, tlen=757, kl=0.31, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:39<02:33,  2.10s/it, pg=0.00567, rm=0.875, ret=-0.0283, glen=154, tlen=757, kl=0.31, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:49<02:33,  2.10s/it, pg=0.00727, rm=0.812, ret=-0.0306, glen=156, tlen=835, kl=0.31, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:49<05:08,  4.28s/it, pg=0.00727, rm=0.812, ret=-0.0306, glen=156, tlen=835, kl=0.31, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:51<05:08,  4.28s/it, pg=0.0154, rm=0.812, ret=-0.0388, glen=153, tlen=819, kl=0.331, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:51<04:24,  3.73s/it, pg=0.0154, rm=0.812, ret=-0.0388, glen=153, tlen=819, kl=0.331, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:53<04:24,  3.73s/it, pg=-0.0331, rm=1.06, ret=0.0117, glen=150, tlen=766, kl=0.307, act_lr=9.39e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:53<03:41,  3.16s/it, pg=-0.0331, rm=1.06, ret=0.0117, glen=150, tlen=766, kl=0.307, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:55<03:41,  3.16s/it, pg=0.0145, rm=0.875, ret=-0.0399, glen=164, tlen=766, kl=0.338, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:55<03:10,  2.76s/it, pg=0.0145, rm=0.875, ret=-0.0399, glen=164, tlen=766, kl=0.338, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:57<03:10,  2.76s/it, pg=-0.00371, rm=0.812, ret=-0.0202, glen=152, tlen=865, kl=0.325, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:57<02:53,  2.55s/it, pg=-0.00371, rm=0.812, ret=-0.0202, glen=152, tlen=865, kl=0.325, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:59<02:53,  2.55s/it, pg=0.109, rm=1.06, ret=-0.132, glen=161, tlen=1e+3, kl=0.298, act_lr=9.39e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:59<02:40,  2.40s/it, pg=0.109, rm=1.06, ret=-0.132, glen=161, tlen=1e+3, kl=0.298, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:01<02:40,  2.40s/it, pg=0.0613, rm=1, ret=-0.0817, glen=149, tlen=889, kl=0.294, act_lr=9.39e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:01<02:27,  2.23s/it, pg=0.0613, rm=1, ret=-0.0817, glen=149, tlen=889, kl=0.294, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:03<02:27,  2.23s/it, pg=0.175, rm=1, ret=-0.198, glen=156, tlen=841, kl=0.304, act_lr=9.39e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:03<02:18,  2.13s/it, pg=0.175, rm=1, ret=-0.198, glen=156, tlen=841, kl=0.304, act_lr=9.39e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 13:47:14,031] [INFO] [timer.py:264:stop] epoch=0/micro_step=1600/global_step=200, RunningAvgSamplesPerSec=5.762171308702946, CurrSamplesPerSec=5.747953997936272, MemAllocated=3.58GB, MaxMemAllocated=20.92GB
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:13<02:18,  2.13s/it, pg=-0.054, rm=0.875, ret=0.0324, glen=161, tlen=927, kl=0.284, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:13<04:55,  4.62s/it, pg=-0.054, rm=0.875, ret=0.0324, glen=161, tlen=927, kl=0.284, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:15<04:55,  4.62s/it, pg=0.0297, rm=1, ret=-0.052, glen=154, tlen=914, kl=0.305, act_lr=9.38e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:15<04:01,  3.83s/it, pg=0.0297, rm=1, ret=-0.052, glen=154, tlen=914, kl=0.305, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:17<04:01,  3.83s/it, pg=0.103, rm=0.812, ret=-0.123, glen=151, tlen=811, kl=0.283, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:17<03:25,  3.31s/it, pg=0.103, rm=0.812, ret=-0.123, glen=151, tlen=811, kl=0.283, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:19<03:25,  3.31s/it, pg=0.217, rm=0.688, ret=-0.237, glen=156, tlen=730, kl=0.3, act_lr=9.38e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:19<02:55,  2.88s/it, pg=0.217, rm=0.688, ret=-0.237, glen=156, tlen=730, kl=0.3, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:22<02:55,  2.88s/it, pg=0.185, rm=0.938, ret=-0.207, glen=163, tlen=968, kl=0.303, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:22<02:44,  2.74s/it, pg=0.185, rm=0.938, ret=-0.207, glen=163, tlen=968, kl=0.303, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:23<02:44,  2.74s/it, pg=0.212, rm=1, ret=-0.23, glen=152, tlen=760, kl=0.324, act_lr=9.38e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:23<02:26,  2.48s/it, pg=0.212, rm=1, ret=-0.23, glen=152, tlen=760, kl=0.324, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:25<02:26,  2.48s/it, pg=-0.0778, rm=0.875, ret=0.0511, glen=158, tlen=825, kl=0.361, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:25<02:12,  2.29s/it, pg=-0.0778, rm=0.875, ret=0.0511, glen=158, tlen=825, kl=0.361, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:27<02:12,  2.29s/it, pg=-0.0181, rm=0.875, ret=-0.00376, glen=159, tlen=746, kl=0.304, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:27<02:02,  2.15s/it, pg=-0.0181, rm=0.875, ret=-0.00376, glen=159, tlen=746, kl=0.304, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:38<02:02,  2.15s/it, pg=0.159, rm=0.875, ret=-0.18, glen=158, tlen=757, kl=0.288, act_lr=9.38e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:38<04:20,  4.66s/it, pg=0.159, rm=0.875, ret=-0.18, glen=158, tlen=757, kl=0.288, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:40<04:20,  4.66s/it, pg=0.202, rm=1.06, ret=-0.222, glen=158, tlen=838, kl=0.313, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:40<03:31,  3.85s/it, pg=0.202, rm=1.06, ret=-0.222, glen=158, tlen=838, kl=0.313, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:42<03:31,  3.85s/it, pg=0.0586, rm=1, ret=-0.0783, glen=159, tlen=963, kl=0.289, act_lr=9.38e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:42<02:59,  3.32s/it, pg=0.0586, rm=1, ret=-0.0783, glen=159, tlen=963, kl=0.289, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:43<02:59,  3.32s/it, pg=-0.0173, rm=0.938, ret=-0.00493, glen=152, tlen=779, kl=0.309, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:43<02:32,  2.88s/it, pg=-0.0173, rm=0.938, ret=-0.00493, glen=152, tlen=779, kl=0.309, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:46<02:32,  2.88s/it, pg=-0.00346, rm=0.938, ret=-0.0203, glen=159, tlen=882, kl=0.311, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:46<02:24,  2.78s/it, pg=-0.00346, rm=0.938, ret=-0.0203, glen=159, tlen=882, kl=0.311, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:48<02:24,  2.78s/it, pg=0.224, rm=1, ret=-0.244, glen=160, tlen=844, kl=0.313, act_lr=9.38e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:48<02:08,  2.51s/it, pg=0.224, rm=1, ret=-0.244, glen=160, tlen=844, kl=0.313, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:50<02:08,  2.51s/it, pg=-0.0378, rm=1.06, ret=0.0158, glen=154, tlen=795, kl=0.313, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:50<01:59,  2.38s/it, pg=-0.0378, rm=1.06, ret=0.0158, glen=154, tlen=795, kl=0.313, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:52<01:59,  2.38s/it, pg=0.0785, rm=1, ret=-0.0993, glen=165, tlen=908, kl=0.286, act_lr=9.38e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:52<01:53,  2.31s/it, pg=0.0785, rm=1, ret=-0.0993, glen=165, tlen=908, kl=0.286, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:02<01:53,  2.31s/it, pg=0.0244, rm=1, ret=-0.0445, glen=155, tlen=766, kl=0.287, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:02<03:42,  4.63s/it, pg=0.0244, rm=1, ret=-0.0445, glen=155, tlen=766, kl=0.287, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:04<03:42,  4.63s/it, pg=0.0563, rm=0.75, ret=-0.0793, glen=151, tlen=784, kl=0.318, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:04<03:01,  3.87s/it, pg=0.0563, rm=0.75, ret=-0.0793, glen=151, tlen=784, kl=0.318, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:09<03:01,  3.87s/it, pg=0.421, rm=0.719, ret=-0.444, glen=408, tlen=1.15e+3, kl=0.122, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:09<03:03,  4.00s/it, pg=0.421, rm=0.719, ret=-0.444, glen=408, tlen=1.15e+3, kl=0.122, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:10<03:03,  4.00s/it, pg=-0.0993, rm=0.938, ret=0.0781, glen=153, tlen=965, kl=0.32, act_lr=9.38e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:10<02:31,  3.37s/it, pg=-0.0993, rm=0.938, ret=0.0781, glen=153, tlen=965, kl=0.32, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:13<02:31,  3.37s/it, pg=0.144, rm=1, ret=-0.164, glen=157, tlen=774, kl=0.294, act_lr=9.38e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:13<02:14,  3.05s/it, pg=0.144, rm=1, ret=-0.164, glen=157, tlen=774, kl=0.294, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:15<02:14,  3.05s/it, pg=0.0386, rm=1, ret=-0.0576, glen=168, tlen=843, kl=0.298, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:15<01:56,  2.70s/it, pg=0.0386, rm=1, ret=-0.0576, glen=168, tlen=843, kl=0.298, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:17<01:56,  2.70s/it, pg=0.0242, rm=1.19, ret=-0.0456, glen=166, tlen=870, kl=0.308, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:17<01:45,  2.51s/it, pg=0.0242, rm=1.19, ret=-0.0456, glen=166, tlen=870, kl=0.308, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:19<01:45,  2.51s/it, pg=-0.266, rm=1, ret=0.246, glen=154, tlen=780, kl=0.3, act_lr=9.38e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:19<01:34,  2.31s/it, pg=-0.266, rm=1, ret=0.246, glen=154, tlen=780, kl=0.3, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:29<01:34,  2.31s/it, pg=0.0252, rm=0.75, ret=-0.0478, glen=155, tlen=892, kl=0.308, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:29<03:10,  4.75s/it, pg=0.0252, rm=0.75, ret=-0.0478, glen=155, tlen=892, kl=0.308, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:31<03:10,  4.75s/it, pg=0.0743, rm=0.812, ret=-0.0983, glen=165, tlen=931, kl=0.311, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:31<02:35,  3.97s/it, pg=0.0743, rm=0.812, ret=-0.0983, glen=165, tlen=931, kl=0.311, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:33<02:35,  3.97s/it, pg=-0.0858, rm=0.938, ret=0.0636, glen=153, tlen=683, kl=0.326, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:33<02:09,  3.40s/it, pg=-0.0858, rm=0.938, ret=0.0636, glen=153, tlen=683, kl=0.326, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:35<02:09,  3.40s/it, pg=0.0132, rm=0.812, ret=-0.0344, glen=156, tlen=822, kl=0.297, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:35<01:50,  2.98s/it, pg=0.0132, rm=0.812, ret=-0.0344, glen=156, tlen=822, kl=0.297, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:37<01:50,  2.98s/it, pg=-0.00583, rm=1.06, ret=-0.0142, glen=140, tlen=800, kl=0.31, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:37<01:34,  2.63s/it, pg=-0.00583, rm=1.06, ret=-0.0142, glen=140, tlen=800, kl=0.31, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:39<01:34,  2.63s/it, pg=0.045, rm=0.938, ret=-0.0706, glen=164, tlen=847, kl=0.336, act_lr=9.38e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:39<01:24,  2.41s/it, pg=0.045, rm=0.938, ret=-0.0706, glen=164, tlen=847, kl=0.336, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:41<01:24,  2.41s/it, pg=-0.00509, rm=0.938, ret=-0.0155, glen=147, tlen=815, kl=0.305, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:41<01:18,  2.30s/it, pg=-0.00509, rm=0.938, ret=-0.0155, glen=147, tlen=815, kl=0.305, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:43<01:18,  2.30s/it, pg=0.0579, rm=0.812, ret=-0.0795, glen=153, tlen=952, kl=0.315, act_lr=9.38e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:43<01:13,  2.22s/it, pg=0.0579, rm=0.812, ret=-0.0795, glen=153, tlen=952, kl=0.315, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:53<01:13,  2.22s/it, pg=-0.0285, rm=0.938, ret=0.0047, glen=158, tlen=882, kl=0.308, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:53<02:24,  4.51s/it, pg=-0.0285, rm=0.938, ret=0.0047, glen=158, tlen=882, kl=0.308, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:55<02:24,  4.51s/it, pg=0.0799, rm=0.875, ret=-0.103, glen=153, tlen=611, kl=0.323, act_lr=9.38e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:55<01:53,  3.67s/it, pg=0.0799, rm=0.875, ret=-0.103, glen=153, tlen=611, kl=0.323, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:56<01:53,  3.67s/it, pg=-0.0097, rm=1, ret=-0.0126, glen=157, tlen=749, kl=0.303, act_lr=9.38e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:56<01:33,  3.11s/it, pg=-0.0097, rm=1, ret=-0.0126, glen=157, tlen=749, kl=0.303, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:58<01:33,  3.11s/it, pg=-0.0497, rm=1, ret=0.0256, glen=158, tlen=776, kl=0.34, act_lr=9.38e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|█���█████▋  | 99/128 [04:58<01:18,  2.72s/it, pg=-0.0497, rm=1, ret=0.0256, glen=158, tlen=776, kl=0.34, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [05:00<01:18,  2.72s/it, pg=0.0757, rm=0.812, ret=-0.0981, glen=154, tlen=820, kl=0.335, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:00<01:12,  2.58s/it, pg=0.0757, rm=0.812, ret=-0.0981, glen=154, tlen=820, kl=0.335, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:03<01:12,  2.58s/it, pg=-0.0163, rm=1.06, ret=-0.00685, glen=152, tlen=741, kl=0.338, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:03<01:06,  2.45s/it, pg=-0.0163, rm=1.06, ret=-0.00685, glen=152, tlen=741, kl=0.338, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:05<01:06,  2.45s/it, pg=-0.11, rm=1.19, ret=0.091, glen=154, tlen=834, kl=0.303, act_lr=9.38e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:05<01:01,  2.37s/it, pg=-0.11, rm=1.19, ret=0.091, glen=154, tlen=834, kl=0.303, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:07<01:01,  2.37s/it, pg=-0.11, rm=1.19, ret=0.088, glen=166, tlen=846, kl=0.299, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:07<00:55,  2.23s/it, pg=-0.11, rm=1.19, ret=0.088, glen=166, tlen=846, kl=0.299, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:16<00:55,  2.23s/it, pg=0.0344, rm=1, ret=-0.0579, glen=169, tlen=844, kl=0.298, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:16<01:42,  4.25s/it, pg=0.0344, rm=1, ret=-0.0579, glen=169, tlen=844, kl=0.298, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:18<01:42,  4.25s/it, pg=-0.168, rm=0.875, ret=0.147, glen=161, tlen=702, kl=0.297, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:18<01:22,  3.61s/it, pg=-0.168, rm=0.875, ret=0.147, glen=161, tlen=702, kl=0.297, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:20<01:22,  3.61s/it, pg=-0.157, rm=1.06, ret=0.136, glen=152, tlen=803, kl=0.293, act_lr=9.38e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:20<01:09,  3.14s/it, pg=-0.157, rm=1.06, ret=0.136, glen=152, tlen=803, kl=0.293, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:21<01:09,  3.14s/it, pg=-0.03, rm=0.875, ret=0.00579, glen=165, tlen=680, kl=0.33, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:21<00:55,  2.63s/it, pg=-0.03, rm=0.875, ret=0.00579, glen=165, tlen=680, kl=0.33, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:23<00:55,  2.63s/it, pg=-0.0107, rm=1, ret=-0.0105, glen=162, tlen=754, kl=0.28, act_lr=9.38e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:23<00:49,  2.47s/it, pg=-0.0107, rm=1, ret=-0.0105, glen=162, tlen=754, kl=0.28, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:25<00:49,  2.47s/it, pg=0.0964, rm=0.75, ret=-0.12, glen=153, tlen=745, kl=0.328, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:25<00:44,  2.35s/it, pg=0.0964, rm=0.75, ret=-0.12, glen=153, tlen=745, kl=0.328, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:27<00:44,  2.35s/it, pg=0.0398, rm=0.875, ret=-0.0618, glen=147, tlen=769, kl=0.314, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:27<00:40,  2.26s/it, pg=0.0398, rm=0.875, ret=-0.0618, glen=147, tlen=769, kl=0.314, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:30<00:40,  2.26s/it, pg=-0.0193, rm=0.938, ret=-0.00495, glen=164, tlen=748, kl=0.316, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:30<00:38,  2.25s/it, pg=-0.0193, rm=0.938, ret=-0.00495, glen=164, tlen=748, kl=0.316, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:40<00:38,  2.25s/it, pg=0.15, rm=0.688, ret=-0.171, glen=148, tlen=746, kl=0.307, act_lr=9.38e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:40<01:13,  4.61s/it, pg=0.15, rm=0.688, ret=-0.171, glen=148, tlen=746, kl=0.307, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:42<01:13,  4.61s/it, pg=0.361, rm=0.812, ret=-0.385, glen=156, tlen=792, kl=0.344, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:42<00:58,  3.87s/it, pg=0.361, rm=0.812, ret=-0.385, glen=156, tlen=792, kl=0.344, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:44<00:58,  3.87s/it, pg=-0.139, rm=1, ret=0.116, glen=170, tlen=701, kl=0.3, act_lr=9.38e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:44<00:46,  3.32s/it, pg=-0.139, rm=1, ret=0.116, glen=170, tlen=701, kl=0.3, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:46<00:46,  3.32s/it, pg=0.0584, rm=0.812, ret=-0.0825, glen=166, tlen=965, kl=0.309, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:46<00:38,  2.95s/it, pg=0.0584, rm=0.812, ret=-0.0825, glen=166, tlen=965, kl=0.309, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:48<00:38,  2.95s/it, pg=0.0499, rm=0.875, ret=-0.0731, glen=159, tlen=816, kl=0.308, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:48<00:32,  2.71s/it, pg=0.0499, rm=0.875, ret=-0.0731, glen=159, tlen=816, kl=0.308, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:50<00:32,  2.71s/it, pg=0.101, rm=0.812, ret=-0.121, glen=152, tlen=819, kl=0.305, act_lr=9.38e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:50<00:27,  2.46s/it, pg=0.101, rm=0.812, ret=-0.121, glen=152, tlen=819, kl=0.305, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:52<00:27,  2.46s/it, pg=-0.0356, rm=0.875, ret=0.0122, glen=151, tlen=811, kl=0.316, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:52<00:22,  2.27s/it, pg=-0.0356, rm=0.875, ret=0.0122, glen=151, tlen=811, kl=0.316, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:54<00:22,  2.27s/it, pg=0.276, rm=0.75, ret=-0.303, glen=165, tlen=900, kl=0.324, act_lr=9.38e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:54<00:19,  2.16s/it, pg=0.276, rm=0.75, ret=-0.303, glen=165, tlen=900, kl=0.324, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:04<00:19,  2.16s/it, pg=0.0805, rm=0.938, ret=-0.0991, glen=146, tlen=818, kl=0.319, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:04<00:37,  4.68s/it, pg=0.0805, rm=0.938, ret=-0.0991, glen=146, tlen=818, kl=0.319, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:07<00:37,  4.68s/it, pg=0.215, rm=0.875, ret=-0.238, glen=159, tlen=1058.0, kl=0.32, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:07<00:27,  3.91s/it, pg=0.215, rm=0.875, ret=-0.238, glen=159, tlen=1058.0, kl=0.32, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:09<00:27,  3.91s/it, pg=-0.104, rm=1.12, ret=0.0831, glen=162, tlen=918, kl=0.303, act_lr=9.38e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:09<00:20,  3.41s/it, pg=-0.104, rm=1.12, ret=0.0831, glen=162, tlen=918, kl=0.303, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:11<00:20,  3.41s/it, pg=0.179, rm=1, ret=-0.202, glen=158, tlen=843, kl=0.324, act_lr=9.38e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:11<00:15,  3.05s/it, pg=0.179, rm=1, ret=-0.202, glen=158, tlen=843, kl=0.324, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:13<00:15,  3.05s/it, pg=-0.0611, rm=0.875, ret=0.0372, glen=146, tlen=732, kl=0.354, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:13<00:10,  2.68s/it, pg=-0.0611, rm=0.875, ret=0.0372, glen=146, tlen=732, kl=0.354, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:15<00:10,  2.68s/it, pg=-0.0197, rm=1.06, ret=-0.00146, glen=148, tlen=736, kl=0.312, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:15<00:07,  2.54s/it, pg=-0.0197, rm=1.06, ret=-0.00146, glen=148, tlen=736, kl=0.312, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:17<00:07,  2.54s/it, pg=0.0406, rm=0.75, ret=-0.0636, glen=159, tlen=844, kl=0.302, act_lr=9.38e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:17<00:04,  2.34s/it, pg=0.0406, rm=0.75, ret=-0.0636, glen=159, tlen=844, kl=0.302, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:19<00:04,  2.34s/it, pg=0.0126, rm=0.875, ret=-0.0352, glen=161, tlen=763, kl=0.315, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:19<00:02,  2.23s/it, pg=0.0126, rm=0.875, ret=-0.0352, glen=161, tlen=763, kl=0.315, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:28<00:02,  2.23s/it, pg=0.0915, rm=0.875, ret=-0.114, glen=158, tlen=688, kl=0.306, act_lr=9.38e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:28<00:00,  4.30s/it, pg=0.0915, rm=0.875, ret=-0.114, glen=158, tlen=688, kl=0.306, act_lr=9.38e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:28<00:00,  3.03s/it, pg=0.0915, rm=0.875, ret=-0.114, glen=158, tlen=688, kl=0.306, act_lr=9.38e-7]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:50:31 [executor_base.py:219] It took 2.013549 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:50:32 [executor_base.py:219] It took 3.092287 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 3367x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m update weight: model.layers.13.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 1049x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.24.self_attn.q_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 3584])[32m [repeated 970x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:50:52 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:50:52 [executor_base.py:208] It took 1.424456 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:   9%|▉         | 12/127 [2:37:34<23:20:31, 730.71s/it, policy_loss=0.0265, actor_lr=9.39e-7, kl=0.31, reward=0.928, response_length=159, total_length=820, acc_rewards=0.429, format_rewards=0.5, return=-0.0487]
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  10%|█         | 13/127 [2:37:34<23:04:55, 728.90s/it, policy_loss=0.0265, actor_lr=9.39e-7, kl=0.31, reward=0.928, response_length=159, total_length=820, acc_rewards=0.429, format_rewards=0.5, return=-0.0487]
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 13:50:54 [executor_base.py:219] It took 1.467422 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 404x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 1/256 [00:17<1:12:32, 17.07s/it, est. speed input: 29.53 toks/s, output: 4.22 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   1%|          | 2/256 [00:17<31:57,  7.55s/it, est. speed input: 56.14 toks/s, output: 9.19 toks/s]  
+Processed prompts:   1%|          | 3/256 [00:18<17:37,  4.18s/it, est. speed input: 83.42 toks/s, output: 14.46 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   2%|▏         | 4/256 [00:18<10:50,  2.58s/it, est. speed input: 167.77 toks/s, output: 19.83 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   2%|▏         | 6/256 [00:18<05:14,  1.26s/it, est. speed input: 220.94 toks/s, output: 30.78 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:18<03:55,  1.06it/s, est. speed input: 240.81 toks/s, output: 36.33 toks/s]
+Processed prompts:   4%|▍         | 10/256 [00:18<01:52,  2.18it/s, est. speed input: 314.30 toks/s, output: 53.54 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   5%|▌         | 13/256 [00:18<01:07,  3.62it/s, est. speed input: 381.27 toks/s, output: 71.06 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   7%|▋         | 18/256 [00:18<00:35,  6.75it/s, est. speed input: 561.68 toks/s, output: 100.88 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   9%|▉         | 23/256 [00:19<00:22, 10.38it/s, est. speed input: 728.03 toks/s, output: 131.14 toks/s]
+Processed prompts:  11%|█         | 27/256 [00:19<00:17, 13.36it/s, est. speed input: 926.78 toks/s, output: 155.46 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  12%|█▏        | 31/256 [00:19<00:14, 15.67it/s, est. speed input: 1006.47 toks/s, output: 179.93 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  15%|█▍        | 38/256 [00:19<00:09, 23.19it/s, est. speed input: 1217.76 toks/s, output: 224.69 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  17%|█▋        | 43/256 [00:19<00:07, 27.05it/s, est. speed input: 1370.58 toks/s, output: 256.83 toks/s]
+Processed prompts:  18%|█▊        | 47/256 [00:19<00:07, 28.81it/s, est. speed input: 1447.89 toks/s, output: 282.38 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  21%|██▏       | 55/256 [00:19<00:05, 38.65it/s, est. speed input: 1671.32 toks/s, output: 335.90 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  23%|██▎       | 60/256 [00:19<00:04, 40.23it/s, est. speed input: 1819.46 toks/s, output: 369.15 toks/s]
+Processed prompts:  25%|██▌       | 65/256 [00:20<00:04, 41.57it/s, est. speed input: 1916.58 toks/s, output: 402.79 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  32%|███▏      | 81/256 [00:20<00:02, 69.43it/s, est. speed input: 2353.62 toks/s, output: 516.30 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  35%|███▌      | 90/256 [00:20<00:02, 74.26it/s, est. speed input: 2645.99 toks/s, output: 579.64 toks/s]
+Processed prompts:  39%|███▉      | 101/256 [00:20<00:01, 83.64it/s, est. speed input: 2929.78 toks/s, output: 658.66 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  45%|████▍     | 114/256 [00:20<00:01, 89.55it/s, est. speed input: 3186.83 toks/s, output: 753.05 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  49%|████▉     | 125/256 [00:20<00:01, 89.42it/s, est. speed input: 3413.89 toks/s, output: 833.67 toks/s]
+Processed prompts:  57%|█████▋    | 146/256 [00:20<00:00, 119.93it/s, est. speed input: 3971.29 toks/s, output: 994.61 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  66%|██████▌   | 169/256 [00:20<00:00, 143.36it/s, est. speed input: 4431.68 toks/s, output: 1173.59 toks/s]
+Processed prompts:  76%|███████▌  | 194/256 [00:20<00:00, 166.73it/s, est. speed input: 4930.15 toks/s, output: 1373.53 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  82%|████████▏ | 211/256 [00:21<00:00, 139.68it/s, est. speed input: 5259.96 toks/s, output: 1506.84 toks/s]
+Processed prompts:  88%|████████▊ | 226/256 [00:21<00:00, 134.61it/s, est. speed input: 5552.04 toks/s, output: 1630.87 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  94%|█████████▍| 240/256 [00:21<00:00, 113.42it/s, est. speed input: 5805.72 toks/s, output: 1744.98 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  99%|█████████▉| 253/256 [00:21<00:00, 80.66it/s, est. speed input: 6025.83 toks/s, output: 1849.23 toks/s] 
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:21<00:00, 11.66it/s, est. speed input: 6004.48 toks/s, output: 1858.96 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   0%|          | 1/256 [00:21<1:30:19, 21.25s/it, est. speed input: 18.40 toks/s, output: 4.71 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:21<09:57,  2.38s/it, est. speed input: 99.05 toks/s, output: 24.74 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:22<05:22,  1.30s/it, est. speed input: 191.40 toks/s, output: 35.13 toks/s]
+Processed prompts:   4%|▎         | 9/256 [00:22<03:18,  1.25it/s, est. speed input: 278.15 toks/s, output: 45.71 toks/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   5%|▌         | 14/256 [00:22<01:23,  2.90it/s, est. speed input: 420.83 toks/s, output: 72.79 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   7%|▋         | 17/256 [00:22<00:59,  4.02it/s, est. speed input: 521.20 toks/s, output: 89.11 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  12%|█▏        | 30/256 [00:22<00:20, 11.12it/s, est. speed input: 965.72 toks/s, output: 162.26 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  15%|█▍        | 38/256 [00:22<00:13, 16.06it/s, est. speed input: 1157.93 toks/s, output: 207.93 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  24%|██▍       | 62/256 [00:23<00:05, 34.17it/s, est. speed input: 1780.79 toks/s, output: 348.22 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  99%|█████████▉| 254/256 [00:24<00:00, 70.30it/s, est. speed input: 6220.63 toks/s, output: 1643.73 toks/s] [32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  79%|███████▉  | 202/256 [00:25<00:00, 109.35it/s, est. speed input: 5219.97 toks/s, output: 1169.49 toks/s][32m [repeated 16x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:25<12:32,  3.00s/it, est. speed input: 307.59 toks/s, output: 19.91 toks/s]
+Processed prompts:   3%|▎         | 7/256 [00:25<07:30,  1.81s/it, est. speed input: 383.09 toks/s, output: 28.40 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  98%|█████████▊| 250/256 [00:28<00:00, 95.37it/s, est. speed input: 6324.27 toks/s, output: 1399.06 toks/s] [32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:21<06:22,  1.54s/it, est. speed input: 203.03 toks/s, output: 32.63 toks/s][32m [repeated 33x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  38%|███▊      | 97/256 [00:27<00:02, 59.38it/s, est. speed input: 2737.39 toks/s, output: 451.61 toks/s]
+Processed prompts:  41%|████▏     | 106/256 [00:27<00:02, 65.50it/s, est. speed input: 3040.57 toks/s, output: 498.00 toks/s][32m [repeated 18x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:30<00:00, 35.93it/s, est. speed input: 6529.85 toks/s, output: 1332.25 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:30<00:00,  8.52it/s, est. speed input: 6529.85 toks/s, output: 1332.25 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  96%|█████████▋| 247/256 [00:24<00:00, 51.16it/s, est. speed input: 6008.52 toks/s, output: 1536.20 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  31%|███       | 79/256 [00:25<00:04, 37.22it/s, est. speed input: 2394.77 toks/s, output: 384.67 toks/s][32m [repeated 15x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  42%|████▏     | 107/256 [00:26<00:02, 58.02it/s, est. speed input: 3141.81 toks/s, output: 536.50 toks/s]
+Processed prompts:  46%|████▌     | 117/256 [00:26<00:02, 63.04it/s, est. speed input: 3415.88 toks/s, output: 592.14 toks/s][32m [repeated 16x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  99%|█████████▉| 253/256 [00:28<00:00, 77.57it/s, est. speed input: 6524.72 toks/s, output: 1353.39 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:28<00:00,  8.88it/s, est. speed input: 6553.46 toks/s, output: 1372.12 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:50:52 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.34 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:50:52 [executor_base.py:208] It took 1.613101 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:50:55 [executor_base.py:219] It took 3.211461 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m  3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 946x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 946x across cluster][0m
+[36m(ActorModelRayActor pid=287376)[0m 
+[36m(ActorModelRayActor pid=287376)[0m  1254400
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:52:36 [worker.py:133] Sleep mode freed 38.23 GiB memory, 21.74 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 13:52:36 [executor_base.py:208] It took 1.482688 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287374)[0m ele.get("min_pixels" 3136[32m [repeated 920x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m ele.get("max_pixels" 1254400[32m [repeated 920x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.18it/s, est. speed input: 6172.55 toks/s, output: 1432.94 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  75%|███████▍  | 191/256 [00:26<00:00, 125.30it/s, est. speed input: 5098.15 toks/s, output: 1032.41 toks/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  80%|████████  | 205/256 [00:26<00:00, 120.82it/s, est. speed input: 5311.16 toks/s, output: 1119.34 toks/s]
+Processed prompts:  88%|████████▊ | 224/256 [00:26<00:00, 133.83it/s, est. speed input: 5692.90 toks/s, output: 1242.64 toks/s][32m [repeated 2x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<03:00,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<03:00,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<03:02,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<03:02,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<02:56,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:56,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:10<02:52,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:50,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:44,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:14<02:41,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:15<02:40,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:16<02:44,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:18<02:42,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:19<02:39,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:21<02:37,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:22<02:34,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:23<02:32,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:25<02:29,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:26<02:28,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:27<02:27,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:29<02:26,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:30<02:23,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:32<02:26,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:33<02:22,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:34<02:15,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:35<02:16,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:37<02:11,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:38<02:09,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:39<02:08,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:41<02:07,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:42<02:07,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:43<02:05,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:44<01:55,  1.21s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:45<01:46,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:46<01:41,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|█���▊       | 36/128 [00:47<01:38,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:48<01:34,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:49<01:30,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:50<01:32,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:51<01:29,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:52<01:36,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:54<01:41,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:55<01:44,  1.23s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:56<01:44,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [00:58<01:47,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [00:59<01:46,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:00<01:45,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:02<01:44,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:03<01:46,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:05<01:47,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:06<01:46,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:08<01:46,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:09<01:47,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:10<01:45,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:12<01:44,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:13<01:42,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:14<01:33,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:15<01:25,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:16<01:20,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:17<01:16,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:18<01:12,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:19<01:09,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:20<01:06,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:21<01:05,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:23<01:11,  1.13s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:24<01:14,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:25<01:17,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:27<01:18,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:28<01:17,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:29<01:15,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:31<01:16,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:32<01:14,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:34<01:16,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:35<01:12,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:36<01:11,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:38<01:10,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:39<01:09,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:40<01:08,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:42<01:07,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:43<01:05,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:45<01:04,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:46<01:02,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:47<01:00,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:49<00:58,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:50<00:56,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:51<00:55,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:52<00:53,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:54<00:52,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [01:55<00:52,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [01:56<00:49,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [01:58<00:49,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [01:59<00:48,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:00<00:46,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:02<00:45,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:03<00:43,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:04<00:42,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:06<00:42,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:07<00:40,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:09<00:39,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:10<00:38,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:12<00:38,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:13<00:37,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:14<00:35,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:16<00:34,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:17<00:30,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:18<00:27,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:19<00:24,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:20<00:22,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:21<00:20,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:22<00:18,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:23<00:17,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:24<00:16,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:25<00:16,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:27<00:16,  1.19s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:28<00:16,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:29<00:15,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:31<00:14,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:32<00:13,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:34<00:12,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:35<00:11,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:36<00:09,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:38<00:08,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:39<00:06,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:40<00:05,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:42<00:04,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:43<00:02,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:45<00:01,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:46<00:00,  1.40s/it][A
+make_experience: 100%|██████████| 128/128 [02:46<00:00,  1.30s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nHow faithful is the image to this prompt: "A clerk at a farm, 3D CGI, during a sunny spring morning"?\nPlease evaluate how well the image matches each element of provided prompt.\n\n And answer with the final alignment rating.\nRate it from 0 to 5 (float, 2 decimals). A rating of 0 represents very poor alignment level, while 5 represents excellent alignment level.\'\nassistant\n<think> The image depicts a 3D CGI character dressed as a farmer, not a clerk. The setting is indeed a farm with a barn and cows, which aligns with the prompt of a farm environment. However, the time of day is not specified in the prompt, and there is no indication that it is a "sunny spring morning." The image does not provide enough context to determine the season, and the lighting suggests it could be any time of day. The character\'s role as a clerk is not reflected in the image, as the character is dressed more like a farmer. The overall scene, although not faithful to the specific details of the provided prompt, does represent a farm setting in a 3D CGI style.</think>\n<answer>1.50</answer>']
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:52:36 [worker.py:133] Sleep mode freed 38.50 GiB memory, 21.41 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 13:52:36 [executor_base.py:208] It took 1.778450 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("min_pixels" 3136[32m [repeated 180x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("max_pixels" 1254400[32m [repeated 180x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.24, rm=0.812, ret=-0.263, glen=165, tlen=756, kl=0.3, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:26,  2.57s/it, pg=0.24, rm=0.812, ret=-0.263, glen=165, tlen=756, kl=0.3, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:05<05:26,  2.57s/it, pg=-0.0492, rm=1, ret=0.0292, glen=151, tlen=842, kl=0.296, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:05<05:39,  2.69s/it, pg=-0.0492, rm=1, ret=0.0292, glen=151, tlen=842, kl=0.296, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<05:39,  2.69s/it, pg=0.028, rm=0.875, ret=-0.0508, glen=161, tlen=642, kl=0.316, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<05:19,  2.56s/it, pg=0.028, rm=0.875, ret=-0.0508, glen=161, tlen=642, kl=0.316, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<05:19,  2.56s/it, pg=0.066, rm=1, ret=-0.0915, glen=170, tlen=723, kl=0.31, act_lr=9.38e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:51,  2.35s/it, pg=0.066, rm=1, ret=-0.0915, glen=170, tlen=723, kl=0.31, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:51,  2.35s/it, pg=0.149, rm=0.812, ret=-0.169, glen=148, tlen=754, kl=0.291, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:34,  2.23s/it, pg=0.149, rm=0.812, ret=-0.169, glen=148, tlen=754, kl=0.291, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:14<04:34,  2.23s/it, pg=0.0219, rm=0.938, ret=-0.0444, glen=155, tlen=887, kl=0.316, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:14<04:56,  2.43s/it, pg=0.0219, rm=0.938, ret=-0.0444, glen=155, tlen=887, kl=0.316, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:16<04:56,  2.43s/it, pg=0.0767, rm=0.938, ret=-0.102, glen=178, tlen=765, kl=0.31, act_lr=9.38e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:16<04:35,  2.28s/it, pg=0.0767, rm=0.938, ret=-0.102, glen=178, tlen=765, kl=0.31, act_lr=9.38e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:26<04:35,  2.28s/it, pg=0.0344, rm=1, ret=-0.0571, glen=157, tlen=1.1e+3, kl=0.306, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:26<09:11,  4.60s/it, pg=0.0344, rm=1, ret=-0.0571, glen=157, tlen=1.1e+3, kl=0.306, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:28<09:11,  4.60s/it, pg=0.0645, rm=1.12, ret=-0.0895, glen=158, tlen=774, kl=0.342, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:28<07:28,  3.77s/it, pg=0.0645, rm=1.12, ret=-0.0895, glen=158, tlen=774, kl=0.342, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:29<07:28,  3.77s/it, pg=0.000571, rm=0.875, ret=-0.025, glen=153, tlen=758, kl=0.327, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:29<06:15,  3.18s/it, pg=0.000571, rm=0.875, ret=-0.025, glen=153, tlen=758, kl=0.327, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:32<06:15,  3.18s/it, pg=0.0854, rm=0.875, ret=-0.106, glen=155, tlen=936, kl=0.282, act_lr=9.37e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:32<05:43,  2.94s/it, pg=0.0854, rm=0.875, ret=-0.106, glen=155, tlen=936, kl=0.282, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:34<05:43,  2.94s/it, pg=0.187, rm=1, ret=-0.206, glen=147, tlen=818, kl=0.287, act_lr=9.37e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:34<05:02,  2.61s/it, pg=0.187, rm=1, ret=-0.206, glen=147, tlen=818, kl=0.287, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:36<05:02,  2.61s/it, pg=0.139, rm=1, ret=-0.161, glen=162, tlen=852, kl=0.307, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<04:46,  2.49s/it, pg=0.139, rm=1, ret=-0.161, glen=162, tlen=852, kl=0.307, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:38<04:46,  2.49s/it, pg=0.0173, rm=1, ret=-0.0397, glen=165, tlen=847, kl=0.313, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:23,  2.31s/it, pg=0.0173, rm=1, ret=-0.0397, glen=165, tlen=847, kl=0.313, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:40<04:23,  2.31s/it, pg=-0.053, rm=1, ret=0.0306, glen=158, tlen=891, kl=0.302, act_lr=9.37e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:40<04:27,  2.37s/it, pg=-0.053, rm=1, ret=0.0306, glen=158, tlen=891, kl=0.302, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:50<04:27,  2.37s/it, pg=0.0977, rm=1, ret=-0.12, glen=151, tlen=808, kl=0.309, act_lr=9.37e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:35,  4.61s/it, pg=0.0977, rm=1, ret=-0.12, glen=151, tlen=808, kl=0.309, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:52<08:35,  4.61s/it, pg=-0.0905, rm=1.06, ret=0.0679, glen=164, tlen=918, kl=0.31, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<07:02,  3.80s/it, pg=-0.0905, rm=1.06, ret=0.0679, glen=164, tlen=918, kl=0.31, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:54<07:02,  3.80s/it, pg=0.0206, rm=0.938, ret=-0.0425, glen=158, tlen=813, kl=0.284, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:54<05:53,  3.22s/it, pg=0.0206, rm=0.938, ret=-0.0425, glen=158, tlen=813, kl=0.284, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:56<05:53,  3.22s/it, pg=0.107, rm=0.812, ret=-0.13, glen=158, tlen=781, kl=0.303, act_lr=9.37e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:56<05:05,  2.81s/it, pg=0.107, rm=0.812, ret=-0.13, glen=158, tlen=781, kl=0.303, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:58<05:05,  2.81s/it, pg=0.0858, rm=0.938, ret=-0.106, glen=165, tlen=1.02e+3, kl=0.279, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:58<04:39,  2.59s/it, pg=0.0858, rm=0.938, ret=-0.106, glen=165, tlen=1.02e+3, kl=0.279, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:00<04:39,  2.59s/it, pg=-0.142, rm=1.12, ret=0.118, glen=152, tlen=844, kl=0.326, act_lr=9.37e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:00<04:19,  2.43s/it, pg=-0.142, rm=1.12, ret=0.118, glen=152, tlen=844, kl=0.326, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:02<04:19,  2.43s/it, pg=0.0262, rm=0.875, ret=-0.0506, glen=171, tlen=751, kl=0.296, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:02<04:05,  2.32s/it, pg=0.0262, rm=0.875, ret=-0.0506, glen=171, tlen=751, kl=0.296, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:04<04:05,  2.32s/it, pg=0.188, rm=0.812, ret=-0.209, glen=157, tlen=904, kl=0.295, act_lr=9.37e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:04<03:58,  2.27s/it, pg=0.188, rm=0.812, ret=-0.209, glen=157, tlen=904, kl=0.295, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:14<03:58,  2.27s/it, pg=-0.0926, rm=1, ret=0.0699, glen=156, tlen=842, kl=0.328, act_lr=9.37e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:14<07:55,  4.57s/it, pg=-0.0926, rm=1, ret=0.0699, glen=156, tlen=842, kl=0.328, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:16<07:55,  4.57s/it, pg=0.0713, rm=1, ret=-0.0953, glen=166, tlen=810, kl=0.327, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:16<06:35,  3.84s/it, pg=0.0713, rm=1, ret=-0.0953, glen=166, tlen=810, kl=0.327, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:18<06:35,  3.84s/it, pg=-0.0248, rm=1.06, ret=0.000601, glen=150, tlen=807, kl=0.321, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:18<05:35,  3.29s/it, pg=-0.0248, rm=1.06, ret=0.000601, glen=150, tlen=807, kl=0.321, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:21<05:35,  3.29s/it, pg=-0.0124, rm=0.938, ret=-0.00999, glen=154, tlen=848, kl=0.311, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:21<05:10,  3.08s/it, pg=-0.0124, rm=0.938, ret=-0.00999, glen=154, tlen=848, kl=0.311, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:23<05:10,  3.08s/it, pg=0.111, rm=0.938, ret=-0.132, glen=154, tlen=802, kl=0.31, act_lr=9.37e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:23<04:35,  2.76s/it, pg=0.111, rm=0.938, ret=-0.132, glen=154, tlen=802, kl=0.31, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:25<04:35,  2.76s/it, pg=0.141, rm=1, ret=-0.162, glen=163, tlen=916, kl=0.284, act_lr=9.37e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:25<04:07,  2.50s/it, pg=0.141, rm=1, ret=-0.162, glen=163, tlen=916, kl=0.284, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:26<04:07,  2.50s/it, pg=0.0121, rm=0.812, ret=-0.036, glen=162, tlen=694, kl=0.318, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:26<03:44,  2.29s/it, pg=0.0121, rm=0.812, ret=-0.036, glen=162, tlen=694, kl=0.318, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:28<03:44,  2.29s/it, pg=0.0727, rm=0.938, ret=-0.0944, glen=155, tlen=888, kl=0.308, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:28<03:30,  2.17s/it, pg=0.0727, rm=0.938, ret=-0.0944, glen=155, tlen=888, kl=0.308, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:38<03:30,  2.17s/it, pg=-0.0344, rm=0.75, ret=0.0124, glen=170, tlen=760, kl=0.281, act_lr=9.37e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:38<07:04,  4.42s/it, pg=-0.0344, rm=0.75, ret=0.0124, glen=170, tlen=760, kl=0.281, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:41<07:04,  4.42s/it, pg=0.0895, rm=0.938, ret=-0.11, glen=154, tlen=866, kl=0.279, act_lr=9.37e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:41<06:12,  3.92s/it, pg=0.0895, rm=0.938, ret=-0.11, glen=154, tlen=866, kl=0.279, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:43<06:12,  3.92s/it, pg=0.0698, rm=1, ret=-0.0944, glen=162, tlen=806, kl=0.33, act_lr=9.37e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:43<05:17,  3.38s/it, pg=0.0698, rm=1, ret=-0.0944, glen=162, tlen=806, kl=0.33, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:45<05:17,  3.38s/it, pg=-0.0164, rm=1, ret=-0.00685, glen=156, tlen=779, kl=0.321, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:45<04:41,  3.02s/it, pg=-0.0164, rm=1, ret=-0.00685, glen=156, tlen=779, kl=0.321, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:47<04:41,  3.02s/it, pg=-0.00447, rm=0.75, ret=-0.0157, glen=150, tlen=737, kl=0.297, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:47<04:04,  2.66s/it, pg=-0.00447, rm=0.75, ret=-0.0157, glen=150, tlen=737, kl=0.297, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:49<04:04,  2.66s/it, pg=-0.0434, rm=1, ret=0.0201, glen=146, tlen=735, kl=0.332, act_lr=9.37e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:49<03:40,  2.42s/it, pg=-0.0434, rm=1, ret=0.0201, glen=146, tlen=735, kl=0.332, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:51<03:40,  2.42s/it, pg=0.0331, rm=0.75, ret=-0.0551, glen=147, tlen=794, kl=0.316, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:51<03:28,  2.31s/it, pg=0.0331, rm=0.75, ret=-0.0551, glen=147, tlen=794, kl=0.316, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:53<03:28,  2.31s/it, pg=0.0168, rm=1.06, ret=-0.0371, glen=148, tlen=901, kl=0.316, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:53<03:18,  2.24s/it, pg=0.0168, rm=1.06, ret=-0.0371, glen=148, tlen=901, kl=0.316, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:02<03:18,  2.24s/it, pg=0.0488, rm=0.875, ret=-0.0734, glen=155, tlen=779, kl=0.316, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:02<06:28,  4.42s/it, pg=0.0488, rm=0.875, ret=-0.0734, glen=155, tlen=779, kl=0.316, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:05<06:28,  4.42s/it, pg=0.0305, rm=0.938, ret=-0.0535, glen=158, tlen=764, kl=0.342, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:05<05:23,  3.72s/it, pg=0.0305, rm=0.938, ret=-0.0535, glen=158, tlen=764, kl=0.342, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:06<05:23,  3.72s/it, pg=0.0626, rm=0.938, ret=-0.0829, glen=151, tlen=843, kl=0.285, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:06<04:33,  3.18s/it, pg=0.0626, rm=0.938, ret=-0.0829, glen=151, tlen=843, kl=0.285, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:09<04:33,  3.18s/it, pg=-0.246, rm=1.12, ret=0.22, glen=170, tlen=862, kl=0.337, act_lr=9.37e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:09<04:02,  2.85s/it, pg=-0.246, rm=1.12, ret=0.22, glen=170, tlen=862, kl=0.337, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:11<04:02,  2.85s/it, pg=-0.0235, rm=1.06, ret=0.00498, glen=149, tlen=950, kl=0.294, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:11<03:39,  2.61s/it, pg=-0.0235, rm=1.06, ret=0.00498, glen=149, tlen=950, kl=0.294, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:13<03:39,  2.61s/it, pg=0.121, rm=0.938, ret=-0.141, glen=159, tlen=906, kl=0.287, act_lr=9.37e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:13<03:27,  2.50s/it, pg=0.121, rm=0.938, ret=-0.141, glen=159, tlen=906, kl=0.287, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:15<03:27,  2.50s/it, pg=-0.00167, rm=0.75, ret=-0.0192, glen=163, tlen=750, kl=0.296, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:15<03:22,  2.47s/it, pg=-0.00167, rm=0.75, ret=-0.0192, glen=163, tlen=750, kl=0.296, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:17<03:22,  2.47s/it, pg=0.0375, rm=0.875, ret=-0.0589, glen=152, tlen=756, kl=0.299, act_lr=9.37e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:17<03:05,  2.29s/it, pg=0.0375, rm=0.875, ret=-0.0589, glen=152, tlen=756, kl=0.299, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:26<03:05,  2.29s/it, pg=0.125, rm=0.938, ret=-0.136, glen=154, tlen=809, kl=0.284, act_lr=9.37e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:26<05:44,  4.31s/it, pg=0.125, rm=0.938, ret=-0.136, glen=154, tlen=809, kl=0.284, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:28<05:44,  4.31s/it, pg=0.0694, rm=1.06, ret=-0.0919, glen=161, tlen=876, kl=0.3, act_lr=9.37e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:28<04:44,  3.60s/it, pg=0.0694, rm=1.06, ret=-0.0919, glen=161, tlen=876, kl=0.3, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:30<04:44,  3.60s/it, pg=0.0715, rm=0.938, ret=-0.0927, glen=160, tlen=747, kl=0.287, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:30<04:09,  3.20s/it, pg=0.0715, rm=0.938, ret=-0.0927, glen=160, tlen=747, kl=0.287, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:32<04:09,  3.20s/it, pg=0.0104, rm=1.12, ret=-0.0326, glen=153, tlen=914, kl=0.325, act_lr=9.37e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:32<03:36,  2.81s/it, pg=0.0104, rm=1.12, ret=-0.0326, glen=153, tlen=914, kl=0.325, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:34<03:36,  2.81s/it, pg=-0.135, rm=1.12, ret=0.112, glen=163, tlen=723, kl=0.325, act_lr=9.37e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:34<03:11,  2.52s/it, pg=-0.135, rm=1.12, ret=0.112, glen=163, tlen=723, kl=0.325, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:36<03:11,  2.52s/it, pg=0.1, rm=0.938, ret=-0.124, glen=159, tlen=760, kl=0.314, act_lr=9.37e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:36<02:53,  2.32s/it, pg=0.1, rm=0.938, ret=-0.124, glen=159, tlen=760, kl=0.314, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:38<02:53,  2.32s/it, pg=-0.274, rm=1.12, ret=0.249, glen=167, tlen=769, kl=0.319, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:38<02:40,  2.17s/it, pg=-0.274, rm=1.12, ret=0.249, glen=167, tlen=769, kl=0.319, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:40<02:40,  2.17s/it, pg=0.047, rm=0.75, ret=-0.0681, glen=149, tlen=773, kl=0.293, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:40<02:34,  2.12s/it, pg=0.047, rm=0.75, ret=-0.0681, glen=149, tlen=773, kl=0.293, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:49<02:34,  2.12s/it, pg=0.0861, rm=0.938, ret=-0.106, glen=150, tlen=841, kl=0.332, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:49<05:05,  4.24s/it, pg=0.0861, rm=0.938, ret=-0.106, glen=150, tlen=841, kl=0.332, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:51<05:05,  4.24s/it, pg=0.0266, rm=0.875, ret=-0.0501, glen=157, tlen=638, kl=0.319, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:51<04:15,  3.60s/it, pg=0.0266, rm=0.875, ret=-0.0501, glen=157, tlen=638, kl=0.319, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:53<04:15,  3.60s/it, pg=0.312, rm=1, ret=-0.335, glen=166, tlen=735, kl=0.317, act_lr=9.37e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:53<03:34,  3.06s/it, pg=0.312, rm=1, ret=-0.335, glen=166, tlen=735, kl=0.317, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:55<03:34,  3.06s/it, pg=0.0659, rm=0.938, ret=-0.0862, glen=153, tlen=845, kl=0.282, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:55<03:07,  2.71s/it, pg=0.0659, rm=0.938, ret=-0.0862, glen=153, tlen=845, kl=0.282, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:57<03:07,  2.71s/it, pg=0.278, rm=0.812, ret=-0.3, glen=164, tlen=816, kl=0.296, act_lr=9.37e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:57<02:46,  2.45s/it, pg=0.278, rm=0.812, ret=-0.3, glen=164, tlen=816, kl=0.296, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:59<02:46,  2.45s/it, pg=-0.00365, rm=0.75, ret=-0.0181, glen=155, tlen=741, kl=0.305, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:59<02:34,  2.31s/it, pg=-0.00365, rm=0.75, ret=-0.0181, glen=155, tlen=741, kl=0.305, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:00<02:34,  2.31s/it, pg=0.0304, rm=0.875, ret=-0.0563, glen=159, tlen=639, kl=0.355, act_lr=9.37e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:00<02:19,  2.12s/it, pg=0.0304, rm=0.875, ret=-0.0563, glen=159, tlen=639, kl=0.355, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:02<02:19,  2.12s/it, pg=-0.242, rm=0.812, ret=0.222, glen=163, tlen=844, kl=0.28, act_lr=9.37e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:02<02:12,  2.05s/it, pg=-0.242, rm=0.812, ret=0.222, glen=163, tlen=844, kl=0.28, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:11<02:12,  2.05s/it, pg=0.026, rm=1, ret=-0.0491, glen=160, tlen=760, kl=0.308, act_lr=9.37e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:11<04:22,  4.10s/it, pg=0.026, rm=1, ret=-0.0491, glen=160, tlen=760, kl=0.308, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:13<04:22,  4.10s/it, pg=0.122, rm=0.875, ret=-0.143, glen=146, tlen=818, kl=0.312, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:13<03:37,  3.45s/it, pg=0.122, rm=0.875, ret=-0.143, glen=146, tlen=818, kl=0.312, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:15<03:37,  3.45s/it, pg=-0.132, rm=1, ret=0.113, glen=150, tlen=802, kl=0.286, act_lr=9.37e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:15<03:06,  3.01s/it, pg=-0.132, rm=1, ret=0.113, glen=150, tlen=802, kl=0.286, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:17<03:06,  3.01s/it, pg=0.0144, rm=0.875, ret=-0.0358, glen=157, tlen=890, kl=0.318, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:17<02:45,  2.71s/it, pg=0.0144, rm=0.875, ret=-0.0358, glen=157, tlen=890, kl=0.318, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:19<02:45,  2.71s/it, pg=-0.0618, rm=1.12, ret=0.0428, glen=152, tlen=823, kl=0.296, act_lr=9.37e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:19<02:34,  2.58s/it, pg=-0.0618, rm=1.12, ret=0.0428, glen=152, tlen=823, kl=0.296, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:21<02:34,  2.58s/it, pg=-0.026, rm=1, ret=-0.00025, glen=167, tlen=913, kl=0.32, act_lr=9.37e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:21<02:22,  2.41s/it, pg=-0.026, rm=1, ret=-0.00025, glen=167, tlen=913, kl=0.32, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:23<02:22,  2.41s/it, pg=0.271, rm=0.875, ret=-0.292, glen=164, tlen=819, kl=0.273, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:23<02:10,  2.24s/it, pg=0.271, rm=0.875, ret=-0.292, glen=164, tlen=819, kl=0.273, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:25<02:10,  2.24s/it, pg=-0.0318, rm=1.06, ret=0.00967, glen=160, tlen=977, kl=0.299, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:25<02:01,  2.14s/it, pg=-0.0318, rm=1.06, ret=0.00967, glen=160, tlen=977, kl=0.299, act_lr=9.37e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:34<02:01,  2.14s/it, pg=-0.0637, rm=0.625, ret=0.0428, glen=152, tlen=748, kl=0.307, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:34<03:57,  4.24s/it, pg=-0.0637, rm=0.625, ret=0.0428, glen=152, tlen=748, kl=0.307, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:37<03:57,  4.24s/it, pg=-0.0951, rm=1.06, ret=0.0737, glen=163, tlen=919, kl=0.316, act_lr=9.36e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:37<03:25,  3.74s/it, pg=-0.0951, rm=1.06, ret=0.0737, glen=163, tlen=919, kl=0.316, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:39<03:25,  3.74s/it, pg=-0.082, rm=1.06, ret=0.0615, glen=154, tlen=957, kl=0.292, act_lr=9.36e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:39<02:54,  3.23s/it, pg=-0.082, rm=1.06, ret=0.0615, glen=154, tlen=957, kl=0.292, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:41<02:54,  3.23s/it, pg=0.00309, rm=1.06, ret=-0.0226, glen=157, tlen=848, kl=0.326, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:41<02:29,  2.81s/it, pg=0.00309, rm=1.06, ret=-0.0226, glen=157, tlen=848, kl=0.326, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:42<02:29,  2.81s/it, pg=0.142, rm=0.938, ret=-0.165, glen=175, tlen=857, kl=0.3, act_lr=9.36e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:42<02:11,  2.52s/it, pg=0.142, rm=0.938, ret=-0.165, glen=175, tlen=857, kl=0.3, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:44<02:11,  2.52s/it, pg=0.0334, rm=1, ret=-0.055, glen=165, tlen=1.11e+3, kl=0.278, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:44<02:01,  2.38s/it, pg=0.0334, rm=1, ret=-0.055, glen=165, tlen=1.11e+3, kl=0.278, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:47<02:01,  2.38s/it, pg=0.124, rm=0.875, ret=-0.147, glen=151, tlen=993, kl=0.31, act_lr=9.36e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:47<01:56,  2.32s/it, pg=0.124, rm=0.875, ret=-0.147, glen=151, tlen=993, kl=0.31, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:49<01:56,  2.32s/it, pg=-0.00305, rm=0.875, ret=-0.019, glen=158, tlen=764, kl=0.305, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:49<01:48,  2.21s/it, pg=-0.00305, rm=0.875, ret=-0.019, glen=158, tlen=764, kl=0.305, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:58<01:48,  2.21s/it, pg=-0.0465, rm=0.875, ret=0.0253, glen=144, tlen=733, kl=0.301, act_lr=9.36e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:58<03:28,  4.34s/it, pg=-0.0465, rm=0.875, ret=0.0253, glen=144, tlen=733, kl=0.301, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:00<03:28,  4.34s/it, pg=0.0292, rm=0.875, ret=-0.0523, glen=157, tlen=638, kl=0.333, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:00<02:47,  3.56s/it, pg=0.0292, rm=0.875, ret=-0.0523, glen=157, tlen=638, kl=0.333, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:02<02:47,  3.56s/it, pg=0.0541, rm=0.875, ret=-0.0732, glen=163, tlen=948, kl=0.257, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:02<02:22,  3.10s/it, pg=0.0541, rm=0.875, ret=-0.0732, glen=163, tlen=948, kl=0.257, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:04<02:22,  3.10s/it, pg=-0.0963, rm=0.812, ret=0.0721, glen=162, tlen=953, kl=0.313, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:04<02:05,  2.78s/it, pg=-0.0963, rm=0.812, ret=0.0721, glen=162, tlen=953, kl=0.313, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:06<02:05,  2.78s/it, pg=-0.0439, rm=1, ret=0.0196, glen=164, tlen=753, kl=0.299, act_lr=9.36e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:06<01:51,  2.53s/it, pg=-0.0439, rm=1, ret=0.0196, glen=164, tlen=753, kl=0.299, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:08<01:51,  2.53s/it, pg=0.0504, rm=0.875, ret=-0.0733, glen=150, tlen=774, kl=0.326, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:08<01:43,  2.40s/it, pg=0.0504, rm=0.875, ret=-0.0733, glen=150, tlen=774, kl=0.326, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:10<01:43,  2.40s/it, pg=0.0708, rm=0.938, ret=-0.0896, glen=158, tlen=745, kl=0.271, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:10<01:34,  2.24s/it, pg=0.0708, rm=0.938, ret=-0.0896, glen=158, tlen=745, kl=0.271, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:12<01:34,  2.24s/it, pg=-0.118, rm=1.12, ret=0.0958, glen=157, tlen=918, kl=0.32, act_lr=9.36e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:12<01:27,  2.14s/it, pg=-0.118, rm=1.12, ret=0.0958, glen=157, tlen=918, kl=0.32, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:20<01:27,  2.14s/it, pg=0.0425, rm=0.812, ret=-0.0638, glen=159, tlen=688, kl=0.302, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:20<02:46,  4.17s/it, pg=0.0425, rm=0.812, ret=-0.0638, glen=159, tlen=688, kl=0.302, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:22<02:46,  4.17s/it, pg=0.00153, rm=1, ret=-0.0221, glen=163, tlen=713, kl=0.288, act_lr=9.36e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:22<02:17,  3.53s/it, pg=0.00153, rm=1, ret=-0.0221, glen=163, tlen=713, kl=0.288, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:24<02:17,  3.53s/it, pg=0.02, rm=1.06, ret=-0.0457, glen=158, tlen=718, kl=0.349, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:24<01:54,  3.01s/it, pg=0.02, rm=1.06, ret=-0.0457, glen=158, tlen=718, kl=0.349, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:26<01:54,  3.01s/it, pg=0.0731, rm=0.938, ret=-0.0973, glen=156, tlen=889, kl=0.324, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:26<01:41,  2.74s/it, pg=0.0731, rm=0.938, ret=-0.0973, glen=156, tlen=889, kl=0.324, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:29<01:41,  2.74s/it, pg=0.126, rm=1, ret=-0.148, glen=160, tlen=785, kl=0.312, act_lr=9.36e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:29<01:33,  2.61s/it, pg=0.126, rm=1, ret=-0.148, glen=160, tlen=785, kl=0.312, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:31<01:33,  2.61s/it, pg=-0.0484, rm=1.12, ret=0.0221, glen=163, tlen=878, kl=0.344, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:31<01:26,  2.46s/it, pg=-0.0484, rm=1.12, ret=0.0221, glen=163, tlen=878, kl=0.344, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:33<01:26,  2.46s/it, pg=-0.0427, rm=1, ret=0.0238, glen=146, tlen=1e+3, kl=0.28, act_lr=9.36e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:33<01:19,  2.34s/it, pg=-0.0427, rm=1, ret=0.0238, glen=146, tlen=1e+3, kl=0.28, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:35<01:19,  2.34s/it, pg=0.104, rm=0.812, ret=-0.128, glen=158, tlen=701, kl=0.319, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:35<01:14,  2.26s/it, pg=0.104, rm=0.812, ret=-0.128, glen=158, tlen=701, kl=0.319, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:44<01:14,  2.26s/it, pg=-0.0641, rm=0.938, ret=0.0393, glen=174, tlen=769, kl=0.311, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:44<02:20,  4.38s/it, pg=-0.0641, rm=0.938, ret=0.0393, glen=174, tlen=769, kl=0.311, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:46<02:20,  4.38s/it, pg=-0.0552, rm=1.06, ret=0.0349, glen=155, tlen=751, kl=0.327, act_lr=9.36e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:46<01:52,  3.64s/it, pg=-0.0552, rm=1.06, ret=0.0349, glen=155, tlen=751, kl=0.327, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:48<01:52,  3.64s/it, pg=0.0489, rm=0.75, ret=-0.0733, glen=147, tlen=748, kl=0.341, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:48<01:32,  3.09s/it, pg=0.0489, rm=0.75, ret=-0.0733, glen=147, tlen=748, kl=0.341, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:50<01:32,  3.09s/it, pg=0.0205, rm=0.938, ret=-0.0401, glen=146, tlen=942, kl=0.318, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:50<01:18,  2.72s/it, pg=0.0205, rm=0.938, ret=-0.0401, glen=146, tlen=942, kl=0.318, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:52<01:18,  2.72s/it, pg=-0.0465, rm=0.938, ret=0.0257, glen=162, tlen=837, kl=0.295, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:52<01:08,  2.46s/it, pg=-0.0465, rm=0.938, ret=0.0257, glen=162, tlen=837, kl=0.295, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:54<01:08,  2.46s/it, pg=0.229, rm=0.688, ret=-0.252, glen=151, tlen=918, kl=0.317, act_lr=9.36e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:54<01:04,  2.39s/it, pg=0.229, rm=0.688, ret=-0.252, glen=151, tlen=918, kl=0.317, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:56<01:04,  2.39s/it, pg=-0.0204, rm=1, ret=-0.00439, glen=170, tlen=771, kl=0.324, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:56<00:59,  2.29s/it, pg=-0.0204, rm=1, ret=-0.00439, glen=170, tlen=771, kl=0.324, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:58<00:59,  2.29s/it, pg=-0.253, rm=0.938, ret=0.232, glen=166, tlen=750, kl=0.297, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [04:58<00:54,  2.19s/it, pg=-0.253, rm=0.938, ret=0.232, glen=166, tlen=750, kl=0.297, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:07<00:54,  2.19s/it, pg=0.0589, rm=1, ret=-0.0826, glen=158, tlen=698, kl=0.324, act_lr=9.36e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:07<01:43,  4.33s/it, pg=0.0589, rm=1, ret=-0.0826, glen=158, tlen=698, kl=0.324, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:09<01:43,  4.33s/it, pg=0.032, rm=0.812, ret=-0.0519, glen=158, tlen=833, kl=0.274, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:09<01:22,  3.59s/it, pg=0.032, rm=0.812, ret=-0.0519, glen=158, tlen=833, kl=0.274, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:11<01:22,  3.59s/it, pg=0.202, rm=1, ret=-0.223, glen=153, tlen=713, kl=0.321, act_lr=9.36e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:11<01:08,  3.12s/it, pg=0.202, rm=1, ret=-0.223, glen=153, tlen=713, kl=0.321, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:13<01:08,  3.12s/it, pg=0.0572, rm=1.12, ret=-0.079, glen=147, tlen=763, kl=0.297, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:13<00:57,  2.75s/it, pg=0.0572, rm=1.12, ret=-0.079, glen=147, tlen=763, kl=0.297, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:15<00:57,  2.75s/it, pg=0.057, rm=1, ret=-0.077, glen=160, tlen=757, kl=0.285, act_lr=9.36e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:15<00:51,  2.60s/it, pg=0.057, rm=1, ret=-0.077, glen=160, tlen=757, kl=0.285, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:17<00:51,  2.60s/it, pg=-0.204, rm=0.875, ret=0.184, glen=164, tlen=693, kl=0.31, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:17<00:44,  2.36s/it, pg=-0.204, rm=0.875, ret=0.184, glen=164, tlen=693, kl=0.31, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:19<00:44,  2.36s/it, pg=-0.0192, rm=0.688, ret=-0.0021, glen=156, tlen=694, kl=0.301, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:19<00:39,  2.19s/it, pg=-0.0192, rm=0.688, ret=-0.0021, glen=156, tlen=694, kl=0.301, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:21<00:39,  2.19s/it, pg=0.222, rm=0.688, ret=-0.245, glen=158, tlen=839, kl=0.335, act_lr=9.36e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:21<00:35,  2.08s/it, pg=0.222, rm=0.688, ret=-0.245, glen=158, tlen=839, kl=0.335, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:30<00:35,  2.08s/it, pg=0.0261, rm=0.875, ret=-0.0486, glen=169, tlen=749, kl=0.288, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:30<01:07,  4.22s/it, pg=0.0261, rm=0.875, ret=-0.0486, glen=169, tlen=749, kl=0.288, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:32<01:07,  4.22s/it, pg=0.00876, rm=0.781, ret=-0.0293, glen=153, tlen=834, kl=0.305, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:32<00:52,  3.52s/it, pg=0.00876, rm=0.781, ret=-0.0293, glen=153, tlen=834, kl=0.305, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:34<00:52,  3.52s/it, pg=0.00262, rm=0.875, ret=-0.0203, glen=160, tlen=1036.5, kl=0.275, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:34<00:45,  3.22s/it, pg=0.00262, rm=0.875, ret=-0.0203, glen=160, tlen=1036.5, kl=0.275, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:36<00:45,  3.22s/it, pg=0.0042, rm=1.12, ret=-0.0299, glen=173, tlen=742, kl=0.318, act_lr=9.36e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:36<00:36,  2.79s/it, pg=0.0042, rm=1.12, ret=-0.0299, glen=173, tlen=742, kl=0.318, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:38<00:36,  2.79s/it, pg=-0.116, rm=1.06, ret=0.0945, glen=163, tlen=767, kl=0.289, act_lr=9.36e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:38<00:31,  2.64s/it, pg=-0.116, rm=1.06, ret=0.0945, glen=163, tlen=767, kl=0.289, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:40<00:31,  2.64s/it, pg=0.142, rm=1.06, ret=-0.168, glen=161, tlen=721, kl=0.323, act_lr=9.36e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:40<00:26,  2.44s/it, pg=0.142, rm=1.06, ret=-0.168, glen=161, tlen=721, kl=0.323, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:42<00:26,  2.44s/it, pg=-0.0102, rm=0.938, ret=-0.0122, glen=158, tlen=852, kl=0.316, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:42<00:22,  2.25s/it, pg=-0.0102, rm=0.938, ret=-0.0122, glen=158, tlen=852, kl=0.316, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:44<00:22,  2.25s/it, pg=-0.0553, rm=1, ret=0.0318, glen=168, tlen=860, kl=0.299, act_lr=9.36e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:44<00:19,  2.19s/it, pg=-0.0553, rm=1, ret=0.0318, glen=168, tlen=860, kl=0.299, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:54<00:19,  2.19s/it, pg=-0.0812, rm=1.06, ret=0.0616, glen=151, tlen=954, kl=0.297, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:54<00:34,  4.37s/it, pg=-0.0812, rm=1.06, ret=0.0616, glen=151, tlen=954, kl=0.297, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:56<00:34,  4.37s/it, pg=0.0929, rm=1, ret=-0.118, glen=162, tlen=772, kl=0.341, act_lr=9.36e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:56<00:25,  3.69s/it, pg=0.0929, rm=1, ret=-0.118, glen=162, tlen=772, kl=0.341, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:57<00:25,  3.69s/it, pg=-0.0374, rm=1.06, ret=0.00947, glen=171, tlen=672, kl=0.359, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [05:57<00:18,  3.02s/it, pg=-0.0374, rm=1.06, ret=0.00947, glen=171, tlen=672, kl=0.359, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [05:59<00:18,  3.02s/it, pg=0.0561, rm=1.12, ret=-0.0786, glen=160, tlen=777, kl=0.296, act_lr=9.36e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [05:59<00:13,  2.79s/it, pg=0.0561, rm=1.12, ret=-0.0786, glen=160, tlen=777, kl=0.296, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:01<00:13,  2.79s/it, pg=0.0427, rm=1.06, ret=-0.067, glen=161, tlen=710, kl=0.319, act_lr=9.36e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:01<00:09,  2.49s/it, pg=0.0427, rm=1.06, ret=-0.067, glen=161, tlen=710, kl=0.319, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:03<00:09,  2.49s/it, pg=0.111, rm=0.875, ret=-0.131, glen=158, tlen=852, kl=0.294, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:03<00:07,  2.37s/it, pg=0.111, rm=0.875, ret=-0.131, glen=158, tlen=852, kl=0.294, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:06<00:07,  2.37s/it, pg=0.115, rm=0.938, ret=-0.135, glen=151, tlen=817, kl=0.294, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:06<00:04,  2.33s/it, pg=0.115, rm=0.938, ret=-0.135, glen=151, tlen=817, kl=0.294, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:07<00:04,  2.33s/it, pg=0.0925, rm=0.938, ret=-0.114, glen=147, tlen=859, kl=0.323, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:07<00:02,  2.18s/it, pg=0.0925, rm=0.938, ret=-0.114, glen=147, tlen=859, kl=0.323, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:16<00:02,  2.18s/it, pg=0.0289, rm=1, ret=-0.0509, glen=153, tlen=907, kl=0.292, act_lr=9.36e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:16<00:00,  4.08s/it, pg=0.0289, rm=1, ret=-0.0509, glen=153, tlen=907, kl=0.292, act_lr=9.36e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:16<00:00,  2.94s/it, pg=0.0289, rm=1, ret=-0.0509, glen=153, tlen=907, kl=0.292, act_lr=9.36e-7]
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 14:01:48 [executor_base.py:219] It took 1.930195 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:01:50 [executor_base.py:219] It took 3.169743 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3343x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.12.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 939x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.22.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 988x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 14:02:10 [worker.py:133] Sleep mode freed 38.53 GiB memory, 18.76 GiB memory is still in use.
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 14:02:10 [executor_base.py:208] It took 1.306540 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 511x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  10%|█         | 13/127 [2:48:53<23:04:55, 728.90s/it, policy_loss=0.0265, actor_lr=9.37e-7, kl=0.308, reward=0.945, response_length=158, total_length=816, acc_rewards=0.445, format_rewards=0.5, return=-0.0486]
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  11%|█         | 14/127 [2:48:53<22:24:11, 713.73s/it, policy_loss=0.0265, actor_lr=9.37e-7, kl=0.308, reward=0.945, response_length=158, total_length=816, acc_rewards=0.445, format_rewards=0.5, return=-0.0486]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:02:12 [executor_base.py:219] It took 1.557954 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   0%|          | 1/256 [00:19<1:23:24, 19.63s/it, est. speed input: 25.12 toks/s, output: 4.48 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   1%|          | 2/256 [00:20<35:24,  8.36s/it, est. speed input: 101.96 toks/s, output: 9.30 toks/s] 
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   1%|          | 2/256 [00:21<37:37,  8.89s/it, est. speed input: 96.06 toks/s, output: 9.20 toks/s]  
+Processed prompts:   2%|▏         | 5/256 [00:21<10:44,  2.57s/it, est. speed input: 262.37 toks/s, output: 23.71 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  93%|█████████▎| 238/256 [00:23<00:00, 128.60it/s, est. speed input: 6042.28 toks/s, output: 1520.41 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  98%|█████████▊| 252/256 [00:23<00:00, 83.33it/s, est. speed input: 6218.60 toks/s, output: 1617.81 toks/s] 
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  89%|████████▊ | 227/256 [00:24<00:00, 139.89it/s, est. speed input: 5768.42 toks/s, output: 1411.14 toks/s]
+Processed prompts:  95%|█████████▍| 242/256 [00:24<00:00, 140.18it/s, est. speed input: 6084.69 toks/s, output: 1522.11 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:24<00:00, 10.63it/s, est. speed input: 6264.57 toks/s, output: 1637.73 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 1/256 [00:25<1:47:00, 25.18s/it, est. speed input: 20.22 toks/s, output: 4.33 toks/s][32m [repeated 20x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  67%|██████▋   | 171/256 [00:24<00:00, 123.51it/s, est. speed input: 4476.26 toks/s, output: 1016.77 toks/s]
+Processed prompts:  74%|███████▍  | 189/256 [00:24<00:00, 133.98it/s, est. speed input: 4896.35 toks/s, output: 1141.33 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:25<00:00, 10.05it/s, est. speed input: 6220.05 toks/s, output: 1600.69 toks/s] 
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  93%|█████████▎| 237/256 [00:28<00:00, 82.39it/s, est. speed input: 5689.41 toks/s, output: 1348.78 toks/s] 
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  96%|█████████▋| 247/256 [00:28<00:00, 56.35it/s, est. speed input: 5960.38 toks/s, output: 1409.01 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:29<00:00, 22.64it/s, est. speed input: 6172.14 toks/s, output: 1432.34 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:30<00:00,  8.51it/s, est. speed input: 6192.70 toks/s, output: 1435.72 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:20<06:40,  1.61s/it, est. speed input: 167.44 toks/s, output: 26.98 toks/s][32m [repeated 29x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  74%|███████▍  | 189/256 [00:29<00:00, 121.12it/s, est. speed input: 5527.76 toks/s, output: 970.42 toks/s]
+Processed prompts:  79%|███████▉  | 202/256 [00:29<00:00, 116.06it/s, est. speed input: 5733.83 toks/s, output: 1047.90 toks/s][32m [repeated 11x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:31<00:00,  8.08it/s, est. speed input: 6290.92 toks/s, output: 1313.85 toks/s] [32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  61%|██████    | 155/256 [00:33<00:01, 98.94it/s, est. speed input: 4441.52 toks/s, output: 673.62 toks/s] [32m [repeated 38x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  68%|██████▊   | 175/256 [00:33<00:00, 116.97it/s, est. speed input: 4859.81 toks/s, output: 774.10 toks/s]
+Processed prompts:  74%|███████▍  | 189/256 [00:33<00:00, 118.30it/s, est. speed input: 5107.67 toks/s, output: 845.42 toks/s][32m [repeated 19x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  90%|████████▉ | 230/256 [00:31<00:00, 109.79it/s, est. speed input: 6068.15 toks/s, output: 1070.60 toks/s]
+Processed prompts:  95%|█████████▍| 243/256 [00:32<00:00, 108.43it/s, est. speed input: 6408.48 toks/s, output: 1145.88 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:33<00:00, 22.43it/s, est. speed input: 6337.24 toks/s, output: 1171.31 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [00:33<00:00,  7.57it/s, est. speed input: 6337.24 toks/s, output: 1171.31 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  97%|█████████▋| 249/256 [00:34<00:00, 66.08it/s, est. speed input: 6364.75 toks/s, output: 1169.13 toks/s] [32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  42%|████▏     | 107/256 [00:29<00:02, 50.62it/s, est. speed input: 4173.95 toks/s, output: 431.62 toks/s]
+Processed prompts:  45%|████▍     | 114/256 [00:29<00:02, 54.76it/s, est. speed input: 4408.12 toks/s, output: 464.96 toks/s]
+Processed prompts:  48%|████▊     | 123/256 [00:29<00:02, 62.89it/s, est. speed input: 4561.87 toks/s, output: 508.76 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  64%|██████▍   | 165/256 [00:30<00:00, 101.68it/s, est. speed input: 5273.27 toks/s, output: 723.45 toks/s][32m [repeated 12x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  70%|███████   | 180/256 [00:30<00:00, 109.47it/s, est. speed input: 5501.84 toks/s, output: 803.31 toks/s]
+Processed prompts:  76%|███████▌  | 195/256 [00:30<00:00, 116.81it/s, est. speed input: 5705.81 toks/s, output: 885.14 toks/s][32m [repeated 10x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:45<00:00, 66.08it/s, est. speed input: 6261.28 toks/s, output: 1159.40 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  81%|████████▏ | 208/256 [00:30<00:00, 119.72it/s, est. speed input: 5874.74 toks/s, output: 957.70 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  86%|████████▋ | 221/256 [00:30<00:00, 108.68it/s, est. speed input: 6040.58 toks/s, output: 1030.87 toks/s]
+Processed prompts:  91%|█████████ | 233/256 [00:30<00:00, 110.77it/s, est. speed input: 6197.97 toks/s, output: 1101.87 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|██████████| 256/256 [01:22<00:00,  1.37s/it, est. speed input: 2753.59 toks/s, output: 558.67 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [01:22<00:00,  3.11it/s, est. speed input: 2753.59 toks/s, output: 558.67 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:02:11 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.34 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:02:11 [executor_base.py:208] It took 1.625327 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:02:14 [executor_base.py:219] It took 3.100156 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287371)[0m  3136
+[36m(ActorModelRayActor pid=287371)[0m 
+[36m(ActorModelRayActor pid=287371)[0m  
+[36m(ActorModelRayActor pid=287371)[0m 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 923x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 923x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 860x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 860x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 14:04:46 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.42 GiB memory is still in use.
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 14:04:46 [executor_base.py:208] It took 1.347349 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:18,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:16,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:03<02:16,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:04<02:11,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:05<02:08,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:06<02:06,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:07<02:09,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:08<02:07,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:09<02:19,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:11<02:26,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:12<02:29,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:14<02:31,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:15<02:32,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:16<02:34,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:18<02:34,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:19<02:30,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:20<02:31,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:22<02:28,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:23<02:25,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:24<02:24,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:26<02:23,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:27<02:33,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:29<02:31,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:30<02:27,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:32<02:29,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:33<02:27,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:35<02:25,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:36<02:24,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:38<02:22,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:39<02:21,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:40<02:18,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:42<02:18,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:43<02:14,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:45<02:11,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:46<02:09,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:49<02:59,  1.96s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:51<02:45,  1.82s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:53<02:56,  1.96s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:54<02:41,  1.82s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:57<02:56,  2.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:58<02:36,  1.80s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [01:00<02:39,  1.86s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [01:02<02:25,  1.71s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [01:03<02:08,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [01:04<02:02,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:05<01:57,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:07<01:51,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:08<01:46,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:09<01:46,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:11<01:46,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:12<01:45,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:13<01:44,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:15<01:43,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:16<01:42,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:18<01:40,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:19<01:39,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:20<01:38,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:22<01:38,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:23<01:39,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:25<01:34,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:26<01:31,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:27<01:31,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:29<01:29,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:30<01:29,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:31<01:25,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:33<01:25,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:34<01:23,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:36<01:24,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:37<01:21,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:38<01:19,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:40<01:17,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:41<01:16,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:42<01:09,  1.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:43<01:03,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:44<01:00,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:45<00:57,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:46<00:54,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:47<00:53,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:48<00:51,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:49<00:49,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:50<00:52,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:52<00:54,  1.19s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:53<00:56,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:55<00:56,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:56<00:56,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:57<00:56,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:59<00:57,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [02:00<00:56,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:02<00:56,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:03<00:54,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:05<00:53,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:06<00:51,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:08<00:52,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:09<00:50,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:11<00:48,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:12<00:47,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:14<00:45,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:15<00:44,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:17<00:44,  1.55s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:18<00:42,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:20<00:41,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:21<00:39,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:23<00:38,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:24<00:36,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:26<00:34,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:27<00:31,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:29<00:30,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:30<00:29,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:32<00:28,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:33<00:25,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:34<00:24,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:36<00:22,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:37<00:21,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:39<00:20,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:40<00:19,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:42<00:17,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:43<00:16,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:45<00:16,  1.70s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:47<00:14,  1.65s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:48<00:12,  1.59s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:50<00:10,  1.55s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:51<00:09,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:53<00:07,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:54<00:06,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:56<00:04,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:57<00:03,  1.53s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:59<00:01,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|███████���██| 128/128 [03:00<00:00,  1.52s/it][A
+make_experience: 100%|██████████| 128/128 [03:00<00:00,  1.41s/it]
+[36m(ActorModelRayActor pid=286523)[0m ["system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nGive an overall aesthetic rating for this image, between 0 and 5, rounded to two decimal points. A rating of 0 represents very poor aesthetic quality, while 5 represents excellent aesthetic quality.\nassistant\n<think>The image depicts a still life arrangement with pears and apples on a checkered surface accompanied by a pipe. The lighting is focused, creating a dramatic effect by emphasizing the textures and contours of the fruits. The composition is balanced, with the subjects in the center of the frame. However, the image's aesthetic could be enhanced by a stronger, more dynamic color contrast or by adjusting the mood through the selection of lighting. The atmosphere appears somewhat somber due to the subdued lighting, which might not be a deliberate choice for the mood the artist intended to convey. The image lacks the playful or whimsical quality that could elevate it to a more engaging or emotionally appealing composition.</think>\n<answer>2.92</answer>"]
+[36m(ActorModelRayActor pid=287378)[0m ele.get("min_pixels" 3136[32m [repeated 259x across cluster][0m
+[36m(ActorModelRayActor pid=287378)[0m ele.get("max_pixels" 1254400[32m [repeated 259x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:04:46 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.52 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:04:46 [executor_base.py:208] It took 1.647691 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.131, rm=0.812, ret=-0.153, glen=165, tlen=985, kl=0.297, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:05,  2.40s/it, pg=0.131, rm=0.812, ret=-0.153, glen=165, tlen=985, kl=0.297, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:06<05:05,  2.40s/it, pg=0.461, rm=0.969, ret=-0.479, glen=400, tlen=1.02e+3, kl=0.105, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:06<06:37,  3.15s/it, pg=0.461, rm=0.969, ret=-0.479, glen=400, tlen=1.02e+3, kl=0.105, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:08<06:37,  3.15s/it, pg=-0.062, rm=1.12, ret=0.0363, glen=172, tlen=876, kl=0.322, act_lr=9.36e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:08<05:34,  2.67s/it, pg=-0.062, rm=1.12, ret=0.0363, glen=172, tlen=876, kl=0.322, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:10<05:34,  2.67s/it, pg=-0.15, rm=1.19, ret=0.129, glen=152, tlen=1.01e+3, kl=0.302, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:10<04:54,  2.37s/it, pg=-0.15, rm=1.19, ret=0.129, glen=152, tlen=1.01e+3, kl=0.302, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:54,  2.37s/it, pg=0.221, rm=1.06, ret=-0.244, glen=163, tlen=641, kl=0.3, act_lr=9.36e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:11,  2.04s/it, pg=0.221, rm=1.06, ret=-0.244, glen=163, tlen=641, kl=0.3, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:11,  2.04s/it, pg=0.113, rm=0.812, ret=-0.136, glen=158, tlen=724, kl=0.317, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<03:58,  1.96s/it, pg=0.113, rm=0.812, ret=-0.136, glen=158, tlen=724, kl=0.317, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<03:58,  1.96s/it, pg=0.0386, rm=1.12, ret=-0.063, glen=162, tlen=750, kl=0.339, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<03:54,  1.94s/it, pg=0.0386, rm=1.12, ret=-0.063, glen=162, tlen=750, kl=0.339, act_lr=9.36e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:24<03:54,  1.94s/it, pg=0.0793, rm=1.12, ret=-0.103, glen=170, tlen=899, kl=0.326, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:24<08:45,  4.38s/it, pg=0.0793, rm=1.12, ret=-0.103, glen=170, tlen=899, kl=0.326, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:26<08:45,  4.38s/it, pg=0.0609, rm=1.06, ret=-0.083, glen=162, tlen=810, kl=0.289, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:26<07:08,  3.60s/it, pg=0.0609, rm=1.06, ret=-0.083, glen=162, tlen=810, kl=0.289, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:28<07:08,  3.60s/it, pg=-0.0841, rm=1.31, ret=0.0634, glen=148, tlen=936, kl=0.304, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:28<06:05,  3.10s/it, pg=-0.0841, rm=1.31, ret=0.0634, glen=148, tlen=936, kl=0.304, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:30<06:05,  3.10s/it, pg=0.379, rm=0.719, ret=-0.401, glen=153, tlen=836, kl=0.316, act_lr=9.35e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:30<05:19,  2.73s/it, pg=0.379, rm=0.719, ret=-0.401, glen=153, tlen=836, kl=0.316, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:32<05:19,  2.73s/it, pg=0.0552, rm=1.12, ret=-0.0772, glen=163, tlen=767, kl=0.278, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:32<04:57,  2.56s/it, pg=0.0552, rm=1.12, ret=-0.0772, glen=163, tlen=767, kl=0.278, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:34<04:57,  2.56s/it, pg=-0.397, rm=1.06, ret=0.373, glen=164, tlen=918, kl=0.322, act_lr=9.35e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:34<04:35,  2.40s/it, pg=-0.397, rm=1.06, ret=0.373, glen=164, tlen=918, kl=0.322, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<04:35,  2.40s/it, pg=0.0134, rm=1.19, ret=-0.0366, glen=167, tlen=840, kl=0.313, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:36<04:16,  2.25s/it, pg=0.0134, rm=1.19, ret=-0.0366, glen=167, tlen=840, kl=0.313, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:16,  2.25s/it, pg=0.00239, rm=1, ret=-0.027, glen=156, tlen=906, kl=0.336, act_lr=9.35e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:38<04:09,  2.21s/it, pg=0.00239, rm=1, ret=-0.027, glen=156, tlen=906, kl=0.336, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:47<04:09,  2.21s/it, pg=0.00182, rm=1, ret=-0.0252, glen=159, tlen=966, kl=0.324, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:47<07:59,  4.28s/it, pg=0.00182, rm=1, ret=-0.0252, glen=159, tlen=966, kl=0.324, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:49<07:59,  4.28s/it, pg=0.155, rm=0.938, ret=-0.178, glen=152, tlen=757, kl=0.319, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:49<06:36,  3.57s/it, pg=0.155, rm=0.938, ret=-0.178, glen=152, tlen=757, kl=0.319, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:51<06:36,  3.57s/it, pg=0.0911, rm=1.12, ret=-0.114, glen=162, tlen=926, kl=0.303, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:51<05:37,  3.07s/it, pg=0.0911, rm=1.12, ret=-0.114, glen=162, tlen=926, kl=0.303, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:53<05:37,  3.07s/it, pg=0.0968, rm=1.06, ret=-0.117, glen=160, tlen=943, kl=0.282, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:53<04:58,  2.74s/it, pg=0.0968, rm=1.06, ret=-0.117, glen=160, tlen=943, kl=0.282, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:55<04:58,  2.74s/it, pg=-0.116, rm=1.31, ret=0.0942, glen=157, tlen=730, kl=0.319, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:55<04:31,  2.51s/it, pg=-0.116, rm=1.31, ret=0.0942, glen=157, tlen=730, kl=0.319, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:57<04:31,  2.51s/it, pg=0.321, rm=0.938, ret=-0.344, glen=155, tlen=929, kl=0.331, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [00:57<04:15,  2.39s/it, pg=0.321, rm=0.938, ret=-0.344, glen=155, tlen=929, kl=0.331, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [00:59<04:15,  2.39s/it, pg=-0.151, rm=1.06, ret=0.13, glen=159, tlen=856, kl=0.289, act_lr=9.35e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [00:59<04:06,  2.32s/it, pg=-0.151, rm=1.06, ret=0.13, glen=159, tlen=856, kl=0.289, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:02<04:06,  2.32s/it, pg=0.186, rm=0.875, ret=-0.211, glen=167, tlen=978, kl=0.33, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:02<03:58,  2.27s/it, pg=0.186, rm=0.875, ret=-0.211, glen=167, tlen=978, kl=0.33, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:11<03:58,  2.27s/it, pg=-0.136, rm=1.06, ret=0.113, glen=149, tlen=916, kl=0.323, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:11<07:50,  4.53s/it, pg=-0.136, rm=1.06, ret=0.113, glen=149, tlen=916, kl=0.323, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:14<07:50,  4.53s/it, pg=-0.0884, rm=1.19, ret=0.0664, glen=170, tlen=920, kl=0.28, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:14<06:33,  3.82s/it, pg=-0.0884, rm=1.19, ret=0.0664, glen=170, tlen=920, kl=0.28, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:16<06:33,  3.82s/it, pg=-0.0566, rm=1.06, ret=0.0344, glen=164, tlen=998, kl=0.293, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:16<05:35,  3.29s/it, pg=-0.0566, rm=1.06, ret=0.0344, glen=164, tlen=998, kl=0.293, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:18<05:35,  3.29s/it, pg=0.0253, rm=1, ret=-0.0504, glen=164, tlen=899, kl=0.33, act_lr=9.35e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:18<04:49,  2.87s/it, pg=0.0253, rm=1, ret=-0.0504, glen=164, tlen=899, kl=0.33, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:19<04:49,  2.87s/it, pg=0.14, rm=1.12, ret=-0.164, glen=161, tlen=820, kl=0.317, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:19<04:15,  2.56s/it, pg=0.14, rm=1.12, ret=-0.164, glen=161, tlen=820, kl=0.317, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:21<04:15,  2.56s/it, pg=-0.055, rm=1, ret=0.0303, glen=154, tlen=846, kl=0.327, act_lr=9.35e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:21<03:51,  2.34s/it, pg=-0.055, rm=1, ret=0.0303, glen=154, tlen=846, kl=0.327, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:23<03:51,  2.34s/it, pg=0.476, rm=0.812, ret=-0.496, glen=151, tlen=918, kl=0.297, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:23<03:35,  2.19s/it, pg=0.476, rm=0.812, ret=-0.496, glen=151, tlen=918, kl=0.297, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:25<03:35,  2.19s/it, pg=0.14, rm=1, ret=-0.162, glen=154, tlen=897, kl=0.315, act_lr=9.35e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:25<03:23,  2.10s/it, pg=0.14, rm=1, ret=-0.162, glen=154, tlen=897, kl=0.315, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:34<03:23,  2.10s/it, pg=-0.00639, rm=1.06, ret=-0.0147, glen=159, tlen=1040.5, kl=0.285, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:34<06:45,  4.22s/it, pg=-0.00639, rm=1.06, ret=-0.0147, glen=159, tlen=1040.5, kl=0.285, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:36<06:45,  4.22s/it, pg=-0.0287, rm=1.19, ret=0.00628, glen=157, tlen=635, kl=0.31, act_lr=9.35e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:36<05:23,  3.41s/it, pg=-0.0287, rm=1.19, ret=0.00628, glen=157, tlen=635, kl=0.31, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:38<05:23,  3.41s/it, pg=-0.123, rm=1.06, ret=0.0989, glen=161, tlen=975, kl=0.307, act_lr=9.35e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:38<04:48,  3.07s/it, pg=-0.123, rm=1.06, ret=0.0989, glen=161, tlen=975, kl=0.307, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:40<04:48,  3.07s/it, pg=-0.0181, rm=1.06, ret=-0.00229, glen=153, tlen=896, kl=0.284, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:40<04:15,  2.75s/it, pg=-0.0181, rm=1.06, ret=-0.00229, glen=153, tlen=896, kl=0.284, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:42<04:15,  2.75s/it, pg=0.00812, rm=1.12, ret=-0.028, glen=150, tlen=1.05e+3, kl=0.291, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:42<03:55,  2.56s/it, pg=0.00812, rm=1.12, ret=-0.028, glen=150, tlen=1.05e+3, kl=0.291, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:44<03:55,  2.56s/it, pg=0.0773, rm=1.12, ret=-0.1, glen=158, tlen=907, kl=0.301, act_lr=9.35e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:44<03:44,  2.46s/it, pg=0.0773, rm=1.12, ret=-0.1, glen=158, tlen=907, kl=0.301, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:46<03:44,  2.46s/it, pg=0.11, rm=0.938, ret=-0.129, glen=146, tlen=913, kl=0.293, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:46<03:25,  2.28s/it, pg=0.11, rm=0.938, ret=-0.129, glen=146, tlen=913, kl=0.293, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:48<03:25,  2.28s/it, pg=-0.113, rm=1.19, ret=0.0931, glen=149, tlen=1.04e+3, kl=0.299, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:48<03:12,  2.16s/it, pg=-0.113, rm=1.19, ret=0.0931, glen=149, tlen=1.04e+3, kl=0.299, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:57<03:12,  2.16s/it, pg=-0.0487, rm=1.06, ret=0.0223, glen=175, tlen=839, kl=0.327, act_lr=9.35e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [01:57<06:02,  4.12s/it, pg=-0.0487, rm=1.06, ret=0.0223, glen=175, tlen=839, kl=0.327, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [01:59<06:02,  4.12s/it, pg=-0.103, rm=1.06, ret=0.0806, glen=158, tlen=988, kl=0.291, act_lr=9.35e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [01:59<05:05,  3.51s/it, pg=-0.103, rm=1.06, ret=0.0806, glen=158, tlen=988, kl=0.291, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:01<05:05,  3.51s/it, pg=-0.0837, rm=1.19, ret=0.0589, glen=168, tlen=902, kl=0.312, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:01<04:30,  3.14s/it, pg=-0.0837, rm=1.19, ret=0.0589, glen=168, tlen=902, kl=0.312, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:03<04:30,  3.14s/it, pg=-0.000821, rm=1.06, ret=-0.0226, glen=175, tlen=813, kl=0.3, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:03<03:56,  2.78s/it, pg=-0.000821, rm=1.06, ret=-0.0226, glen=175, tlen=813, kl=0.3, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:05<03:56,  2.78s/it, pg=0.0202, rm=1.06, ret=-0.0396, glen=146, tlen=909, kl=0.333, act_lr=9.35e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:05<03:31,  2.51s/it, pg=0.0202, rm=1.06, ret=-0.0396, glen=146, tlen=909, kl=0.333, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:07<03:31,  2.51s/it, pg=0.0272, rm=0.938, ret=-0.0472, glen=147, tlen=1.01e+3, kl=0.304, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:07<03:27,  2.50s/it, pg=0.0272, rm=0.938, ret=-0.0472, glen=147, tlen=1.01e+3, kl=0.304, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:10<03:27,  2.50s/it, pg=0.142, rm=1.12, ret=-0.163, glen=166, tlen=916, kl=0.291, act_lr=9.35e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:10<03:18,  2.42s/it, pg=0.142, rm=1.12, ret=-0.163, glen=166, tlen=916, kl=0.291, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:12<03:18,  2.42s/it, pg=-0.124, rm=1.12, ret=0.103, glen=168, tlen=805, kl=0.293, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:12<03:06,  2.30s/it, pg=-0.124, rm=1.12, ret=0.103, glen=168, tlen=805, kl=0.293, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:21<03:06,  2.30s/it, pg=0.0262, rm=1.12, ret=-0.0488, glen=147, tlen=916, kl=0.333, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:21<05:49,  4.37s/it, pg=0.0262, rm=1.12, ret=-0.0488, glen=147, tlen=916, kl=0.333, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:24<05:49,  4.37s/it, pg=0.0651, rm=1.12, ret=-0.0871, glen=158, tlen=917, kl=0.308, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:24<05:08,  3.91s/it, pg=0.0651, rm=1.12, ret=-0.0871, glen=158, tlen=917, kl=0.308, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:26<05:08,  3.91s/it, pg=-0.063, rm=1.12, ret=0.0398, glen=173, tlen=878, kl=0.299, act_lr=9.35e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:26<04:17,  3.31s/it, pg=-0.063, rm=1.12, ret=0.0398, glen=173, tlen=878, kl=0.299, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:28<04:17,  3.31s/it, pg=-0.101, rm=1.06, ret=0.0781, glen=163, tlen=992, kl=0.299, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:28<03:46,  2.94s/it, pg=-0.101, rm=1.06, ret=0.0781, glen=163, tlen=992, kl=0.299, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:30<03:46,  2.94s/it, pg=-0.00882, rm=1.19, ret=-0.0134, glen=161, tlen=910, kl=0.303, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:30<03:22,  2.66s/it, pg=-0.00882, rm=1.19, ret=-0.0134, glen=161, tlen=910, kl=0.303, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:32<03:22,  2.66s/it, pg=0.104, rm=1, ret=-0.127, glen=166, tlen=829, kl=0.314, act_lr=9.35e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:32<03:06,  2.48s/it, pg=0.104, rm=1, ret=-0.127, glen=166, tlen=829, kl=0.314, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:34<03:06,  2.48s/it, pg=-0.121, rm=1.25, ret=0.0981, glen=157, tlen=815, kl=0.323, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:34<02:48,  2.28s/it, pg=-0.121, rm=1.25, ret=0.0981, glen=157, tlen=815, kl=0.323, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:36<02:48,  2.28s/it, pg=-0.0843, rm=1, ret=0.0633, glen=153, tlen=804, kl=0.31, act_lr=9.35e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:36<02:43,  2.24s/it, pg=-0.0843, rm=1, ret=0.0633, glen=153, tlen=804, kl=0.31, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:45<02:43,  2.24s/it, pg=0.0739, rm=1.06, ret=-0.0982, glen=162, tlen=987, kl=0.325, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:45<05:11,  4.33s/it, pg=0.0739, rm=1.06, ret=-0.0982, glen=162, tlen=987, kl=0.325, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:47<05:11,  4.33s/it, pg=0.086, rm=1.12, ret=-0.107, glen=162, tlen=894, kl=0.306, act_lr=9.35e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:47<04:22,  3.69s/it, pg=0.086, rm=1.12, ret=-0.107, glen=162, tlen=894, kl=0.306, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:49<04:22,  3.69s/it, pg=0.0985, rm=1, ret=-0.12, glen=150, tlen=989, kl=0.325, act_lr=9.35e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:49<03:50,  3.30s/it, pg=0.0985, rm=1, ret=-0.12, glen=150, tlen=989, kl=0.325, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:51<03:50,  3.30s/it, pg=0.151, rm=1.19, ret=-0.176, glen=188, tlen=886, kl=0.304, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:51<03:20,  2.90s/it, pg=0.151, rm=1.19, ret=-0.176, glen=188, tlen=886, kl=0.304, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:53<03:20,  2.90s/it, pg=-0.018, rm=1.06, ret=-0.00258, glen=148, tlen=891, kl=0.296, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:53<02:55,  2.58s/it, pg=-0.018, rm=1.06, ret=-0.00258, glen=148, tlen=891, kl=0.296, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:55<02:55,  2.58s/it, pg=0.00122, rm=1, ret=-0.0245, glen=169, tlen=863, kl=0.323, act_lr=9.35e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:55<02:41,  2.41s/it, pg=0.00122, rm=1, ret=-0.0245, glen=169, tlen=863, kl=0.323, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:57<02:41,  2.41s/it, pg=-0.0946, rm=1.25, ret=0.0716, glen=168, tlen=825, kl=0.316, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [02:57<02:27,  2.24s/it, pg=-0.0946, rm=1.25, ret=0.0716, glen=168, tlen=825, kl=0.316, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [02:59<02:27,  2.24s/it, pg=-0.0608, rm=0.875, ret=0.039, glen=153, tlen=894, kl=0.329, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [02:59<02:22,  2.19s/it, pg=-0.0608, rm=0.875, ret=0.039, glen=153, tlen=894, kl=0.329, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:08<02:22,  2.19s/it, pg=-0.0383, rm=1.19, ret=0.0184, glen=150, tlen=989, kl=0.287, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:08<04:28,  4.20s/it, pg=-0.0383, rm=1.19, ret=0.0184, glen=150, tlen=989, kl=0.287, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:10<04:28,  4.20s/it, pg=-0.0243, rm=0.938, ret=0.00139, glen=154, tlen=908, kl=0.342, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:10<03:44,  3.56s/it, pg=-0.0243, rm=0.938, ret=0.00139, glen=154, tlen=908, kl=0.342, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:12<03:44,  3.56s/it, pg=-0.0957, rm=1.25, ret=0.0728, glen=163, tlen=938, kl=0.308, act_lr=9.35e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:12<03:12,  3.11s/it, pg=-0.0957, rm=1.25, ret=0.0728, glen=163, tlen=938, kl=0.308, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:14<03:12,  3.11s/it, pg=-0.0887, rm=1.12, ret=0.0671, glen=160, tlen=954, kl=0.288, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:14<02:55,  2.87s/it, pg=-0.0887, rm=1.12, ret=0.0671, glen=160, tlen=954, kl=0.288, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:17<02:55,  2.87s/it, pg=0.03, rm=1, ret=-0.0522, glen=168, tlen=923, kl=0.305, act_lr=9.35e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:17<02:38,  2.65s/it, pg=0.03, rm=1, ret=-0.0522, glen=168, tlen=923, kl=0.305, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:19<02:38,  2.65s/it, pg=0.137, rm=0.938, ret=-0.16, glen=156, tlen=912, kl=0.314, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:19<02:26,  2.49s/it, pg=0.137, rm=0.938, ret=-0.16, glen=156, tlen=912, kl=0.314, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:21<02:26,  2.49s/it, pg=0.0492, rm=0.938, ret=-0.0729, glen=161, tlen=812, kl=0.33, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:21<02:17,  2.36s/it, pg=0.0492, rm=0.938, ret=-0.0729, glen=161, tlen=812, kl=0.33, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:22<02:17,  2.36s/it, pg=-0.144, rm=1.12, ret=0.12, glen=168, tlen=660, kl=0.318, act_lr=9.35e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:22<01:58,  2.08s/it, pg=-0.144, rm=1.12, ret=0.12, glen=168, tlen=660, kl=0.318, act_lr=9.35e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:31<01:58,  2.08s/it, pg=0.00293, rm=0.812, ret=-0.0253, glen=149, tlen=832, kl=0.321, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:31<03:52,  4.15s/it, pg=0.00293, rm=0.812, ret=-0.0253, glen=149, tlen=832, kl=0.321, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:33<03:52,  4.15s/it, pg=-0.127, rm=1, ret=0.103, glen=180, tlen=960, kl=0.308, act_lr=9.34e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:33<03:17,  3.59s/it, pg=-0.127, rm=1, ret=0.103, glen=180, tlen=960, kl=0.308, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:35<03:17,  3.59s/it, pg=0.0351, rm=1.06, ret=-0.0598, glen=159, tlen=921, kl=0.339, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:35<02:46,  3.07s/it, pg=0.0351, rm=1.06, ret=-0.0598, glen=159, tlen=921, kl=0.339, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:37<02:46,  3.07s/it, pg=-0.0156, rm=0.938, ret=-0.00502, glen=150, tlen=998, kl=0.307, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:37<02:26,  2.76s/it, pg=-0.0156, rm=0.938, ret=-0.00502, glen=150, tlen=998, kl=0.307, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:39<02:26,  2.76s/it, pg=0.0413, rm=1.25, ret=-0.0594, glen=147, tlen=936, kl=0.29, act_lr=9.34e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:39<02:10,  2.51s/it, pg=0.0413, rm=1.25, ret=-0.0594, glen=147, tlen=936, kl=0.29, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:41<02:10,  2.51s/it, pg=-0.174, rm=1.25, ret=0.152, glen=164, tlen=893, kl=0.312, act_lr=9.34e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:41<02:01,  2.37s/it, pg=-0.174, rm=1.25, ret=0.152, glen=164, tlen=893, kl=0.312, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:44<02:01,  2.37s/it, pg=0.0878, rm=1.25, ret=-0.112, glen=170, tlen=798, kl=0.317, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:44<01:55,  2.31s/it, pg=0.0878, rm=1.25, ret=-0.112, glen=170, tlen=798, kl=0.317, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:46<01:55,  2.31s/it, pg=-0.0537, rm=1.19, ret=0.0339, glen=164, tlen=896, kl=0.292, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:46<01:57,  2.39s/it, pg=-0.0537, rm=1.19, ret=0.0339, glen=164, tlen=896, kl=0.292, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:55<01:57,  2.39s/it, pg=0.0152, rm=0.875, ret=-0.0385, glen=154, tlen=865, kl=0.333, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:55<03:32,  4.43s/it, pg=0.0152, rm=0.875, ret=-0.0385, glen=154, tlen=865, kl=0.333, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:58<03:32,  4.43s/it, pg=-0.0787, rm=1.06, ret=0.0591, glen=154, tlen=842, kl=0.29, act_lr=9.34e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [03:58<02:56,  3.76s/it, pg=-0.0787, rm=1.06, ret=0.0591, glen=154, tlen=842, kl=0.29, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [03:59<02:56,  3.76s/it, pg=-0.15, rm=1.19, ret=0.131, glen=149, tlen=1012.25, kl=0.293, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [03:59<02:27,  3.20s/it, pg=-0.15, rm=1.19, ret=0.131, glen=149, tlen=1012.25, kl=0.293, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:01<02:27,  3.20s/it, pg=-0.0203, rm=0.875, ret=-0.00735, glen=168, tlen=734, kl=0.362, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:01<02:05,  2.78s/it, pg=-0.0203, rm=0.875, ret=-0.00735, glen=168, tlen=734, kl=0.362, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:03<02:05,  2.78s/it, pg=0.146, rm=1.19, ret=-0.168, glen=155, tlen=853, kl=0.319, act_lr=9.34e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:03<01:49,  2.50s/it, pg=0.146, rm=1.19, ret=-0.168, glen=155, tlen=853, kl=0.319, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:05<01:49,  2.50s/it, pg=0.0353, rm=1.06, ret=-0.0573, glen=162, tlen=924, kl=0.317, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:05<01:42,  2.38s/it, pg=0.0353, rm=1.06, ret=-0.0573, glen=162, tlen=924, kl=0.317, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:07<01:42,  2.38s/it, pg=0.192, rm=1, ret=-0.216, glen=163, tlen=709, kl=0.346, act_lr=9.34e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:07<01:32,  2.19s/it, pg=0.192, rm=1, ret=-0.216, glen=163, tlen=709, kl=0.346, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:09<01:32,  2.19s/it, pg=0.114, rm=1.12, ret=-0.138, glen=176, tlen=924, kl=0.292, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:09<01:27,  2.14s/it, pg=0.114, rm=1.12, ret=-0.138, glen=176, tlen=924, kl=0.292, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:18<01:27,  2.14s/it, pg=0.068, rm=1.12, ret=-0.088, glen=141, tlen=1.04e+3, kl=0.302, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:18<02:47,  4.20s/it, pg=0.068, rm=1.12, ret=-0.088, glen=141, tlen=1.04e+3, kl=0.302, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:20<02:47,  4.20s/it, pg=0.15, rm=1.12, ret=-0.171, glen=141, tlen=961, kl=0.296, act_lr=9.34e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:20<02:20,  3.59s/it, pg=0.15, rm=1.12, ret=-0.171, glen=141, tlen=961, kl=0.296, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:22<02:20,  3.59s/it, pg=0.115, rm=1.12, ret=-0.139, glen=163, tlen=786, kl=0.293, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:22<01:59,  3.15s/it, pg=0.115, rm=1.12, ret=-0.139, glen=163, tlen=786, kl=0.293, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:24<01:59,  3.15s/it, pg=0.0914, rm=1.12, ret=-0.113, glen=176, tlen=940, kl=0.27, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:24<01:46,  2.87s/it, pg=0.0914, rm=1.12, ret=-0.113, glen=176, tlen=940, kl=0.27, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:26<01:46,  2.87s/it, pg=-0.0057, rm=1.06, ret=-0.0166, glen=151, tlen=934, kl=0.341, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:26<01:34,  2.62s/it, pg=-0.0057, rm=1.06, ret=-0.0166, glen=151, tlen=934, kl=0.341, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:28<01:34,  2.62s/it, pg=0.0139, rm=1.19, ret=-0.0376, glen=161, tlen=834, kl=0.33, act_lr=9.34e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:28<01:24,  2.40s/it, pg=0.0139, rm=1.19, ret=-0.0376, glen=161, tlen=834, kl=0.33, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:30<01:24,  2.40s/it, pg=0.00791, rm=1.06, ret=-0.0293, glen=147, tlen=925, kl=0.306, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:30<01:18,  2.30s/it, pg=0.00791, rm=1.06, ret=-0.0293, glen=147, tlen=925, kl=0.306, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:32<01:18,  2.30s/it, pg=0.00566, rm=1.06, ret=-0.0292, glen=174, tlen=791, kl=0.316, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:32<01:12,  2.19s/it, pg=0.00566, rm=1.06, ret=-0.0292, glen=174, tlen=791, kl=0.316, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:41<01:12,  2.19s/it, pg=-0.0159, rm=1.06, ret=-0.00543, glen=152, tlen=644, kl=0.315, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:41<02:16,  4.26s/it, pg=-0.0159, rm=1.06, ret=-0.00543, glen=152, tlen=644, kl=0.315, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:43<02:16,  4.26s/it, pg=0.0708, rm=1.12, ret=-0.0948, glen=165, tlen=915, kl=0.326, act_lr=9.34e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:43<01:51,  3.60s/it, pg=0.0708, rm=1.12, ret=-0.0948, glen=165, tlen=915, kl=0.326, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:45<01:51,  3.60s/it, pg=-0.114, rm=1.19, ret=0.0931, glen=155, tlen=1050.25, kl=0.287, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:45<01:32,  3.09s/it, pg=-0.114, rm=1.19, ret=0.0931, glen=155, tlen=1050.25, kl=0.287, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:47<01:32,  3.09s/it, pg=-0.0425, rm=1.12, ret=0.0205, glen=156, tlen=950, kl=0.301, act_lr=9.34e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:47<01:20,  2.79s/it, pg=-0.0425, rm=1.12, ret=0.0205, glen=156, tlen=950, kl=0.301, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:50<01:20,  2.79s/it, pg=-0.0303, rm=1.12, ret=0.0107, glen=147, tlen=1.01e+3, kl=0.286, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:50<01:12,  2.58s/it, pg=-0.0303, rm=1.12, ret=0.0107, glen=147, tlen=1.01e+3, kl=0.286, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:52<01:12,  2.58s/it, pg=0.279, rm=0.875, ret=-0.3, glen=157, tlen=854, kl=0.296, act_lr=9.34e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:52<01:06,  2.45s/it, pg=0.279, rm=0.875, ret=-0.3, glen=157, tlen=854, kl=0.296, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:54<01:06,  2.45s/it, pg=0.0854, rm=1, ret=-0.107, glen=164, tlen=802, kl=0.317, act_lr=9.34e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:54<01:01,  2.35s/it, pg=0.0854, rm=1, ret=-0.107, glen=164, tlen=802, kl=0.317, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:56<01:01,  2.35s/it, pg=0.0494, rm=1.12, ret=-0.0734, glen=163, tlen=927, kl=0.332, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [04:56<00:58,  2.34s/it, pg=0.0494, rm=1.12, ret=-0.0734, glen=163, tlen=927, kl=0.332, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:05<00:58,  2.34s/it, pg=-0.0659, rm=1.19, ret=0.0438, glen=156, tlen=760, kl=0.298, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:05<01:44,  4.34s/it, pg=-0.0659, rm=1.19, ret=0.0438, glen=156, tlen=760, kl=0.298, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:07<01:44,  4.34s/it, pg=-0.0867, rm=1.19, ret=0.0633, glen=163, tlen=913, kl=0.31, act_lr=9.34e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:07<01:24,  3.68s/it, pg=-0.0867, rm=1.19, ret=0.0633, glen=163, tlen=913, kl=0.31, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:09<01:24,  3.68s/it, pg=0.33, rm=0.875, ret=-0.349, glen=148, tlen=699, kl=0.315, act_lr=9.34e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:09<01:08,  3.11s/it, pg=0.33, rm=0.875, ret=-0.349, glen=148, tlen=699, kl=0.315, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:11<01:08,  3.11s/it, pg=-0.0875, rm=1.19, ret=0.0653, glen=162, tlen=907, kl=0.296, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:11<00:58,  2.79s/it, pg=-0.0875, rm=1.19, ret=0.0653, glen=162, tlen=907, kl=0.296, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:13<00:58,  2.79s/it, pg=-0.0448, rm=1.06, ret=0.0232, glen=170, tlen=808, kl=0.31, act_lr=9.34e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:13<00:51,  2.56s/it, pg=-0.0448, rm=1.06, ret=0.0232, glen=170, tlen=808, kl=0.31, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:15<00:51,  2.56s/it, pg=0.0361, rm=1, ret=-0.0572, glen=156, tlen=995, kl=0.297, act_lr=9.34e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:15<00:44,  2.36s/it, pg=0.0361, rm=1, ret=-0.0572, glen=156, tlen=995, kl=0.297, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:17<00:44,  2.36s/it, pg=0.149, rm=0.938, ret=-0.174, glen=159, tlen=974, kl=0.318, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:17<00:39,  2.21s/it, pg=0.149, rm=0.938, ret=-0.174, glen=159, tlen=974, kl=0.318, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:19<00:39,  2.21s/it, pg=0.299, rm=1.16, ret=-0.322, glen=152, tlen=844, kl=0.315, act_lr=9.34e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:19<00:36,  2.17s/it, pg=0.299, rm=1.16, ret=-0.322, glen=152, tlen=844, kl=0.315, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:28<00:36,  2.17s/it, pg=-0.0948, rm=1.12, ret=0.0739, glen=165, tlen=927, kl=0.308, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:28<01:08,  4.31s/it, pg=-0.0948, rm=1.12, ret=0.0739, glen=165, tlen=927, kl=0.308, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:30<01:08,  4.31s/it, pg=0.177, rm=1.06, ret=-0.199, glen=163, tlen=897, kl=0.297, act_lr=9.34e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:30<00:55,  3.67s/it, pg=0.177, rm=1.06, ret=-0.199, glen=163, tlen=897, kl=0.297, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:33<00:55,  3.67s/it, pg=-0.0959, rm=1, ret=0.0743, glen=149, tlen=1.01e+3, kl=0.302, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:33<00:46,  3.31s/it, pg=-0.0959, rm=1, ret=0.0743, glen=149, tlen=1.01e+3, kl=0.302, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:35<00:46,  3.31s/it, pg=0.144, rm=1.12, ret=-0.167, glen=158, tlen=901, kl=0.316, act_lr=9.34e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:35<00:38,  2.93s/it, pg=0.144, rm=1.12, ret=-0.167, glen=158, tlen=901, kl=0.316, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:37<00:38,  2.93s/it, pg=0.29, rm=1, ret=-0.311, glen=159, tlen=933, kl=0.283, act_lr=9.34e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:37<00:32,  2.68s/it, pg=0.29, rm=1, ret=-0.311, glen=159, tlen=933, kl=0.283, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:39<00:32,  2.68s/it, pg=0.0149, rm=0.938, ret=-0.0353, glen=163, tlen=670, kl=0.288, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:39<00:25,  2.31s/it, pg=0.0149, rm=0.938, ret=-0.0353, glen=163, tlen=670, kl=0.288, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:41<00:25,  2.31s/it, pg=0.229, rm=1, ret=-0.25, glen=155, tlen=928, kl=0.293, act_lr=9.34e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:41<00:22,  2.22s/it, pg=0.229, rm=1, ret=-0.25, glen=155, tlen=928, kl=0.293, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:42<00:22,  2.22s/it, pg=-0.0118, rm=1, ret=-0.00825, glen=148, tlen=983, kl=0.285, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:42<00:18,  2.10s/it, pg=-0.0118, rm=1, ret=-0.00825, glen=148, tlen=983, kl=0.285, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:51<00:18,  2.10s/it, pg=0.00673, rm=1.19, ret=-0.0277, glen=147, tlen=986, kl=0.295, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:51<00:33,  4.17s/it, pg=0.00673, rm=1.19, ret=-0.0277, glen=147, tlen=986, kl=0.295, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:54<00:33,  4.17s/it, pg=-0.0489, rm=1.19, ret=0.0263, glen=157, tlen=927, kl=0.318, act_lr=9.34e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:54<00:25,  3.69s/it, pg=-0.0489, rm=1.19, ret=0.0263, glen=157, tlen=927, kl=0.318, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:56<00:25,  3.69s/it, pg=-0.0776, rm=1.06, ret=0.055, glen=163, tlen=980, kl=0.305, act_lr=9.34e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [05:56<00:19,  3.28s/it, pg=-0.0776, rm=1.06, ret=0.055, glen=163, tlen=980, kl=0.305, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [05:58<00:19,  3.28s/it, pg=0.0637, rm=1.06, ret=-0.0884, glen=160, tlen=864, kl=0.344, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [05:58<00:14,  2.93s/it, pg=0.0637, rm=1.06, ret=-0.0884, glen=160, tlen=864, kl=0.344, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:01<00:14,  2.93s/it, pg=0.211, rm=1.06, ret=-0.231, glen=157, tlen=889, kl=0.306, act_lr=9.34e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:01<00:10,  2.70s/it, pg=0.211, rm=1.06, ret=-0.231, glen=157, tlen=889, kl=0.306, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:03<00:10,  2.70s/it, pg=0.0122, rm=1.19, ret=-0.0335, glen=152, tlen=824, kl=0.324, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:03<00:07,  2.53s/it, pg=0.0122, rm=1.19, ret=-0.0335, glen=152, tlen=824, kl=0.324, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:05<00:07,  2.53s/it, pg=-0.0609, rm=1.19, ret=0.0381, glen=164, tlen=913, kl=0.315, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:05<00:04,  2.47s/it, pg=-0.0609, rm=1.19, ret=0.0381, glen=164, tlen=913, kl=0.315, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:07<00:04,  2.47s/it, pg=-0.169, rm=1.06, ret=0.144, glen=160, tlen=711, kl=0.331, act_lr=9.34e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:07<00:02,  2.27s/it, pg=-0.169, rm=1.06, ret=0.144, glen=160, tlen=711, kl=0.331, act_lr=9.34e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 14:14:08,859] [INFO] [logging.py:128:log_dist] [Rank 0] step=1200, skipped=0, lr=[9.334975706451861e-07, 9.334975706451861e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:16<00:02,  2.27s/it, pg=0.0398, rm=1, ret=-0.0612, glen=152, tlen=981, kl=0.317, act_lr=9.33e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:16<00:00,  4.33s/it, pg=0.0398, rm=1, ret=-0.0612, glen=152, tlen=981, kl=0.317, act_lr=9.33e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:16<00:00,  2.94s/it, pg=0.0398, rm=1, ret=-0.0612, glen=152, tlen=981, kl=0.317, act_lr=9.33e-7]
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 14:14:11 [executor_base.py:219] It took 1.753981 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279378)[0m INFO 05-28 14:14:12 [executor_base.py:219] It took 3.262336 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m update weight: model.layers.2.self_attn.o_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 3584])[32m [repeated 3320x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.11.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 892x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.21.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 968x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 14:14:33 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.40 GiB memory is still in use.
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 14:14:33 [executor_base.py:208] It took 1.305827 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 607x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  11%|█         | 14/127 [3:01:16<22:24:11, 713.73s/it, policy_loss=0.0269, actor_lr=9.35e-7, kl=0.308, reward=1.07, response_length=161, total_length=890, acc_rewards=0.571, format_rewards=0.499, return=-0.0492]
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  12%|█▏        | 15/127 [3:01:16<22:28:52, 722.61s/it, policy_loss=0.0269, actor_lr=9.35e-7, kl=0.308, reward=1.07, response_length=161, total_length=890, acc_rewards=0.571, format_rewards=0.499, return=-0.0492]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:14:35 [executor_base.py:219] It took 1.482373 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   0%|          | 1/256 [00:21<1:30:43, 21.35s/it, est. speed input: 72.84 toks/s, output: 3.28 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   1%|          | 2/256 [00:22<39:00,  9.21s/it, est. speed input: 140.94 toks/s, output: 7.07 toks/s] 
+Processed prompts:   2%|▏         | 5/256 [00:22<11:05,  2.65s/it, est. speed input: 349.58 toks/s, output: 18.87 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   4%|▎         | 9/256 [00:22<04:46,  1.16s/it, est. speed input: 621.57 toks/s, output: 34.97 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   4%|▍         | 11/256 [00:22<03:30,  1.16it/s, est. speed input: 750.18 toks/s, output: 43.31 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   6%|▋         | 16/256 [00:22<01:44,  2.29it/s, est. speed input: 1039.43 toks/s, output: 65.50 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   8%|▊         | 21/256 [00:23<01:02,  3.79it/s, est. speed input: 1319.14 toks/s, output: 87.99 toks/s]
+Processed prompts:  10%|▉         | 25/256 [00:23<00:43,  5.29it/s, est. speed input: 1490.73 toks/s, output: 106.25 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  91%|█████████▏| 234/256 [00:25<00:00, 114.83it/s, est. speed input: 6203.11 toks/s, output: 1362.06 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  96%|█████████▌| 246/256 [00:26<00:00, 93.58it/s, est. speed input: 6380.53 toks/s, output: 1446.74 toks/s] 
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   7%|▋         | 17/256 [00:19<01:21,  2.93it/s, est. speed input: 1076.14 toks/s, output: 90.19 toks/s][32m [repeated 25x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:26<00:00, 46.71it/s, est. speed input: 6434.75 toks/s, output: 1505.31 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:26<00:00,  9.64it/s, est. speed input: 6434.75 toks/s, output: 1505.31 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  17%|█▋        | 44/256 [00:20<00:09, 21.25it/s, est. speed input: 1755.78 toks/s, output: 255.92 toks/s]
+Processed prompts:  20%|██        | 52/256 [00:20<00:06, 30.56it/s, est. speed input: 1921.63 toks/s, output: 308.14 toks/s][32m [repeated 17x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  86%|████████▌ | 220/256 [00:22<00:00, 137.93it/s, est. speed input: 5465.82 toks/s, output: 1548.22 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:22<00:00, 123.60it/s, est. speed input: 5730.38 toks/s, output: 1661.66 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  95%|█████████▍| 243/256 [00:28<00:00, 95.05it/s, est. speed input: 6344.81 toks/s, output: 1345.46 toks/s] [32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  23%|██▎       | 58/256 [00:29<00:07, 25.45it/s, est. speed input: 2612.71 toks/s, output: 228.88 toks/s][32m [repeated 52x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:29<00:00, 71.80it/s, est. speed input: 6555.31 toks/s, output: 1422.09 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00,  8.73it/s, est. speed input: 6570.59 toks/s, output: 1429.55 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  46%|████▌     | 118/256 [00:29<00:01, 80.88it/s, est. speed input: 4104.47 toks/s, output: 510.65 toks/s]
+Processed prompts:  51%|█████     | 130/256 [00:29<00:01, 85.92it/s, est. speed input: 4312.45 toks/s, output: 570.22 toks/s][32m [repeated 27x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  84%|████████▍ | 216/256 [00:30<00:00, 143.20it/s, est. speed input: 6034.37 toks/s, output: 1033.48 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:30<00:00, 153.13it/s, est. speed input: 6380.18 toks/s, output: 1138.30 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:31<00:00,  8.22it/s, est. speed input: 6660.67 toks/s, output: 1256.96 toks/s] [32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   0%|          | 1/256 [00:33<2:22:37, 33.56s/it, est. speed input: 46.22 toks/s, output: 2.53 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  63%|██████▎   | 161/256 [00:30<00:00, 111.21it/s, est. speed input: 5010.26 toks/s, output: 730.87 toks/s]
+Processed prompts:  70%|██████▉   | 179/256 [00:30<00:00, 123.55it/s, est. speed input: 5340.51 toks/s, output: 827.69 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   5%|▌         | 13/256 [00:34<02:36,  1.55it/s, est. speed input: 580.87 toks/s, output: 36.60 toks/s]
+Processed prompts:   7%|▋         | 18/256 [00:34<01:19,  3.01it/s, est. speed input: 800.83 toks/s, output: 52.19 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  10%|▉         | 25/256 [00:34<00:40,  5.72it/s, est. speed input: 1074.95 toks/s, output: 74.57 toks/s]
+Processed prompts:  12%|█▏        | 30/256 [00:35<00:28,  8.03it/s, est. speed input: 1258.54 toks/s, output: 90.82 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  23%|██▎       | 58/256 [00:35<00:06, 30.23it/s, est. speed input: 2195.98 toks/s, output: 187.75 toks/s]
+Processed prompts:  26%|██▌       | 67/256 [00:35<00:04, 38.35it/s, est. speed input: 2546.30 toks/s, output: 220.29 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  35%|███▌      | 90/256 [00:35<00:02, 63.66it/s, est. speed input: 3360.97 toks/s, output: 306.00 toks/s]
+Processed prompts:  40%|███▉      | 102/256 [00:36<00:02, 75.17it/s, est. speed input: 3705.54 toks/s, output: 351.70 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  45%|████▌     | 116/256 [00:36<00:01, 90.26it/s, est. speed input: 4086.93 toks/s, output: 406.22 toks/s]
+Processed prompts:  50%|████▉     | 127/256 [00:36<00:01, 88.51it/s, est. speed input: 4322.14 toks/s, output: 449.44 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  62%|██████▎   | 160/256 [00:36<00:00, 117.44it/s, est. speed input: 5126.47 toks/s, output: 584.88 toks/s]
+Processed prompts:  71%|███████▏  | 183/256 [00:36<00:00, 139.67it/s, est. speed input: 5691.27 toks/s, output: 683.02 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:14:34 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.34 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:14:34 [executor_base.py:208] It took 1.630768 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:14:37 [executor_base.py:219] It took 3.148146 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 903x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 903x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(ActorModelRayActor pid=287372)[0m ele.get("min_pixels" 3136[32m [repeated 736x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("max_pixels" 1254400[32m [repeated 736x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 378x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 378x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 14:16:28 [worker.py:133] Sleep mode freed 38.53 GiB memory, 22.13 GiB memory is still in use.
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 14:16:28 [executor_base.py:208] It took 1.385566 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:37<00:00,  6.81it/s, est. speed input: 6894.69 toks/s, output: 1014.27 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  87%|████████▋ | 222/256 [00:36<00:00, 125.73it/s, est. speed input: 6455.83 toks/s, output: 854.31 toks/s][32m [repeated 12x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:20,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:13,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:03<02:15,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:04<02:10,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:05<02:07,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:06<02:05,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:07<02:03,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:08<01:59,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:09<02:09,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:10<02:17,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:12<02:22,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:13<02:26,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:14<02:26,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:16<02:27,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:17<02:27,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:18<02:26,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:20<02:26,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:21<02:27,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:22<02:23,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:24<02:24,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:25<02:24,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:27<02:24,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:28<02:26,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:29<02:22,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:31<02:22,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:32<02:20,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:33<02:17,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:35<02:23,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:36<02:22,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:38<02:18,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:39<02:16,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:41<02:13,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:42<02:13,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:43<02:11,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:45<02:10,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:46<02:11,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:48<02:09,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:49<02:06,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:51<02:06,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:52<02:03,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:53<02:03,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:55<02:03,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:56<02:03,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:58<02:04,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [00:59<02:01,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:01<01:59,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:02<01:58,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:04<01:57,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:05<01:54,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:07<01:52,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:08<01:50,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:09<01:48,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:11<01:47,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:12<01:45,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:14<01:43,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:15<01:41,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:16<01:37,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:18<01:35,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:19<01:35,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:20<01:32,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:22<01:32,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:23<01:31,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:25<01:29,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:26<01:27,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:27<01:24,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:28<01:22,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:30<01:21,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:31<01:21,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:33<01:20,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:34<01:18,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:35<01:18,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:37<01:17,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:38<01:17,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:40<01:16,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:41<01:16,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:43<01:16,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:44<01:15,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:46<01:14,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:47<01:13,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:49<01:11,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:50<01:07,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:51<01:04,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:53<01:01,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:54<00:59,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:55<00:56,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:56<00:54,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:58<00:54,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:59<00:53,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:01<00:52,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:02<00:52,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:04<00:52,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:05<00:51,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:07<00:51,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:08<00:50,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:09<00:47,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:11<00:47,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:12<00:44,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:14<00:41,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:15<00:39,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:16<00:37,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:18<00:36,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:19<00:35,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:20<00:34,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:22<00:32,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:23<00:31,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:24<00:30,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:26<00:29,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:27<00:27,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:29<00:26,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:30<00:25,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:32<00:24,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:33<00:22,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:34<00:21,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:36<00:19,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:37<00:18,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:39<00:17,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:40<00:15,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:42<00:14,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:43<00:12,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:44<00:11,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:46<00:09,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:47<00:08,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:49<00:07,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:50<00:05,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:52<00:04,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:53<00:02,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:54<00:01,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:56<00:00,  1.45s/it][A
+make_experience: 100%|██████████| 128/128 [02:56<00:00,  1.38s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nGive a techniqual quality score for this picture between 0 and 5 (float, two decimal places). A rating of 0 represents very poor quality, while 5 represents excellent quality.\nassistant\n<think>The image shows a clear and well-lit scene with a glass globe placed on a rocky surface, reflecting the sky and part of the landscape. The colors are vibrant, with the blue of the sky and water contrasting nicely with the natural tones of the rocks. The lighting appears to be natural and bright, suggesting the photo was taken during the day with good weather. There are no apparent noise or blurring issues, indicating that the image is sharp. The composition is simple and direct, focusing on the subject without any distracting elements. The technical quality of the image is good, with the ability to showcase the details of the scene effectively.</think>\n<answer>4.20</answer>']
+[36m(ActorModelRayActor pid=287378)[0m ele.get("min_pixels" 3136[32m [repeated 25x across cluster][0m
+[36m(ActorModelRayActor pid=287378)[0m ele.get("max_pixels" 1254400[32m [repeated 25x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:16:28 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.22 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:16:28 [executor_base.py:208] It took 1.643565 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=-0.0301, rm=1, ret=0.00501, glen=167, tlen=927, kl=0.32, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:01,  2.38s/it, pg=-0.0301, rm=1, ret=0.00501, glen=167, tlen=927, kl=0.32, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:04<05:01,  2.38s/it, pg=0.189, rm=1.16, ret=-0.211, glen=151, tlen=911, kl=0.321, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:04<05:02,  2.40s/it, pg=0.189, rm=1.16, ret=-0.211, glen=151, tlen=911, kl=0.321, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<05:02,  2.40s/it, pg=0.0656, rm=0.875, ret=-0.0887, glen=151, tlen=853, kl=0.333, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<04:49,  2.32s/it, pg=0.0656, rm=0.875, ret=-0.0887, glen=151, tlen=853, kl=0.333, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<04:49,  2.32s/it, pg=-0.0748, rm=1.19, ret=0.0511, glen=163, tlen=890, kl=0.307, act_lr=9.33e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:35,  2.22s/it, pg=-0.0748, rm=1.19, ret=0.0511, glen=163, tlen=890, kl=0.307, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:35,  2.22s/it, pg=-0.0475, rm=0.938, ret=0.0244, glen=159, tlen=934, kl=0.313, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:44,  2.31s/it, pg=-0.0475, rm=0.938, ret=0.0244, glen=159, tlen=934, kl=0.313, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:44,  2.31s/it, pg=0.00347, rm=1.06, ret=-0.0254, glen=156, tlen=902, kl=0.309, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:30,  2.21s/it, pg=0.00347, rm=1.06, ret=-0.0254, glen=156, tlen=902, kl=0.309, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:30,  2.21s/it, pg=-0.018, rm=1.06, ret=-0.00255, glen=151, tlen=876, kl=0.287, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:35,  2.28s/it, pg=-0.018, rm=1.06, ret=-0.00255, glen=151, tlen=876, kl=0.287, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:25<04:35,  2.28s/it, pg=-0.22, rm=0.75, ret=0.194, glen=164, tlen=920, kl=0.335, act_lr=9.33e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:25<09:15,  4.63s/it, pg=-0.22, rm=0.75, ret=0.194, glen=164, tlen=920, kl=0.335, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:28<09:15,  4.63s/it, pg=0.102, rm=0.875, ret=-0.123, glen=156, tlen=1.01e+3, kl=0.306, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:28<07:46,  3.92s/it, pg=0.102, rm=0.875, ret=-0.123, glen=156, tlen=1.01e+3, kl=0.306, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:30<07:46,  3.92s/it, pg=0.0505, rm=1, ret=-0.0744, glen=157, tlen=789, kl=0.328, act_lr=9.33e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:30<06:33,  3.33s/it, pg=0.0505, rm=1, ret=-0.0744, glen=157, tlen=789, kl=0.328, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:32<06:33,  3.33s/it, pg=-0.0711, rm=1, ret=0.051, glen=140, tlen=1124.75, kl=0.287, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:32<05:43,  2.93s/it, pg=-0.0711, rm=1, ret=0.051, glen=140, tlen=1124.75, kl=0.287, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:33<05:43,  2.93s/it, pg=0.0551, rm=0.875, ret=-0.081, glen=186, tlen=869, kl=0.32, act_lr=9.33e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:33<05:02,  2.61s/it, pg=0.0551, rm=0.875, ret=-0.081, glen=186, tlen=869, kl=0.32, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:36<05:02,  2.61s/it, pg=-0.0473, rm=0.938, ret=0.0235, glen=162, tlen=938, kl=0.313, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<04:49,  2.52s/it, pg=-0.0473, rm=0.938, ret=0.0235, glen=162, tlen=938, kl=0.313, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:38<04:49,  2.52s/it, pg=-0.156, rm=1, ret=0.132, glen=155, tlen=955, kl=0.318, act_lr=9.33e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:37,  2.44s/it, pg=-0.156, rm=1, ret=0.132, glen=155, tlen=955, kl=0.318, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:40<04:37,  2.44s/it, pg=0.313, rm=0.875, ret=-0.337, glen=160, tlen=862, kl=0.322, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:40<04:16,  2.27s/it, pg=0.313, rm=0.875, ret=-0.337, glen=160, tlen=862, kl=0.322, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:49<04:16,  2.27s/it, pg=0.119, rm=1.12, ret=-0.141, glen=162, tlen=948, kl=0.292, act_lr=9.33e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:49<08:11,  4.38s/it, pg=0.119, rm=1.12, ret=-0.141, glen=162, tlen=948, kl=0.292, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:52<08:11,  4.38s/it, pg=0.0893, rm=0.812, ret=-0.108, glen=152, tlen=1.15e+3, kl=0.276, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<07:08,  3.86s/it, pg=0.0893, rm=0.812, ret=-0.108, glen=152, tlen=1.15e+3, kl=0.276, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:54<07:08,  3.86s/it, pg=0.115, rm=0.812, ret=-0.138, glen=155, tlen=758, kl=0.309, act_lr=9.33e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:54<06:08,  3.35s/it, pg=0.115, rm=0.812, ret=-0.138, glen=155, tlen=758, kl=0.309, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:56<06:08,  3.35s/it, pg=0.0181, rm=0.812, ret=-0.0422, glen=153, tlen=936, kl=0.339, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:56<05:29,  3.02s/it, pg=0.0181, rm=0.812, ret=-0.0422, glen=153, tlen=936, kl=0.339, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:58<05:29,  3.02s/it, pg=0.00998, rm=0.938, ret=-0.0324, glen=156, tlen=994, kl=0.307, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:58<04:58,  2.76s/it, pg=0.00998, rm=0.938, ret=-0.0324, glen=156, tlen=994, kl=0.307, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:00<04:58,  2.76s/it, pg=-0.0229, rm=1.19, ret=0.0029, glen=156, tlen=941, kl=0.279, act_lr=9.33e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:00<04:32,  2.54s/it, pg=-0.0229, rm=1.19, ret=0.0029, glen=156, tlen=941, kl=0.279, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:02<04:32,  2.54s/it, pg=-0.154, rm=1.06, ret=0.133, glen=152, tlen=970, kl=0.289, act_lr=9.33e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:02<04:13,  2.39s/it, pg=-0.154, rm=1.06, ret=0.133, glen=152, tlen=970, kl=0.289, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:04<04:13,  2.39s/it, pg=0.0179, rm=0.875, ret=-0.0389, glen=148, tlen=933, kl=0.305, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:04<03:59,  2.28s/it, pg=0.0179, rm=0.875, ret=-0.0389, glen=148, tlen=933, kl=0.305, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:13<03:59,  2.28s/it, pg=0.245, rm=0.875, ret=-0.266, glen=160, tlen=752, kl=0.309, act_lr=9.33e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:13<07:25,  4.28s/it, pg=0.245, rm=0.875, ret=-0.266, glen=160, tlen=752, kl=0.309, act_lr=9.33e-7]
+[36m(ActorModelRayActor pid=286523)[0m [A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:16<07:25,  4.28s/it, pg=0.00524, rm=0.875, ret=-0.0282, glen=165, tlen=844, kl=0.302, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:16<06:26,  3.75s/it, pg=0.00524, rm=0.875, ret=-0.0282, glen=165, tlen=844, kl=0.302, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:18<06:26,  3.75s/it, pg=0.171, rm=0.875, ret=-0.191, glen=150, tlen=826, kl=0.314, act_lr=9.33e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:18<05:38,  3.32s/it, pg=0.171, rm=0.875, ret=-0.191, glen=150, tlen=826, kl=0.314, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:20<05:38,  3.32s/it, pg=0.084, rm=0.875, ret=-0.106, glen=158, tlen=933, kl=0.317, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:20<04:56,  2.94s/it, pg=0.084, rm=0.875, ret=-0.106, glen=158, tlen=933, kl=0.317, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:22<04:56,  2.94s/it, pg=-0.0293, rm=1.19, ret=0.00704, glen=165, tlen=820, kl=0.299, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:22<04:21,  2.62s/it, pg=-0.0293, rm=1.19, ret=0.00704, glen=165, tlen=820, kl=0.299, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:24<04:21,  2.62s/it, pg=0.0638, rm=1.06, ret=-0.0862, glen=168, tlen=820, kl=0.292, act_lr=9.33e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:24<04:02,  2.45s/it, pg=0.0638, rm=1.06, ret=-0.0862, glen=168, tlen=820, kl=0.292, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:27<04:02,  2.45s/it, pg=-0.0295, rm=1.06, ret=0.00823, glen=160, tlen=905, kl=0.3, act_lr=9.33e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:27<03:58,  2.44s/it, pg=-0.0295, rm=1.06, ret=0.00823, glen=160, tlen=905, kl=0.3, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:29<03:58,  2.44s/it, pg=0.0409, rm=1, ret=-0.061, glen=145, tlen=884, kl=0.313, act_lr=9.33e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:29<03:45,  2.32s/it, pg=0.0409, rm=1, ret=-0.061, glen=145, tlen=884, kl=0.313, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:38<03:45,  2.32s/it, pg=0.114, rm=0.875, ret=-0.138, glen=149, tlen=949, kl=0.325, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:38<07:04,  4.42s/it, pg=0.114, rm=0.875, ret=-0.138, glen=149, tlen=949, kl=0.325, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:40<07:04,  4.42s/it, pg=-0.0858, rm=1.12, ret=0.0654, glen=154, tlen=676, kl=0.308, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:40<05:46,  3.65s/it, pg=-0.0858, rm=1.12, ret=0.0654, glen=154, tlen=676, kl=0.308, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:42<05:46,  3.65s/it, pg=-0.0916, rm=1, ret=0.068, glen=165, tlen=795, kl=0.317, act_lr=9.33e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:42<04:51,  3.10s/it, pg=-0.0916, rm=1, ret=0.068, glen=165, tlen=795, kl=0.317, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:44<04:51,  3.10s/it, pg=-0.0762, rm=0.938, ret=0.0535, glen=160, tlen=901, kl=0.325, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:44<04:18,  2.78s/it, pg=-0.0762, rm=0.938, ret=0.0535, glen=160, tlen=901, kl=0.325, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:46<04:18,  2.78s/it, pg=0.122, rm=1, ret=-0.145, glen=153, tlen=974, kl=0.311, act_lr=9.33e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:46<04:03,  2.64s/it, pg=0.122, rm=1, ret=-0.145, glen=153, tlen=974, kl=0.311, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:48<04:03,  2.64s/it, pg=-0.0407, rm=0.938, ret=0.0188, glen=154, tlen=1.05e+3, kl=0.308, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:48<03:48,  2.51s/it, pg=-0.0407, rm=0.938, ret=0.0188, glen=154, tlen=1.05e+3, kl=0.308, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:50<03:48,  2.51s/it, pg=-0.0416, rm=0.938, ret=0.0196, glen=156, tlen=1.06e+3, kl=0.298, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:50<03:38,  2.43s/it, pg=-0.0416, rm=0.938, ret=0.0196, glen=156, tlen=1.06e+3, kl=0.298, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:53<03:38,  2.43s/it, pg=-0.0422, rm=0.938, ret=0.0206, glen=153, tlen=1.05e+3, kl=0.299, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:53<03:26,  2.31s/it, pg=-0.0422, rm=0.938, ret=0.0206, glen=153, tlen=1.05e+3, kl=0.299, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:02<03:26,  2.31s/it, pg=-0.068, rm=1.06, ret=0.0436, glen=164, tlen=926, kl=0.329, act_lr=9.33e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:02<06:32,  4.46s/it, pg=-0.068, rm=1.06, ret=0.0436, glen=164, tlen=926, kl=0.329, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:05<06:32,  4.46s/it, pg=-0.00435, rm=0.812, ret=-0.019, glen=156, tlen=974, kl=0.332, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:05<05:40,  3.91s/it, pg=-0.00435, rm=0.812, ret=-0.019, glen=156, tlen=974, kl=0.332, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:06<05:40,  3.91s/it, pg=0.173, rm=1.06, ret=-0.193, glen=160, tlen=813, kl=0.285, act_lr=9.33e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:06<04:42,  3.29s/it, pg=0.173, rm=1.06, ret=-0.193, glen=160, tlen=813, kl=0.285, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:09<04:42,  3.29s/it, pg=0.0329, rm=0.875, ret=-0.0573, glen=156, tlen=768, kl=0.329, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:09<04:08,  2.93s/it, pg=0.0329, rm=0.875, ret=-0.0573, glen=156, tlen=768, kl=0.329, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:10<04:08,  2.93s/it, pg=0.148, rm=0.812, ret=-0.167, glen=153, tlen=1e+3, kl=0.29, act_lr=9.33e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:10<03:39,  2.61s/it, pg=0.148, rm=0.812, ret=-0.167, glen=153, tlen=1e+3, kl=0.29, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:12<03:39,  2.61s/it, pg=0.000772, rm=0.938, ret=-0.02, glen=143, tlen=886, kl=0.3, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:12<03:17,  2.38s/it, pg=0.000772, rm=0.938, ret=-0.02, glen=143, tlen=886, kl=0.3, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:14<03:17,  2.38s/it, pg=0.0591, rm=0.938, ret=-0.083, glen=158, tlen=751, kl=0.314, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:14<03:01,  2.21s/it, pg=0.0591, rm=0.938, ret=-0.083, glen=158, tlen=751, kl=0.314, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:16<03:01,  2.21s/it, pg=0.0453, rm=0.812, ret=-0.0697, glen=166, tlen=789, kl=0.327, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:16<02:49,  2.10s/it, pg=0.0453, rm=0.812, ret=-0.0697, glen=166, tlen=789, kl=0.327, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:25<02:49,  2.10s/it, pg=-0.332, rm=1, ret=0.315, glen=147, tlen=1165.25, kl=0.301, act_lr=9.33e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:25<05:35,  4.20s/it, pg=-0.332, rm=1, ret=0.315, glen=147, tlen=1165.25, kl=0.301, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:27<05:35,  4.20s/it, pg=-0.0392, rm=0.812, ret=0.0183, glen=151, tlen=1.1e+3, kl=0.303, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:27<04:48,  3.65s/it, pg=-0.0392, rm=0.812, ret=0.0183, glen=151, tlen=1.1e+3, kl=0.303, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:29<04:48,  3.65s/it, pg=-0.0915, rm=1, ret=0.068, glen=156, tlen=785, kl=0.336, act_lr=9.33e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:29<04:01,  3.10s/it, pg=-0.0915, rm=1, ret=0.068, glen=156, tlen=785, kl=0.336, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:31<04:01,  3.10s/it, pg=0.152, rm=0.938, ret=-0.175, glen=160, tlen=780, kl=0.305, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:31<03:29,  2.72s/it, pg=0.152, rm=0.938, ret=-0.175, glen=160, tlen=780, kl=0.305, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:33<03:29,  2.72s/it, pg=0.0501, rm=0.938, ret=-0.0727, glen=166, tlen=850, kl=0.321, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:33<03:11,  2.52s/it, pg=0.0501, rm=0.938, ret=-0.0727, glen=166, tlen=850, kl=0.321, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:35<03:11,  2.52s/it, pg=0.00743, rm=1, ret=-0.0317, glen=172, tlen=744, kl=0.318, act_lr=9.33e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:35<03:04,  2.47s/it, pg=0.00743, rm=1, ret=-0.0317, glen=172, tlen=744, kl=0.318, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:37<03:04,  2.47s/it, pg=0.00237, rm=1.06, ret=-0.0264, glen=167, tlen=756, kl=0.308, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:37<02:51,  2.32s/it, pg=0.00237, rm=1.06, ret=-0.0264, glen=167, tlen=756, kl=0.308, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:39<02:51,  2.32s/it, pg=0.000274, rm=1.12, ret=-0.0241, glen=164, tlen=735, kl=0.338, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:39<02:37,  2.15s/it, pg=0.000274, rm=1.12, ret=-0.0241, glen=164, tlen=735, kl=0.338, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:48<02:37,  2.15s/it, pg=0.00154, rm=0.938, ret=-0.0234, glen=145, tlen=732, kl=0.335, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:48<04:51,  4.04s/it, pg=0.00154, rm=0.938, ret=-0.0234, glen=145, tlen=732, kl=0.335, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:50<04:51,  4.04s/it, pg=0.0149, rm=0.938, ret=-0.0352, glen=145, tlen=821, kl=0.319, act_lr=9.33e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:50<04:04,  3.45s/it, pg=0.0149, rm=0.938, ret=-0.0352, glen=145, tlen=821, kl=0.319, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:52<04:04,  3.45s/it, pg=0.0442, rm=1, ret=-0.0685, glen=167, tlen=906, kl=0.316, act_lr=9.33e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:52<03:32,  3.04s/it, pg=0.0442, rm=1, ret=-0.0685, glen=167, tlen=906, kl=0.316, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:54<03:32,  3.04s/it, pg=0.123, rm=0.75, ret=-0.147, glen=162, tlen=824, kl=0.319, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:54<03:05,  2.69s/it, pg=0.123, rm=0.75, ret=-0.147, glen=162, tlen=824, kl=0.319, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:56<03:05,  2.69s/it, pg=0.00643, rm=0.875, ret=-0.0272, glen=157, tlen=994, kl=0.295, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:56<02:54,  2.57s/it, pg=0.00643, rm=0.875, ret=-0.0272, glen=157, tlen=994, kl=0.295, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:58<02:54,  2.57s/it, pg=-0.0116, rm=1.06, ret=-0.0133, glen=168, tlen=685, kl=0.322, act_lr=9.33e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:58<02:42,  2.42s/it, pg=-0.0116, rm=1.06, ret=-0.0133, glen=168, tlen=685, kl=0.322, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:00<02:42,  2.42s/it, pg=0.01, rm=0.938, ret=-0.0305, glen=152, tlen=1.08e+3, kl=0.303, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:00<02:33,  2.33s/it, pg=0.01, rm=0.938, ret=-0.0305, glen=152, tlen=1.08e+3, kl=0.303, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:03<02:33,  2.33s/it, pg=-0.0324, rm=1.12, ret=0.0071, glen=161, tlen=837, kl=0.343, act_lr=9.33e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:03<02:35,  2.38s/it, pg=-0.0324, rm=1.12, ret=0.0071, glen=161, tlen=837, kl=0.343, act_lr=9.33e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:11<02:35,  2.38s/it, pg=0.0737, rm=0.875, ret=-0.0977, glen=155, tlen=952, kl=0.335, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:11<04:31,  4.25s/it, pg=0.0737, rm=0.875, ret=-0.0977, glen=155, tlen=952, kl=0.335, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:13<04:31,  4.25s/it, pg=0.0457, rm=1, ret=-0.0696, glen=165, tlen=702, kl=0.327, act_lr=9.32e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:13<03:46,  3.60s/it, pg=0.0457, rm=1, ret=-0.0696, glen=165, tlen=702, kl=0.327, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:15<03:46,  3.60s/it, pg=-0.0689, rm=1.12, ret=0.0481, glen=148, tlen=1.01e+3, kl=0.318, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:15<03:16,  3.17s/it, pg=-0.0689, rm=1.12, ret=0.0481, glen=148, tlen=1.01e+3, kl=0.318, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:17<03:16,  3.17s/it, pg=0.0135, rm=0.938, ret=-0.0353, glen=151, tlen=885, kl=0.314, act_lr=9.32e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:17<02:49,  2.77s/it, pg=0.0135, rm=0.938, ret=-0.0353, glen=151, tlen=885, kl=0.314, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:19<02:49,  2.77s/it, pg=0.0455, rm=0.875, ret=-0.0676, glen=154, tlen=1.17e+3, kl=0.299, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:19<02:33,  2.56s/it, pg=0.0455, rm=0.875, ret=-0.0676, glen=154, tlen=1.17e+3, kl=0.299, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:21<02:33,  2.56s/it, pg=0.135, rm=0.875, ret=-0.156, glen=162, tlen=958, kl=0.312, act_lr=9.32e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:21<02:18,  2.35s/it, pg=0.135, rm=0.875, ret=-0.156, glen=162, tlen=958, kl=0.312, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:23<02:18,  2.35s/it, pg=0.0151, rm=0.938, ret=-0.0368, glen=160, tlen=836, kl=0.299, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:23<02:10,  2.25s/it, pg=0.0151, rm=0.938, ret=-0.0368, glen=160, tlen=836, kl=0.299, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:25<02:10,  2.25s/it, pg=0.298, rm=0.875, ret=-0.321, glen=159, tlen=784, kl=0.348, act_lr=9.32e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:25<02:06,  2.21s/it, pg=0.298, rm=0.875, ret=-0.321, glen=159, tlen=784, kl=0.348, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:35<02:06,  2.21s/it, pg=0.0136, rm=0.875, ret=-0.0379, glen=165, tlen=881, kl=0.327, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:35<04:04,  4.37s/it, pg=0.0136, rm=0.875, ret=-0.0379, glen=165, tlen=881, kl=0.327, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:37<04:04,  4.37s/it, pg=0.143, rm=0.812, ret=-0.167, glen=160, tlen=876, kl=0.33, act_lr=9.32e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:37<03:26,  3.75s/it, pg=0.143, rm=0.812, ret=-0.167, glen=160, tlen=876, kl=0.33, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:39<03:26,  3.75s/it, pg=0.00956, rm=0.938, ret=-0.031, glen=151, tlen=989, kl=0.309, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:39<03:00,  3.35s/it, pg=0.00956, rm=0.938, ret=-0.031, glen=151, tlen=989, kl=0.309, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:41<03:00,  3.35s/it, pg=0.0151, rm=1.12, ret=-0.0407, glen=168, tlen=811, kl=0.335, act_lr=9.32e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:41<02:32,  2.89s/it, pg=0.0151, rm=1.12, ret=-0.0407, glen=168, tlen=811, kl=0.335, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:43<02:32,  2.89s/it, pg=0.0516, rm=0.875, ret=-0.0725, glen=161, tlen=902, kl=0.294, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:43<02:16,  2.63s/it, pg=0.0516, rm=0.875, ret=-0.0725, glen=161, tlen=902, kl=0.294, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:45<02:16,  2.63s/it, pg=0.195, rm=0.688, ret=-0.218, glen=156, tlen=932, kl=0.316, act_lr=9.32e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:45<02:04,  2.45s/it, pg=0.195, rm=0.688, ret=-0.218, glen=156, tlen=932, kl=0.316, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:47<02:04,  2.45s/it, pg=-0.0526, rm=0.875, ret=0.0319, glen=154, tlen=1e+3, kl=0.285, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:47<01:57,  2.35s/it, pg=-0.0526, rm=0.875, ret=0.0319, glen=154, tlen=1e+3, kl=0.285, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:49<01:57,  2.35s/it, pg=0.074, rm=0.938, ret=-0.0966, glen=154, tlen=721, kl=0.309, act_lr=9.32e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:50<01:50,  2.25s/it, pg=0.074, rm=0.938, ret=-0.0966, glen=154, tlen=721, kl=0.309, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:59<01:50,  2.25s/it, pg=0.00616, rm=1.06, ret=-0.0304, glen=160, tlen=905, kl=0.334, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:59<03:30,  4.38s/it, pg=0.00616, rm=1.06, ret=-0.0304, glen=160, tlen=905, kl=0.334, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:01<03:30,  4.38s/it, pg=0.0686, rm=1, ret=-0.093, glen=165, tlen=869, kl=0.33, act_lr=9.32e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:01<02:51,  3.64s/it, pg=0.0686, rm=1, ret=-0.093, glen=165, tlen=869, kl=0.33, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:03<02:51,  3.64s/it, pg=0.191, rm=1, ret=-0.211, glen=148, tlen=952, kl=0.32, act_lr=9.32e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:03<02:26,  3.19s/it, pg=0.191, rm=1, ret=-0.211, glen=148, tlen=952, kl=0.32, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:05<02:26,  3.19s/it, pg=0.0516, rm=1, ret=-0.0755, glen=160, tlen=792, kl=0.329, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:05<02:05,  2.78s/it, pg=0.0516, rm=1, ret=-0.0755, glen=160, tlen=792, kl=0.329, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:07<02:05,  2.78s/it, pg=0.1, rm=0.938, ret=-0.123, glen=158, tlen=917, kl=0.319, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:07<01:53,  2.59s/it, pg=0.1, rm=0.938, ret=-0.123, glen=158, tlen=917, kl=0.319, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:09<01:53,  2.59s/it, pg=0.0438, rm=0.812, ret=-0.0675, glen=159, tlen=782, kl=0.327, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:09<01:44,  2.44s/it, pg=0.0438, rm=0.812, ret=-0.0675, glen=159, tlen=782, kl=0.327, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:11<01:44,  2.44s/it, pg=0.00749, rm=1, ret=-0.0273, glen=163, tlen=736, kl=0.307, act_lr=9.32e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:11<01:37,  2.31s/it, pg=0.00749, rm=1, ret=-0.0273, glen=163, tlen=736, kl=0.307, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:13<01:37,  2.31s/it, pg=0.0146, rm=1, ret=-0.0377, glen=157, tlen=849, kl=0.325, act_lr=9.32e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:13<01:29,  2.18s/it, pg=0.0146, rm=1, ret=-0.0377, glen=157, tlen=849, kl=0.325, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:22<01:29,  2.18s/it, pg=0.121, rm=1, ret=-0.141, glen=147, tlen=968, kl=0.3, act_lr=9.32e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:22<02:52,  4.32s/it, pg=0.121, rm=1, ret=-0.141, glen=147, tlen=968, kl=0.3, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:24<02:52,  4.32s/it, pg=-0.133, rm=1.06, ret=0.111, glen=152, tlen=783, kl=0.323, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:24<02:23,  3.67s/it, pg=-0.133, rm=1.06, ret=0.111, glen=152, tlen=783, kl=0.323, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:26<02:23,  3.67s/it, pg=0.0279, rm=0.938, ret=-0.0522, glen=166, tlen=719, kl=0.315, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:26<02:00,  3.17s/it, pg=0.0279, rm=0.938, ret=-0.0522, glen=166, tlen=719, kl=0.315, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:28<02:00,  3.17s/it, pg=-0.0615, rm=1.06, ret=0.0415, glen=147, tlen=955, kl=0.3, act_lr=9.32e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:28<01:44,  2.83s/it, pg=-0.0615, rm=1.06, ret=0.0415, glen=147, tlen=955, kl=0.3, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:30<01:44,  2.83s/it, pg=-0.123, rm=1, ret=0.101, glen=159, tlen=893, kl=0.316, act_lr=9.32e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:30<01:31,  2.55s/it, pg=-0.123, rm=1, ret=0.101, glen=159, tlen=893, kl=0.316, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:32<01:31,  2.55s/it, pg=0.101, rm=1.06, ret=-0.122, glen=160, tlen=921, kl=0.312, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:32<01:25,  2.43s/it, pg=0.101, rm=1.06, ret=-0.122, glen=160, tlen=921, kl=0.312, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:34<01:25,  2.43s/it, pg=0.12, rm=0.812, ret=-0.144, glen=158, tlen=762, kl=0.339, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:34<01:18,  2.30s/it, pg=0.12, rm=0.812, ret=-0.144, glen=158, tlen=762, kl=0.339, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:36<01:18,  2.30s/it, pg=-0.00223, rm=0.812, ret=-0.0198, glen=159, tlen=865, kl=0.308, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:36<01:13,  2.23s/it, pg=-0.00223, rm=0.812, ret=-0.0198, glen=159, tlen=865, kl=0.308, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:46<01:13,  2.23s/it, pg=0.0687, rm=0.812, ret=-0.0916, glen=151, tlen=946, kl=0.326, act_lr=9.32e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:46<02:22,  4.46s/it, pg=0.0687, rm=0.812, ret=-0.0916, glen=151, tlen=946, kl=0.326, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:48<02:22,  4.46s/it, pg=0.102, rm=0.875, ret=-0.122, glen=158, tlen=1.01e+3, kl=0.295, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:48<01:58,  3.82s/it, pg=0.102, rm=0.875, ret=-0.122, glen=158, tlen=1.01e+3, kl=0.295, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:50<01:58,  3.82s/it, pg=-0.00926, rm=1.06, ret=-0.0132, glen=157, tlen=830, kl=0.329, act_lr=9.32e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:50<01:36,  3.23s/it, pg=-0.00926, rm=1.06, ret=-0.0132, glen=157, tlen=830, kl=0.329, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:52<01:36,  3.23s/it, pg=0.0303, rm=0.75, ret=-0.0541, glen=172, tlen=812, kl=0.314, act_lr=9.32e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:52<01:23,  2.87s/it, pg=0.0303, rm=0.75, ret=-0.0541, glen=172, tlen=812, kl=0.314, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:54<01:23,  2.87s/it, pg=-0.236, rm=1.06, ret=0.214, glen=161, tlen=853, kl=0.306, act_lr=9.32e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:54<01:13,  2.61s/it, pg=-0.236, rm=1.06, ret=0.214, glen=161, tlen=853, kl=0.306, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:56<01:13,  2.61s/it, pg=0.0172, rm=0.812, ret=-0.0385, glen=153, tlen=935, kl=0.316, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:56<01:05,  2.43s/it, pg=0.0172, rm=0.812, ret=-0.0385, glen=153, tlen=935, kl=0.316, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:59<01:05,  2.43s/it, pg=0.0145, rm=0.812, ret=-0.0346, glen=147, tlen=930, kl=0.301, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:59<01:02,  2.40s/it, pg=0.0145, rm=0.812, ret=-0.0346, glen=147, tlen=930, kl=0.301, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:01<01:02,  2.40s/it, pg=0.0067, rm=0.938, ret=-0.0299, glen=158, tlen=1.03e+3, kl=0.312, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:01<00:57,  2.30s/it, pg=0.0067, rm=0.938, ret=-0.0299, glen=158, tlen=1.03e+3, kl=0.312, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:10<00:57,  2.30s/it, pg=-0.0154, rm=1.06, ret=-0.00459, glen=149, tlen=875, kl=0.304, act_lr=9.32e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:10<01:45,  4.39s/it, pg=-0.0154, rm=1.06, ret=-0.00459, glen=149, tlen=875, kl=0.304, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:12<01:45,  4.39s/it, pg=0.225, rm=0.938, ret=-0.242, glen=148, tlen=957, kl=0.285, act_lr=9.32e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:12<01:27,  3.80s/it, pg=0.225, rm=0.938, ret=-0.242, glen=148, tlen=957, kl=0.285, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:14<01:27,  3.80s/it, pg=0.276, rm=0.938, ret=-0.289, glen=169, tlen=810, kl=0.323, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:14<01:11,  3.26s/it, pg=0.276, rm=0.938, ret=-0.289, glen=169, tlen=810, kl=0.323, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:17<01:11,  3.26s/it, pg=0.0461, rm=0.938, ret=-0.0686, glen=158, tlen=841, kl=0.312, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:17<01:02,  2.97s/it, pg=0.0461, rm=0.938, ret=-0.0686, glen=158, tlen=841, kl=0.312, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:19<01:02,  2.97s/it, pg=-0.0175, rm=1.19, ret=-0.00162, glen=152, tlen=880, kl=0.279, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:19<00:55,  2.78s/it, pg=-0.0175, rm=1.19, ret=-0.00162, glen=152, tlen=880, kl=0.279, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:21<00:55,  2.78s/it, pg=-0.195, rm=1.12, ret=0.177, glen=159, tlen=738, kl=0.303, act_lr=9.32e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:21<00:48,  2.55s/it, pg=-0.195, rm=1.12, ret=0.177, glen=159, tlen=738, kl=0.303, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:23<00:48,  2.55s/it, pg=0.00592, rm=0.812, ret=-0.03, glen=156, tlen=1021.5, kl=0.317, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:23<00:43,  2.40s/it, pg=0.00592, rm=0.812, ret=-0.03, glen=156, tlen=1021.5, kl=0.317, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:25<00:43,  2.40s/it, pg=0.00829, rm=1.06, ret=-0.0333, glen=162, tlen=908, kl=0.346, act_lr=9.32e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:25<00:39,  2.34s/it, pg=0.00829, rm=1.06, ret=-0.0333, glen=162, tlen=908, kl=0.346, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:34<00:39,  2.34s/it, pg=0.0617, rm=1.12, ret=-0.0861, glen=158, tlen=827, kl=0.324, act_lr=9.32e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:34<01:08,  4.30s/it, pg=0.0617, rm=1.12, ret=-0.0861, glen=158, tlen=827, kl=0.324, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:36<01:08,  4.30s/it, pg=0.0161, rm=0.938, ret=-0.0396, glen=167, tlen=901, kl=0.309, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:36<00:53,  3.59s/it, pg=0.0161, rm=0.938, ret=-0.0396, glen=167, tlen=901, kl=0.309, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:38<00:53,  3.59s/it, pg=0.0479, rm=0.938, ret=-0.073, glen=157, tlen=786, kl=0.343, act_lr=9.32e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:38<00:43,  3.14s/it, pg=0.0479, rm=0.938, ret=-0.073, glen=157, tlen=786, kl=0.343, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:40<00:43,  3.14s/it, pg=0.0499, rm=0.812, ret=-0.0701, glen=151, tlen=818, kl=0.307, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:40<00:35,  2.75s/it, pg=0.0499, rm=0.812, ret=-0.0701, glen=151, tlen=818, kl=0.307, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:42<00:35,  2.75s/it, pg=0.287, rm=0.938, ret=-0.308, glen=159, tlen=904, kl=0.318, act_lr=9.32e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:42<00:31,  2.62s/it, pg=0.287, rm=0.938, ret=-0.308, glen=159, tlen=904, kl=0.318, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:44<00:31,  2.62s/it, pg=0.00935, rm=1.06, ret=-0.0321, glen=155, tlen=959, kl=0.33, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:44<00:26,  2.39s/it, pg=0.00935, rm=1.06, ret=-0.0321, glen=155, tlen=959, kl=0.33, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:46<00:26,  2.39s/it, pg=-0.212, rm=0.75, ret=0.192, glen=154, tlen=852, kl=0.341, act_lr=9.32e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:46<00:23,  2.31s/it, pg=-0.212, rm=0.75, ret=0.192, glen=154, tlen=852, kl=0.341, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:49<00:23,  2.31s/it, pg=0.0569, rm=0.938, ret=-0.0803, glen=156, tlen=998, kl=0.339, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:49<00:20,  2.30s/it, pg=0.0569, rm=0.938, ret=-0.0803, glen=156, tlen=998, kl=0.339, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:58<00:20,  2.30s/it, pg=0.00558, rm=1.06, ret=-0.0263, glen=158, tlen=805, kl=0.303, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:58<00:34,  4.29s/it, pg=0.00558, rm=1.06, ret=-0.0263, glen=158, tlen=805, kl=0.303, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:59<00:34,  4.29s/it, pg=0.0497, rm=0.875, ret=-0.072, glen=158, tlen=841, kl=0.32, act_lr=9.32e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:59<00:25,  3.58s/it, pg=0.0497, rm=0.875, ret=-0.072, glen=158, tlen=841, kl=0.32, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:01<00:25,  3.58s/it, pg=-0.131, rm=0.875, ret=0.11, glen=158, tlen=876, kl=0.319, act_lr=9.32e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:01<00:18,  3.10s/it, pg=-0.131, rm=0.875, ret=0.11, glen=158, tlen=876, kl=0.319, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:04<00:18,  3.10s/it, pg=0.524, rm=0.688, ret=-0.544, glen=146, tlen=1.15e+3, kl=0.306, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:04<00:13,  2.79s/it, pg=0.524, rm=0.688, ret=-0.544, glen=146, tlen=1.15e+3, kl=0.306, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:05<00:13,  2.79s/it, pg=0.00372, rm=0.938, ret=-0.0253, glen=159, tlen=902, kl=0.303, act_lr=9.32e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:05<00:10,  2.53s/it, pg=0.00372, rm=0.938, ret=-0.0253, glen=159, tlen=902, kl=0.303, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:08<00:10,  2.53s/it, pg=0.0127, rm=1, ret=-0.0359, glen=175, tlen=816, kl=0.294, act_lr=9.32e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:08<00:07,  2.42s/it, pg=0.0127, rm=1, ret=-0.0359, glen=175, tlen=816, kl=0.294, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:09<00:07,  2.42s/it, pg=-0.04, rm=1.06, ret=0.0163, glen=160, tlen=937, kl=0.335, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:09<00:04,  2.25s/it, pg=-0.04, rm=1.06, ret=0.0163, glen=160, tlen=937, kl=0.335, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:11<00:04,  2.25s/it, pg=-0.0519, rm=0.875, ret=0.0315, glen=147, tlen=993, kl=0.3, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:11<00:02,  2.14s/it, pg=-0.0519, rm=0.875, ret=0.0315, glen=147, tlen=993, kl=0.3, act_lr=9.32e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:20<00:02,  2.14s/it, pg=-0.075, rm=1, ret=0.0544, glen=154, tlen=996, kl=0.318, act_lr=9.31e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:20<00:00,  4.11s/it, pg=-0.075, rm=1, ret=0.0544, glen=154, tlen=996, kl=0.318, act_lr=9.31e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:20<00:00,  2.97s/it, pg=-0.075, rm=1, ret=0.0544, glen=154, tlen=996, kl=0.318, act_lr=9.31e-7]
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 14:25:52 [executor_base.py:219] It took 1.357537 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.2.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279377)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:25:54 [executor_base.py:219] It took 3.176560 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 3336x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.13.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 977x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.22.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 943x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:26:15 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:26:15 [executor_base.py:208] It took 1.409423 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 503x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  12%|█▏        | 15/127 [3:12:57<22:28:52, 722.61s/it, policy_loss=0.0273, actor_lr=9.33e-7, kl=0.314, reward=0.952, response_length=157, total_length=892, acc_rewards=0.452, format_rewards=0.5, return=-0.0494] 
+Episode [1/2]:  13%|█▎        | 16/127 [3:12:57<22:04:59, 716.21s/it, policy_loss=0.0273, actor_lr=9.33e-7, kl=0.314, reward=0.952, response_length=157, total_length=892, acc_rewards=0.452, format_rewards=0.5, return=-0.0494]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:26:17 [executor_base.py:219] It took 1.506597 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 1/256 [00:21<1:29:54, 21.16s/it, est. speed input: 73.45 toks/s, output: 4.77 toks/s]
+Processed prompts:   1%|          | 2/256 [00:21<37:18,  8.81s/it, est. speed input: 91.15 toks/s, output: 9.66 toks/s]  
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   1%|          | 3/256 [00:21<20:26,  4.85s/it, est. speed input: 163.02 toks/s, output: 14.63 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:21<09:09,  2.19s/it, est. speed input: 250.32 toks/s, output: 24.72 toks/s]
+Processed prompts:   4%|▎         | 9/256 [00:21<03:31,  1.17it/s, est. speed input: 427.07 toks/s, output: 45.86 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   4%|▍         | 11/256 [00:22<02:30,  1.63it/s, est. speed input: 565.61 toks/s, output: 56.49 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   5%|▌         | 14/256 [00:22<01:33,  2.58it/s, est. speed input: 672.64 toks/s, output: 72.78 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   7%|▋         | 18/256 [00:22<00:58,  4.10it/s, est. speed input: 840.21 toks/s, output: 94.66 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   8%|▊         | 21/256 [00:22<00:42,  5.54it/s, est. speed input: 1042.48 toks/s, output: 111.54 toks/s]
+Processed prompts:  11%|█         | 27/256 [00:22<00:24,  9.53it/s, est. speed input: 1304.70 toks/s, output: 146.29 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  18%|█▊        | 47/256 [00:22<00:07, 26.19it/s, est. speed input: 1892.73 toks/s, output: 265.26 toks/s]
+Processed prompts:  20%|██        | 52/256 [00:23<00:07, 27.52it/s, est. speed input: 2015.63 toks/s, output: 295.26 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  29%|██▊       | 73/256 [00:23<00:03, 53.29it/s, est. speed input: 2536.14 toks/s, output: 428.14 toks/s]
+Processed prompts:  32%|███▏      | 83/256 [00:23<00:02, 62.41it/s, est. speed input: 2822.73 toks/s, output: 492.41 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  92%|█████████▏| 236/256 [00:24<00:00, 116.79it/s, est. speed input: 5902.30 toks/s, output: 1564.78 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  97%|█████████▋| 249/256 [00:24<00:00, 102.68it/s, est. speed input: 6157.56 toks/s, output: 1665.15 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:26<00:00,  9.80it/s, est. speed input: 5978.50 toks/s, output: 1645.81 toks/s] 
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  75%|███████▌  | 193/256 [00:25<00:00, 125.48it/s, est. speed input: 5134.35 toks/s, output: 1147.32 toks/s]
+Processed prompts:  80%|████████  | 206/256 [00:25<00:00, 126.40it/s, est. speed input: 5390.79 toks/s, output: 1238.87 toks/s][32m [repeated 14x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  86%|████████▋ | 221/256 [00:25<00:00, 128.62it/s, est. speed input: 5673.76 toks/s, output: 1347.22 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:25<00:00, 128.49it/s, est. speed input: 5923.03 toks/s, output: 1443.14 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  47%|████▋     | 121/256 [00:25<00:01, 84.63it/s, est. speed input: 3769.90 toks/s, output: 629.14 toks/s][32m [repeated 31x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.29it/s, est. speed input: 6284.89 toks/s, output: 1491.74 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  13%|█▎        | 33/256 [00:28<00:22,  9.78it/s, est. speed input: 1697.54 toks/s, output: 127.70 toks/s]
+Processed prompts:  16%|█▌        | 40/256 [00:29<00:14, 14.51it/s, est. speed input: 2063.20 toks/s, output: 157.90 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  88%|████████▊ | 226/256 [00:26<00:00, 118.77it/s, est. speed input: 5875.70 toks/s, output: 1299.25 toks/s]
+Processed prompts:  93%|█████████▎| 239/256 [00:26<00:00, 109.81it/s, est. speed input: 6067.23 toks/s, output: 1389.71 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   1%|          | 2/256 [00:22<39:16,  9.28s/it, est. speed input: 95.38 toks/s, output: 10.42 toks/s] [32m [repeated 15x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  88%|████████▊ | 226/256 [00:25<00:00, 139.47it/s, est. speed input: 5394.92 toks/s, output: 1508.34 toks/s]
+Processed prompts:  94%|█████████▍| 241/256 [00:25<00:00, 128.91it/s, est. speed input: 5665.44 toks/s, output: 1622.20 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:32<00:00, 70.39it/s, est. speed input: 6527.55 toks/s, output: 1194.21 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [00:32<00:00,  7.87it/s, est. speed input: 6512.38 toks/s, output: 1196.45 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:25<00:00, 78.10it/s, est. speed input: 5869.09 toks/s, output: 1722.31 toks/s] [32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  66%|██████▋   | 170/256 [00:25<00:00, 123.11it/s, est. speed input: 4478.66 toks/s, output: 1043.91 toks/s]
+Processed prompts:  72%|███████▏  | 185/256 [00:25<00:00, 125.72it/s, est. speed input: 4803.58 toks/s, output: 1147.43 toks/s][32m [repeated 35x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  77%|███████▋  | 198/256 [00:25<00:00, 123.59it/s, est. speed input: 5026.64 toks/s, output: 1238.47 toks/s][32m [repeated 42x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:26:15 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.34 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:26:15 [executor_base.py:208] It took 1.554345 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:26:18 [executor_base.py:219] It took 3.015054 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 1062x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 1062x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 754x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 754x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:28:01 [worker.py:133] Sleep mode freed 38.24 GiB memory, 22.18 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:28:01 [executor_base.py:208] It took 1.454894 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  86%|████████▌ | 220/256 [00:31<00:00, 130.64it/s, est. speed input: 6066.42 toks/s, output: 1053.36 toks/s]
+Processed prompts:  91%|███��█████▏| 234/256 [00:31<00:00, 110.03it/s, est. speed input: 6272.41 toks/s, output: 1134.39 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:32<00:00, 39.06it/s, est. speed input: 6459.03 toks/s, output: 1252.59 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:32<00:00,  7.84it/s, est. speed input: 6459.03 toks/s, output: 1252.59 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.47it/s, est. speed input: 5826.17 toks/s, output: 1616.33 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  84%|████████▍ | 215/256 [00:25<00:00, 130.10it/s, est. speed input: 5327.00 toks/s, output: 1361.60 toks/s]
+Processed prompts:  89%|████████▉ | 229/256 [00:25<00:00, 120.94it/s, est. speed input: 5593.91 toks/s, output: 1463.32 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:16,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:15,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:03<02:16,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:04<02:09,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:05<02:05,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:06<02:04,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:07<02:02,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:08<01:58,  1.02it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:09<02:09,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:10<02:12,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:11<02:16,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:13<02:21,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:14<02:23,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:15<02:23,  1.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:17<02:20,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:18<02:20,  1.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:19<02:22,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:21<02:23,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:22<02:23,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:23<02:23,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:25<02:23,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:26<02:21,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:27<02:19,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:29<02:17,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:30<02:15,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:31<02:16,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:33<02:18,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:34<02:15,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:35<02:13,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:37<02:13,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:38<02:12,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:40<02:11,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:41<02:02,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:42<01:53,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:43<01:45,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:44<01:42,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:45<01:37,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:46<01:34,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:47<01:31,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:48<01:30,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:49<01:35,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:50<01:41,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:52<01:46,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:53<01:48,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [00:54<01:46,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [00:56<01:48,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [00:57<01:48,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [00:58<01:47,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:00<01:45,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:01<01:45,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:03<01:46,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:04<01:46,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:05<01:44,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:07<01:42,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:08<01:42,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:10<01:40,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:11<01:31,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:12<01:24,  1.21s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:13<01:19,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:14<01:14,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:15<01:11,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:16<01:10,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:17<01:07,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:18<01:05,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:19<01:11,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:20<01:13,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:22<01:16,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:23<01:17,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:25<01:18,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:26<01:17,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:27<01:17,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:29<01:16,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:30<01:15,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:32<01:15,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:33<01:12,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:34<01:11,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:36<01:10,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:37<01:07,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:38<01:06,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:40<01:05,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:41<01:04,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:43<01:04,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:44<01:03,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:45<01:01,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:47<01:00,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:48<01:00,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:50<00:58,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:51<00:56,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [01:52<00:54,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [01:54<00:52,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [01:55<00:52,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [01:57<00:51,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [01:58<00:50,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:00<00:49,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:01<00:48,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:03<00:46,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:04<00:43,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:05<00:42,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:07<00:40,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:08<00:39,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:10<00:38,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:11<00:37,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:13<00:35,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:14<00:34,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:15<00:33,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:17<00:31,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:18<00:30,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:20<00:28,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:21<00:27,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:23<00:26,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:24<00:24,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:26<00:22,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:27<00:19,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:28<00:16,  1.21s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:29<00:15,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:32<00:20,  1.69s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:33<00:16,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:34<00:13,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:35<00:11,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:36<00:09,  1.19s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:37<00:08,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:38<00:07,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:40<00:06,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:41<00:05,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:43<00:04,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:44<00:02,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:45<00:01,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:47<00:00,  1.39s/it][A
+make_experience: 100%|██████████| 128/128 [02:47<00:00,  1.31s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nWhat is your overall rating of this image’s techniqual quality? Provide a float between 0 and 5, rounded to two decimal places. A rating of 0 represents very poor quality, while 5 represents excellent quality.\nassistant\n<think>The image displays a vertical sign with the word "SUEY" in uppercase letters, mounted on a building\'s facade. The photograph is clear, with the text and the building\'s structure well-defined. The lighting is natural, suggesting the photo was taken during the day. The image does not show any apparent focus issues, motion blur, or excessive noise that would degrade the quality. The colors are also vibrant, with the red of the sign standing out against the neutral tones of the building. Overall, the image appears to be of good quality, with a focus on the subject (the sign) and adequate lighting.</think>\n<answer>4.20</answer>']
+[36m(ActorModelRayActor pid=287376)[0m ele.get("min_pixels" 3136[32m [repeated 222x across cluster][0m
+[36m(ActorModelRayActor pid=287376)[0m ele.get("max_pixels" 1254400[32m [repeated 222x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:28:01 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.49 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:28:02 [executor_base.py:208] It took 1.715720 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=-0.18, rm=1.19, ret=0.156, glen=171, tlen=943, kl=0.312, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:50,  2.76s/it, pg=-0.18, rm=1.19, ret=0.156, glen=171, tlen=943, kl=0.312, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:05<05:50,  2.76s/it, pg=0.066, rm=0.938, ret=-0.0914, glen=172, tlen=907, kl=0.338, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:05<05:49,  2.78s/it, pg=0.066, rm=0.938, ret=-0.0914, glen=172, tlen=907, kl=0.338, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<05:49,  2.78s/it, pg=0.0143, rm=0.812, ret=-0.0395, glen=168, tlen=884, kl=0.327, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<05:00,  2.40s/it, pg=0.0143, rm=0.812, ret=-0.0395, glen=168, tlen=884, kl=0.327, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<05:00,  2.40s/it, pg=0.0865, rm=0.75, ret=-0.111, glen=170, tlen=666, kl=0.325, act_lr=9.31e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:26,  2.15s/it, pg=0.0865, rm=0.75, ret=-0.111, glen=170, tlen=666, kl=0.325, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:26,  2.15s/it, pg=0.0361, rm=1, ret=-0.06, glen=171, tlen=743, kl=0.309, act_lr=9.31e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:20,  2.12s/it, pg=0.0361, rm=1, ret=-0.06, glen=171, tlen=743, kl=0.309, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:20,  2.12s/it, pg=0.182, rm=0.75, ret=-0.206, glen=172, tlen=798, kl=0.309, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:09,  2.05s/it, pg=0.182, rm=0.75, ret=-0.206, glen=172, tlen=798, kl=0.309, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:09,  2.05s/it, pg=0.0317, rm=0.875, ret=-0.0563, glen=161, tlen=851, kl=0.328, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:18,  2.14s/it, pg=0.0317, rm=0.875, ret=-0.0563, glen=161, tlen=851, kl=0.328, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:24<04:18,  2.14s/it, pg=0.00676, rm=1.06, ret=-0.028, glen=161, tlen=760, kl=0.286, act_lr=9.31e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:24<08:55,  4.46s/it, pg=0.00676, rm=1.06, ret=-0.028, glen=161, tlen=760, kl=0.286, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:27<08:55,  4.46s/it, pg=0.195, rm=0.938, ret=-0.221, glen=168, tlen=930, kl=0.32, act_lr=9.31e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:27<07:27,  3.76s/it, pg=0.195, rm=0.938, ret=-0.221, glen=168, tlen=930, kl=0.32, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:29<07:27,  3.76s/it, pg=0.0923, rm=0.812, ret=-0.115, glen=159, tlen=868, kl=0.32, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:29<06:15,  3.18s/it, pg=0.0923, rm=0.812, ret=-0.115, glen=159, tlen=868, kl=0.32, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:31<06:15,  3.18s/it, pg=0.104, rm=0.938, ret=-0.132, glen=177, tlen=734, kl=0.349, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:31<05:32,  2.85s/it, pg=0.104, rm=0.938, ret=-0.132, glen=177, tlen=734, kl=0.349, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:32<05:32,  2.85s/it, pg=-0.00129, rm=0.875, ret=-0.024, glen=163, tlen=738, kl=0.339, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:32<04:52,  2.53s/it, pg=-0.00129, rm=0.875, ret=-0.024, glen=163, tlen=738, kl=0.339, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:35<04:52,  2.53s/it, pg=0.192, rm=1.06, ret=-0.216, glen=164, tlen=943, kl=0.318, act_lr=9.31e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:35<04:43,  2.47s/it, pg=0.192, rm=1.06, ret=-0.216, glen=164, tlen=943, kl=0.318, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:37<04:43,  2.47s/it, pg=0.0501, rm=1, ret=-0.073, glen=167, tlen=804, kl=0.322, act_lr=9.31e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:37<04:25,  2.33s/it, pg=0.0501, rm=1, ret=-0.073, glen=167, tlen=804, kl=0.322, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:39<04:25,  2.33s/it, pg=0.188, rm=1.12, ret=-0.209, glen=162, tlen=991, kl=0.309, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:39<04:08,  2.20s/it, pg=0.188, rm=1.12, ret=-0.209, glen=162, tlen=991, kl=0.309, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:48<04:08,  2.20s/it, pg=0.0273, rm=1, ret=-0.0472, glen=158, tlen=926, kl=0.291, act_lr=9.31e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:48<08:11,  4.39s/it, pg=0.0273, rm=1, ret=-0.0472, glen=158, tlen=926, kl=0.291, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:51<08:11,  4.39s/it, pg=0.0587, rm=0.875, ret=-0.0813, glen=147, tlen=972, kl=0.339, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:51<07:07,  3.85s/it, pg=0.0587, rm=0.875, ret=-0.0813, glen=147, tlen=972, kl=0.339, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:53<07:07,  3.85s/it, pg=0.0277, rm=0.812, ret=-0.0504, glen=158, tlen=1.08e+3, kl=0.32, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:53<06:12,  3.39s/it, pg=0.0277, rm=0.812, ret=-0.0504, glen=158, tlen=1.08e+3, kl=0.32, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:55<06:12,  3.39s/it, pg=0.119, rm=0.688, ret=-0.14, glen=146, tlen=961, kl=0.308, act_lr=9.31e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:55<05:20,  2.94s/it, pg=0.119, rm=0.688, ret=-0.14, glen=146, tlen=961, kl=0.308, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:57<05:20,  2.94s/it, pg=0.121, rm=0.875, ret=-0.147, glen=169, tlen=952, kl=0.345, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:57<04:49,  2.68s/it, pg=0.121, rm=0.875, ret=-0.147, glen=169, tlen=952, kl=0.345, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:59<04:49,  2.68s/it, pg=-0.0143, rm=1, ret=-0.01, glen=166, tlen=747, kl=0.329, act_lr=9.31e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [00:59<04:18,  2.42s/it, pg=-0.0143, rm=1, ret=-0.01, glen=166, tlen=747, kl=0.329, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:01<04:18,  2.42s/it, pg=0.375, rm=0.75, ret=-0.398, glen=159, tlen=983, kl=0.305, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:01<03:59,  2.26s/it, pg=0.375, rm=0.75, ret=-0.398, glen=159, tlen=983, kl=0.305, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:02<03:59,  2.26s/it, pg=0.00793, rm=0.812, ret=-0.0309, glen=167, tlen=677, kl=0.315, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:02<03:39,  2.09s/it, pg=0.00793, rm=0.812, ret=-0.0309, glen=167, tlen=677, kl=0.315, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:12<03:39,  2.09s/it, pg=-0.096, rm=0.875, ret=0.0731, glen=152, tlen=1078.0, kl=0.343, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:12<07:28,  4.32s/it, pg=-0.096, rm=0.875, ret=0.0731, glen=152, tlen=1078.0, kl=0.343, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:14<07:28,  4.32s/it, pg=-0.213, rm=1.12, ret=0.191, glen=156, tlen=862, kl=0.349, act_lr=9.31e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:14<06:15,  3.65s/it, pg=-0.213, rm=1.12, ret=0.191, glen=156, tlen=862, kl=0.349, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:16<06:15,  3.65s/it, pg=0.226, rm=0.906, ret=-0.25, glen=179, tlen=751, kl=0.327, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:16<05:20,  3.14s/it, pg=0.226, rm=0.906, ret=-0.25, glen=179, tlen=751, kl=0.327, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:18<05:20,  3.14s/it, pg=0.00507, rm=0.938, ret=-0.0275, glen=155, tlen=832, kl=0.315, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:18<04:38,  2.76s/it, pg=0.00507, rm=0.938, ret=-0.0275, glen=155, tlen=832, kl=0.315, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:20<04:38,  2.76s/it, pg=-0.077, rm=0.875, ret=0.0548, glen=164, tlen=1.07e+3, kl=0.298, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:20<04:28,  2.68s/it, pg=-0.077, rm=0.875, ret=0.0548, glen=164, tlen=1.07e+3, kl=0.298, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:23<04:28,  2.68s/it, pg=0.0292, rm=1, ret=-0.0533, glen=161, tlen=922, kl=0.331, act_lr=9.31e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:23<04:11,  2.55s/it, pg=0.0292, rm=1, ret=-0.0533, glen=161, tlen=922, kl=0.331, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:25<04:11,  2.55s/it, pg=0.0791, rm=1.12, ret=-0.104, glen=172, tlen=797, kl=0.326, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:25<03:55,  2.40s/it, pg=0.0791, rm=1.12, ret=-0.104, glen=172, tlen=797, kl=0.326, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:26<03:55,  2.40s/it, pg=0.05, rm=0.938, ret=-0.0761, glen=170, tlen=694, kl=0.343, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:26<03:32,  2.19s/it, pg=0.05, rm=0.938, ret=-0.0761, glen=170, tlen=694, kl=0.343, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:35<03:32,  2.19s/it, pg=0.0744, rm=0.812, ret=-0.0976, glen=148, tlen=878, kl=0.342, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:35<06:46,  4.24s/it, pg=0.0744, rm=0.812, ret=-0.0976, glen=148, tlen=878, kl=0.342, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:38<06:46,  4.24s/it, pg=0.188, rm=0.875, ret=-0.217, glen=162, tlen=857, kl=0.351, act_lr=9.31e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:38<05:43,  3.62s/it, pg=0.188, rm=0.875, ret=-0.217, glen=162, tlen=857, kl=0.351, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:39<05:43,  3.62s/it, pg=0.0591, rm=0.938, ret=-0.0825, glen=166, tlen=861, kl=0.321, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:39<04:50,  3.09s/it, pg=0.0591, rm=0.938, ret=-0.0825, glen=166, tlen=861, kl=0.321, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:42<04:50,  3.09s/it, pg=-0.141, rm=1.12, ret=0.118, glen=169, tlen=1.03e+3, kl=0.302, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:42<04:24,  2.84s/it, pg=-0.141, rm=1.12, ret=0.118, glen=169, tlen=1.03e+3, kl=0.302, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:44<04:24,  2.84s/it, pg=0.176, rm=0.938, ret=-0.2, glen=165, tlen=819, kl=0.334, act_lr=9.31e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:44<03:54,  2.54s/it, pg=0.176, rm=0.938, ret=-0.2, glen=165, tlen=819, kl=0.334, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:45<03:54,  2.54s/it, pg=0.0923, rm=0.688, ret=-0.117, glen=170, tlen=795, kl=0.322, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:45<03:32,  2.34s/it, pg=0.0923, rm=0.688, ret=-0.117, glen=170, tlen=795, kl=0.322, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:48<03:32,  2.34s/it, pg=-0.0598, rm=1.19, ret=0.0402, glen=157, tlen=922, kl=0.288, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:48<03:24,  2.27s/it, pg=-0.0598, rm=1.19, ret=0.0402, glen=157, tlen=922, kl=0.288, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:50<03:24,  2.27s/it, pg=0.0791, rm=1.12, ret=-0.102, glen=159, tlen=981, kl=0.327, act_lr=9.31e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:50<03:15,  2.20s/it, pg=0.0791, rm=1.12, ret=-0.102, glen=159, tlen=981, kl=0.327, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:58<03:15,  2.20s/it, pg=0.397, rm=0.688, ret=-0.421, glen=176, tlen=686, kl=0.303, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [01:58<06:08,  4.19s/it, pg=0.397, rm=0.688, ret=-0.421, glen=176, tlen=686, kl=0.303, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:00<06:08,  4.19s/it, pg=0.00969, rm=0.812, ret=-0.0341, glen=179, tlen=689, kl=0.311, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:00<05:01,  3.47s/it, pg=0.00969, rm=0.812, ret=-0.0341, glen=179, tlen=689, kl=0.311, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:02<05:01,  3.47s/it, pg=-0.201, rm=1, ret=0.176, glen=168, tlen=835, kl=0.332, act_lr=9.31e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:02<04:20,  3.03s/it, pg=-0.201, rm=1, ret=0.176, glen=168, tlen=835, kl=0.332, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:04<04:20,  3.03s/it, pg=0.0956, rm=0.688, ret=-0.121, glen=179, tlen=804, kl=0.329, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:04<03:47,  2.68s/it, pg=0.0956, rm=0.688, ret=-0.121, glen=179, tlen=804, kl=0.329, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:06<03:47,  2.68s/it, pg=0.0279, rm=0.75, ret=-0.05, glen=157, tlen=838, kl=0.318, act_lr=9.31e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:06<03:23,  2.43s/it, pg=0.0279, rm=0.75, ret=-0.05, glen=157, tlen=838, kl=0.318, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:08<03:23,  2.43s/it, pg=0.159, rm=0.938, ret=-0.182, glen=175, tlen=747, kl=0.327, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:08<03:13,  2.33s/it, pg=0.159, rm=0.938, ret=-0.182, glen=175, tlen=747, kl=0.327, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:10<03:13,  2.33s/it, pg=0.0353, rm=1, ret=-0.0591, glen=164, tlen=777, kl=0.316, act_lr=9.31e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:10<03:04,  2.25s/it, pg=0.0353, rm=1, ret=-0.0591, glen=164, tlen=777, kl=0.316, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:12<03:04,  2.25s/it, pg=0.12, rm=0.875, ret=-0.145, glen=176, tlen=959, kl=0.318, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:12<02:52,  2.13s/it, pg=0.12, rm=0.875, ret=-0.145, glen=176, tlen=959, kl=0.318, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:21<02:52,  2.13s/it, pg=0.078, rm=1.12, ret=-0.0985, glen=160, tlen=982, kl=0.3, act_lr=9.31e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:21<05:42,  4.29s/it, pg=0.078, rm=1.12, ret=-0.0985, glen=160, tlen=982, kl=0.3, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:23<05:42,  4.29s/it, pg=0.123, rm=1, ret=-0.149, glen=163, tlen=868, kl=0.344, act_lr=9.31e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:23<04:50,  3.68s/it, pg=0.123, rm=1, ret=-0.149, glen=163, tlen=868, kl=0.344, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:25<04:50,  3.68s/it, pg=0.0362, rm=0.875, ret=-0.0606, glen=165, tlen=1029.5, kl=0.322, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:25<04:04,  3.14s/it, pg=0.0362, rm=0.875, ret=-0.0606, glen=165, tlen=1029.5, kl=0.322, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:28<04:04,  3.14s/it, pg=-0.0626, rm=1.19, ret=0.0403, glen=170, tlen=949, kl=0.302, act_lr=9.31e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:28<03:42,  2.89s/it, pg=-0.0626, rm=1.19, ret=0.0403, glen=170, tlen=949, kl=0.302, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:30<03:42,  2.89s/it, pg=-0.0527, rm=1, ret=0.0286, glen=155, tlen=743, kl=0.342, act_lr=9.31e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:30<03:29,  2.75s/it, pg=-0.0527, rm=1, ret=0.0286, glen=155, tlen=743, kl=0.342, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:33<03:29,  2.75s/it, pg=0.0776, rm=0.938, ret=-0.1, glen=166, tlen=754, kl=0.311, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:33<03:20,  2.68s/it, pg=0.0776, rm=0.938, ret=-0.1, glen=166, tlen=754, kl=0.311, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:35<03:20,  2.68s/it, pg=-0.0881, rm=1.06, ret=0.0649, glen=165, tlen=843, kl=0.337, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:35<03:03,  2.48s/it, pg=-0.0881, rm=1.06, ret=0.0649, glen=165, tlen=843, kl=0.337, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:36<03:03,  2.48s/it, pg=-0.17, rm=0.938, ret=0.146, glen=160, tlen=911, kl=0.318, act_lr=9.31e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:36<02:47,  2.29s/it, pg=-0.17, rm=0.938, ret=0.146, glen=160, tlen=911, kl=0.318, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 14:33:42,023] [WARNING] [stage3.py:2139:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:45<02:47,  2.29s/it, pg=-0.074, rm=1, ret=0.051, glen=173, tlen=697, kl=0.324, act_lr=9.31e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:45<05:09,  4.29s/it, pg=-0.074, rm=1, ret=0.051, glen=173, tlen=697, kl=0.324, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:48<05:09,  4.29s/it, pg=-0.124, rm=1.19, ret=0.105, glen=159, tlen=1.07e+3, kl=0.305, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:48<04:23,  3.71s/it, pg=-0.124, rm=1.19, ret=0.105, glen=159, tlen=1.07e+3, kl=0.305, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:50<04:23,  3.71s/it, pg=-0.0935, rm=0.938, ret=0.0683, glen=161, tlen=1025.0, kl=0.341, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:50<03:41,  3.17s/it, pg=-0.0935, rm=0.938, ret=0.0683, glen=161, tlen=1025.0, kl=0.341, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:52<03:41,  3.17s/it, pg=0.0573, rm=0.938, ret=-0.0826, glen=165, tlen=859, kl=0.325, act_lr=9.31e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:52<03:11,  2.77s/it, pg=0.0573, rm=0.938, ret=-0.0826, glen=165, tlen=859, kl=0.325, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:54<03:11,  2.77s/it, pg=0.127, rm=0.938, ret=-0.149, glen=159, tlen=906, kl=0.291, act_lr=9.31e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:54<02:53,  2.55s/it, pg=0.127, rm=0.938, ret=-0.149, glen=159, tlen=906, kl=0.291, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:56<02:53,  2.55s/it, pg=0.0856, rm=1.12, ret=-0.108, glen=158, tlen=833, kl=0.319, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:56<02:44,  2.45s/it, pg=0.0856, rm=1.12, ret=-0.108, glen=158, tlen=833, kl=0.319, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:58<02:44,  2.45s/it, pg=-0.0872, rm=1, ret=0.0687, glen=165, tlen=869, kl=0.275, act_lr=9.31e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [02:58<02:30,  2.27s/it, pg=-0.0872, rm=1, ret=0.0687, glen=165, tlen=869, kl=0.275, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:00<02:30,  2.27s/it, pg=0.155, rm=0.75, ret=-0.179, glen=170, tlen=865, kl=0.304, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:00<02:29,  2.30s/it, pg=0.155, rm=0.75, ret=-0.179, glen=170, tlen=865, kl=0.304, act_lr=9.31e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:10<02:29,  2.30s/it, pg=0.0901, rm=0.938, ret=-0.11, glen=168, tlen=872, kl=0.284, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:10<04:46,  4.48s/it, pg=0.0901, rm=0.938, ret=-0.11, glen=168, tlen=872, kl=0.284, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:12<04:46,  4.48s/it, pg=0.0599, rm=1.12, ret=-0.0816, glen=163, tlen=1.07e+3, kl=0.309, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:12<03:58,  3.78s/it, pg=0.0599, rm=1.12, ret=-0.0816, glen=163, tlen=1.07e+3, kl=0.309, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:14<03:58,  3.78s/it, pg=-0.0587, rm=1.06, ret=0.0366, glen=174, tlen=876, kl=0.285, act_lr=9.3e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:14<03:18,  3.20s/it, pg=-0.0587, rm=1.06, ret=0.0366, glen=174, tlen=876, kl=0.285, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:15<03:18,  3.20s/it, pg=-0.154, rm=1.06, ret=0.134, glen=163, tlen=931, kl=0.313, act_lr=9.3e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:15<02:50,  2.80s/it, pg=-0.154, rm=1.06, ret=0.134, glen=163, tlen=931, kl=0.313, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:18<02:50,  2.80s/it, pg=-0.0435, rm=1, ret=0.0229, glen=161, tlen=875, kl=0.295, act_lr=9.3e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:18<02:39,  2.66s/it, pg=-0.0435, rm=1, ret=0.0229, glen=161, tlen=875, kl=0.295, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:20<02:39,  2.66s/it, pg=0.00073, rm=1.06, ret=-0.0226, glen=160, tlen=913, kl=0.311, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:20<02:26,  2.49s/it, pg=0.00073, rm=1.06, ret=-0.0226, glen=160, tlen=913, kl=0.311, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:22<02:26,  2.49s/it, pg=0.0746, rm=0.875, ret=-0.0947, glen=145, tlen=887, kl=0.305, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:22<02:13,  2.29s/it, pg=0.0746, rm=0.875, ret=-0.0947, glen=145, tlen=887, kl=0.305, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:23<02:13,  2.29s/it, pg=0.193, rm=1.06, ret=-0.218, glen=175, tlen=816, kl=0.33, act_lr=9.3e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:23<02:02,  2.15s/it, pg=0.193, rm=1.06, ret=-0.218, glen=175, tlen=816, kl=0.33, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:33<02:02,  2.15s/it, pg=0.179, rm=0.875, ret=-0.205, glen=168, tlen=864, kl=0.331, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:33<03:57,  4.25s/it, pg=0.179, rm=0.875, ret=-0.205, glen=168, tlen=864, kl=0.331, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:35<03:57,  4.25s/it, pg=0.0814, rm=1.12, ret=-0.105, glen=168, tlen=807, kl=0.323, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:35<03:21,  3.66s/it, pg=0.0814, rm=1.12, ret=-0.105, glen=168, tlen=807, kl=0.323, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:37<03:21,  3.66s/it, pg=0.335, rm=0.938, ret=-0.355, glen=157, tlen=909, kl=0.321, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:37<02:59,  3.32s/it, pg=0.335, rm=0.938, ret=-0.355, glen=157, tlen=909, kl=0.321, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:40<02:59,  3.32s/it, pg=0.00179, rm=0.812, ret=-0.0244, glen=160, tlen=826, kl=0.311, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:40<02:36,  2.96s/it, pg=0.00179, rm=0.812, ret=-0.0244, glen=160, tlen=826, kl=0.311, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:42<02:36,  2.96s/it, pg=-0.115, rm=1, ret=0.0959, glen=162, tlen=866, kl=0.297, act_lr=9.3e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:42<02:21,  2.72s/it, pg=-0.115, rm=1, ret=0.0959, glen=162, tlen=866, kl=0.297, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:44<02:21,  2.72s/it, pg=-0.0783, rm=1, ret=0.0528, glen=166, tlen=780, kl=0.349, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:44<02:05,  2.46s/it, pg=-0.0783, rm=1, ret=0.0528, glen=166, tlen=780, kl=0.349, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:45<02:05,  2.46s/it, pg=0.0182, rm=1.12, ret=-0.0443, glen=173, tlen=897, kl=0.334, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:45<01:53,  2.28s/it, pg=0.0182, rm=1.12, ret=-0.0443, glen=173, tlen=897, kl=0.334, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:47<01:53,  2.28s/it, pg=0.0743, rm=0.938, ret=-0.0956, glen=166, tlen=754, kl=0.281, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:47<01:47,  2.19s/it, pg=0.0743, rm=0.938, ret=-0.0956, glen=166, tlen=754, kl=0.281, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:56<01:47,  2.19s/it, pg=0.0628, rm=0.75, ret=-0.087, glen=164, tlen=918, kl=0.318, act_lr=9.3e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:56<03:24,  4.25s/it, pg=0.0628, rm=0.75, ret=-0.087, glen=164, tlen=918, kl=0.318, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:59<03:24,  4.25s/it, pg=0.0292, rm=1, ret=-0.0534, glen=168, tlen=929, kl=0.317, act_lr=9.3e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [03:59<02:54,  3.72s/it, pg=0.0292, rm=1, ret=-0.0534, glen=168, tlen=929, kl=0.317, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:01<02:54,  3.72s/it, pg=-0.0576, rm=1.06, ret=0.0361, glen=159, tlen=911, kl=0.311, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:01<02:28,  3.22s/it, pg=-0.0576, rm=1.06, ret=0.0361, glen=159, tlen=911, kl=0.311, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:03<02:28,  3.22s/it, pg=-0.0504, rm=0.812, ret=0.0253, glen=174, tlen=670, kl=0.337, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:03<02:04,  2.77s/it, pg=-0.0504, rm=0.812, ret=0.0253, glen=174, tlen=670, kl=0.337, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:05<02:04,  2.77s/it, pg=-0.114, rm=0.75, ret=0.0936, glen=177, tlen=794, kl=0.292, act_lr=9.3e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:05<01:52,  2.57s/it, pg=-0.114, rm=0.75, ret=0.0936, glen=177, tlen=794, kl=0.292, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:07<01:52,  2.57s/it, pg=-0.0639, rm=1.06, ret=0.0423, glen=159, tlen=861, kl=0.333, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:07<01:46,  2.48s/it, pg=-0.0639, rm=1.06, ret=0.0423, glen=159, tlen=861, kl=0.333, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:09<01:46,  2.48s/it, pg=0.0293, rm=0.75, ret=-0.0549, glen=163, tlen=803, kl=0.337, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:09<01:38,  2.35s/it, pg=0.0293, rm=0.75, ret=-0.0549, glen=163, tlen=803, kl=0.337, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:11<01:38,  2.35s/it, pg=0.0674, rm=1.12, ret=-0.0885, glen=170, tlen=934, kl=0.288, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:11<01:30,  2.21s/it, pg=0.0674, rm=1.12, ret=-0.0885, glen=170, tlen=934, kl=0.288, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:20<01:30,  2.21s/it, pg=0.037, rm=1, ret=-0.0599, glen=169, tlen=741, kl=0.311, act_lr=9.3e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:20<02:49,  4.25s/it, pg=0.037, rm=1, ret=-0.0599, glen=169, tlen=741, kl=0.311, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:22<02:49,  4.25s/it, pg=0.153, rm=0.938, ret=-0.177, glen=162, tlen=930, kl=0.33, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:22<02:21,  3.62s/it, pg=0.153, rm=0.938, ret=-0.177, glen=162, tlen=930, kl=0.33, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:24<02:21,  3.62s/it, pg=-0.117, rm=1.06, ret=0.094, glen=169, tlen=823, kl=0.327, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:24<01:57,  3.09s/it, pg=-0.117, rm=1.06, ret=0.094, glen=169, tlen=823, kl=0.327, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:26<01:57,  3.09s/it, pg=0.139, rm=1, ret=-0.163, glen=164, tlen=763, kl=0.307, act_lr=9.3e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:26<01:40,  2.71s/it, pg=0.139, rm=1, ret=-0.163, glen=164, tlen=763, kl=0.307, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:28<01:40,  2.71s/it, pg=-0.000313, rm=1, ret=-0.0194, glen=153, tlen=965, kl=0.291, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:28<01:33,  2.59s/it, pg=-0.000313, rm=1, ret=-0.0194, glen=153, tlen=965, kl=0.291, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:30<01:33,  2.59s/it, pg=0.059, rm=0.875, ret=-0.0816, glen=156, tlen=981, kl=0.322, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:30<01:26,  2.48s/it, pg=0.059, rm=0.875, ret=-0.0816, glen=156, tlen=981, kl=0.322, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:32<01:26,  2.48s/it, pg=-0.0327, rm=1, ret=0.0115, glen=166, tlen=870, kl=0.308, act_lr=9.3e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:32<01:19,  2.34s/it, pg=-0.0327, rm=1, ret=0.0115, glen=166, tlen=870, kl=0.308, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:34<01:19,  2.34s/it, pg=-0.135, rm=1.06, ret=0.113, glen=162, tlen=1.06e+3, kl=0.326, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:34<01:12,  2.20s/it, pg=-0.135, rm=1.06, ret=0.113, glen=162, tlen=1.06e+3, kl=0.326, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:44<01:12,  2.20s/it, pg=0.0573, rm=1, ret=-0.0782, glen=151, tlen=993, kl=0.298, act_lr=9.3e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:44<02:26,  4.57s/it, pg=0.0573, rm=1, ret=-0.0782, glen=151, tlen=993, kl=0.298, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:46<02:26,  4.57s/it, pg=0.00208, rm=0.938, ret=-0.0266, glen=170, tlen=686, kl=0.361, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:46<01:55,  3.73s/it, pg=0.00208, rm=0.938, ret=-0.0266, glen=170, tlen=686, kl=0.361, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:48<01:55,  3.73s/it, pg=0.396, rm=0.875, ret=-0.416, glen=176, tlen=756, kl=0.318, act_lr=9.3e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:48<01:34,  3.15s/it, pg=0.396, rm=0.875, ret=-0.416, glen=176, tlen=756, kl=0.318, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:50<01:34,  3.15s/it, pg=0.0154, rm=1.12, ret=-0.039, glen=162, tlen=894, kl=0.317, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:50<01:20,  2.77s/it, pg=0.0154, rm=1.12, ret=-0.039, glen=162, tlen=894, kl=0.317, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:52<01:20,  2.77s/it, pg=-0.08, rm=1.06, ret=0.0578, glen=182, tlen=854, kl=0.311, act_lr=9.3e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:52<01:09,  2.49s/it, pg=-0.08, rm=1.06, ret=0.0578, glen=182, tlen=854, kl=0.311, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:53<01:09,  2.49s/it, pg=0.0248, rm=1.06, ret=-0.0487, glen=165, tlen=829, kl=0.33, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:53<01:02,  2.30s/it, pg=0.0248, rm=1.06, ret=-0.0487, glen=165, tlen=829, kl=0.33, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:56<01:02,  2.30s/it, pg=-0.192, rm=0.688, ret=0.17, glen=155, tlen=900, kl=0.317, act_lr=9.3e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:56<00:59,  2.28s/it, pg=-0.192, rm=0.688, ret=0.17, glen=155, tlen=900, kl=0.317, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:58<00:59,  2.28s/it, pg=0.106, rm=0.688, ret=-0.128, glen=152, tlen=988, kl=0.326, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [04:58<00:56,  2.28s/it, pg=0.106, rm=0.688, ret=-0.128, glen=152, tlen=988, kl=0.326, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:07<00:56,  2.28s/it, pg=-0.0562, rm=1.06, ret=0.0354, glen=160, tlen=912, kl=0.314, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:07<01:44,  4.35s/it, pg=-0.0562, rm=1.06, ret=0.0354, glen=160, tlen=912, kl=0.314, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:10<01:44,  4.35s/it, pg=-0.0044, rm=1.06, ret=-0.0202, glen=162, tlen=868, kl=0.358, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:10<01:29,  3.88s/it, pg=-0.0044, rm=1.06, ret=-0.0202, glen=162, tlen=868, kl=0.358, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:12<01:29,  3.88s/it, pg=0.0786, rm=0.938, ret=-0.1, glen=170, tlen=884, kl=0.291, act_lr=9.3e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:12<01:11,  3.27s/it, pg=0.0786, rm=0.938, ret=-0.1, glen=170, tlen=884, kl=0.291, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:14<01:11,  3.27s/it, pg=0.0781, rm=1.12, ret=-0.102, glen=171, tlen=795, kl=0.318, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:14<01:02,  2.97s/it, pg=0.0781, rm=1.12, ret=-0.102, glen=171, tlen=795, kl=0.318, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:16<01:02,  2.97s/it, pg=-0.00315, rm=0.875, ret=-0.0188, glen=173, tlen=707, kl=0.289, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:16<00:51,  2.59s/it, pg=-0.00315, rm=0.875, ret=-0.0188, glen=173, tlen=707, kl=0.289, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:18<00:51,  2.59s/it, pg=-0.00599, rm=1.06, ret=-0.0168, glen=165, tlen=936, kl=0.314, act_lr=9.3e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:18<00:46,  2.47s/it, pg=-0.00599, rm=1.06, ret=-0.0168, glen=165, tlen=936, kl=0.314, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:20<00:46,  2.47s/it, pg=-0.169, rm=1.06, ret=0.149, glen=165, tlen=927, kl=0.303, act_lr=9.3e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:20<00:41,  2.30s/it, pg=-0.169, rm=1.06, ret=0.149, glen=165, tlen=927, kl=0.303, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:22<00:41,  2.30s/it, pg=-0.0183, rm=0.812, ret=-0.00344, glen=157, tlen=843, kl=0.322, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:22<00:36,  2.16s/it, pg=-0.0183, rm=0.812, ret=-0.00344, glen=157, tlen=843, kl=0.322, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:30<00:36,  2.16s/it, pg=0.00117, rm=0.875, ret=-0.0285, glen=173, tlen=707, kl=0.345, act_lr=9.3e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:30<01:05,  4.10s/it, pg=0.00117, rm=0.875, ret=-0.0285, glen=173, tlen=707, kl=0.345, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:32<01:05,  4.10s/it, pg=-0.205, rm=1.06, ret=0.18, glen=179, tlen=736, kl=0.326, act_lr=9.3e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:32<00:51,  3.43s/it, pg=-0.205, rm=1.06, ret=0.18, glen=179, tlen=736, kl=0.326, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:34<00:51,  3.43s/it, pg=-0.146, rm=0.875, ret=0.123, glen=169, tlen=722, kl=0.315, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:34<00:42,  3.01s/it, pg=-0.146, rm=0.875, ret=0.123, glen=169, tlen=722, kl=0.315, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:36<00:42,  3.01s/it, pg=0.0383, rm=1, ret=-0.0591, glen=173, tlen=801, kl=0.287, act_lr=9.3e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:36<00:34,  2.65s/it, pg=0.0383, rm=1, ret=-0.0591, glen=173, tlen=801, kl=0.287, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████�� | 115/128 [05:38<00:34,  2.65s/it, pg=0.107, rm=0.688, ret=-0.128, glen=152, tlen=988, kl=0.328, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:38<00:29,  2.47s/it, pg=0.107, rm=0.688, ret=-0.128, glen=152, tlen=988, kl=0.328, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:40<00:29,  2.47s/it, pg=0.0379, rm=0.688, ret=-0.0624, glen=161, tlen=778, kl=0.326, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:40<00:25,  2.27s/it, pg=0.0379, rm=0.688, ret=-0.0624, glen=161, tlen=778, kl=0.326, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:42<00:25,  2.27s/it, pg=0.104, rm=0.938, ret=-0.125, glen=150, tlen=1.07e+3, kl=0.312, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:42<00:22,  2.28s/it, pg=0.104, rm=0.938, ret=-0.125, glen=150, tlen=1.07e+3, kl=0.312, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:44<00:22,  2.28s/it, pg=-0.0217, rm=1, ret=0.00126, glen=160, tlen=1083.25, kl=0.296, act_lr=9.3e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:44<00:19,  2.21s/it, pg=-0.0217, rm=1, ret=0.00126, glen=160, tlen=1083.25, kl=0.296, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:53<00:19,  2.21s/it, pg=0.0742, rm=0.75, ret=-0.0961, glen=168, tlen=664, kl=0.329, act_lr=9.3e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:53<00:34,  4.26s/it, pg=0.0742, rm=0.75, ret=-0.0961, glen=168, tlen=664, kl=0.329, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:55<00:34,  4.26s/it, pg=0.2, rm=0.812, ret=-0.225, glen=158, tlen=888, kl=0.339, act_lr=9.3e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:55<00:25,  3.62s/it, pg=0.2, rm=0.812, ret=-0.225, glen=158, tlen=888, kl=0.339, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:57<00:25,  3.62s/it, pg=0.0672, rm=0.875, ret=-0.0893, glen=169, tlen=905, kl=0.298, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [05:57<00:18,  3.10s/it, pg=0.0672, rm=0.875, ret=-0.0893, glen=169, tlen=905, kl=0.298, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [05:59<00:18,  3.10s/it, pg=0.0838, rm=0.875, ret=-0.104, glen=173, tlen=882, kl=0.289, act_lr=9.3e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [05:59<00:13,  2.72s/it, pg=0.0838, rm=0.875, ret=-0.104, glen=173, tlen=882, kl=0.289, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:01<00:13,  2.72s/it, pg=-0.023, rm=1.12, ret=-0.00381, glen=180, tlen=723, kl=0.345, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:01<00:09,  2.33s/it, pg=-0.023, rm=1.12, ret=-0.00381, glen=180, tlen=723, kl=0.345, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:03<00:09,  2.33s/it, pg=-0.0177, rm=1, ret=-0.00753, glen=186, tlen=758, kl=0.325, act_lr=9.3e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:03<00:06,  2.23s/it, pg=-0.0177, rm=1, ret=-0.00753, glen=186, tlen=758, kl=0.325, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:05<00:06,  2.23s/it, pg=-0.216, rm=0.938, ret=0.197, glen=155, tlen=1.06e+3, kl=0.303, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:05<00:04,  2.25s/it, pg=-0.216, rm=0.938, ret=0.197, glen=155, tlen=1.06e+3, kl=0.303, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:07<00:04,  2.25s/it, pg=0.134, rm=1, ret=-0.158, glen=170, tlen=941, kl=0.312, act_lr=9.3e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:07<00:02,  2.23s/it, pg=0.134, rm=1, ret=-0.158, glen=170, tlen=941, kl=0.312, act_lr=9.3e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:16<00:02,  2.23s/it, pg=-0.236, rm=1.12, ret=0.216, glen=166, tlen=868, kl=0.321, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:16<00:00,  4.29s/it, pg=-0.236, rm=1.12, ret=0.216, glen=166, tlen=868, kl=0.321, act_lr=9.29e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:16<00:00,  2.94s/it, pg=-0.236, rm=1.12, ret=0.216, glen=166, tlen=868, kl=0.321, act_lr=9.29e-7]
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 14:37:14 [executor_base.py:219] It took 1.465500 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 14:37:16 [executor_base.py:219] It took 3.242974 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m update weight: model.layers.2.self_attn.o_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 3584])[32m [repeated 3332x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.11.self_attn.o_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 3584])[32m [repeated 810x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.20.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 865x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:37:38 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:37:38 [executor_base.py:208] It took 1.415112 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 774x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  13%|█▎        | 16/127 [3:24:20<22:04:59, 716.21s/it, policy_loss=0.0294, actor_lr=9.3e-7, kl=0.318, reward=0.949, response_length=165, total_length=865, acc_rewards=0.449, format_rewards=0.5, return=-0.0525] 
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  13%|█▎        | 17/127 [3:24:21<21:34:50, 706.28s/it, policy_loss=0.0294, actor_lr=9.3e-7, kl=0.318, reward=0.949, response_length=165, total_length=865, acc_rewards=0.449, format_rewards=0.5, return=-0.0525]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:37:40 [executor_base.py:219] It took 1.542958 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   0%|          | 1/256 [00:15<1:06:53, 15.74s/it, est. speed input: 31.51 toks/s, output: 5.08 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   1%|          | 2/256 [00:16<28:29,  6.73s/it, est. speed input: 61.38 toks/s, output: 10.52 toks/s] 
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   1%|          | 3/256 [00:16<15:49,  3.75s/it, est. speed input: 84.95 toks/s, output: 16.18 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:16<06:57,  1.66s/it, est. speed input: 138.55 toks/s, output: 27.82 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   2%|▏         | 6/256 [00:16<05:08,  1.23s/it, est. speed input: 166.87 toks/s, output: 33.65 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   4%|▎         | 9/256 [00:16<02:25,  1.69it/s, est. speed input: 247.22 toks/s, output: 51.72 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   4%|▍         | 11/256 [00:17<01:40,  2.44it/s, est. speed input: 303.70 toks/s, output: 64.15 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   5%|▌         | 13/256 [00:17<01:15,  3.24it/s, est. speed input: 351.87 toks/s, output: 76.61 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   6%|▌         | 15/256 [00:17<00:57,  4.23it/s, est. speed input: 399.98 toks/s, output: 89.51 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   7%|▋         | 17/256 [00:17<00:46,  5.12it/s, est. speed input: 446.04 toks/s, output: 102.30 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   7%|▋         | 19/256 [00:17<00:36,  6.46it/s, est. speed input: 498.79 toks/s, output: 115.84 toks/s]
+Processed prompts:   8%|▊         | 21/256 [00:17<00:29,  7.87it/s, est. speed input: 545.94 toks/s, output: 129.51 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   9%|▉         | 23/256 [00:17<00:25,  9.29it/s, est. speed input: 586.04 toks/s, output: 143.40 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  11%|█         | 27/256 [00:18<00:16, 13.87it/s, est. speed input: 687.83 toks/s, output: 172.18 toks/s]
+Processed prompts:  12%|█▏        | 31/256 [00:18<00:12, 18.03it/s, est. speed input: 782.54 toks/s, output: 201.15 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  15%|█▌        | 39/256 [00:18<00:07, 29.41it/s, est. speed input: 1004.48 toks/s, output: 260.75 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  17%|█▋        | 44/256 [00:18<00:06, 32.45it/s, est. speed input: 1116.51 toks/s, output: 298.04 toks/s]
+Processed prompts:  21%|██        | 53/256 [00:18<00:04, 43.74it/s, est. speed input: 1339.28 toks/s, output: 366.77 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  25%|██▌       | 65/256 [00:18<00:03, 55.28it/s, est. speed input: 1620.23 toks/s, output: 459.56 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  28%|██▊       | 72/256 [00:18<00:03, 57.60it/s, est. speed input: 1795.99 toks/s, output: 513.69 toks/s]
+Processed prompts:  33%|███▎      | 84/256 [00:18<00:02, 72.06it/s, est. speed input: 2075.24 toks/s, output: 610.10 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  40%|███▉      | 102/256 [00:19<00:01, 99.36it/s, est. speed input: 2503.51 toks/s, output: 757.30 toks/s]
+Processed prompts:  47%|████▋     | 120/256 [00:19<00:01, 120.89it/s, est. speed input: 2949.42 toks/s, output: 905.78 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  52%|█████▏    | 133/256 [00:19<00:01, 116.51it/s, est. speed input: 3276.94 toks/s, output: 1012.45 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  57%|█████▋    | 146/256 [00:19<00:00, 117.78it/s, est. speed input: 3571.78 toks/s, output: 1121.06 toks/s]
+Processed prompts:  68%|██████▊   | 173/256 [00:19<00:00, 150.20it/s, est. speed input: 4201.53 toks/s, output: 1355.05 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  80%|███████▉  | 204/256 [00:19<00:00, 140.87it/s, est. speed input: 4911.43 toks/s, output: 1624.61 toks/s]
+Processed prompts:  86%|████████▌ | 219/256 [00:19<00:00, 139.25it/s, est. speed input: 5256.16 toks/s, output: 1759.53 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  96%|█████████▌| 246/256 [00:20<00:00, 102.20it/s, est. speed input: 5805.21 toks/s, output: 2003.54 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:20<00:00, 12.47it/s, est. speed input: 5943.56 toks/s, output: 2079.08 toks/s] 
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   5%|▌         | 13/256 [00:20<01:38,  2.46it/s, est. speed input: 425.93 toks/s, output: 68.47 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   6%|▌         | 15/256 [00:21<01:29,  2.70it/s, est. speed input: 635.68 toks/s, output: 81.95 toks/s]
+Processed prompts:   7%|▋         | 18/256 [00:21<01:00,  3.96it/s, est. speed input: 749.33 toks/s, output: 99.34 toks/s][32m [repeated 9x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  96%|█████████▋| 247/256 [00:24<00:00, 85.72it/s, est. speed input: 6036.41 toks/s, output: 1700.38 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  42%|████▏     | 107/256 [00:24<00:02, 58.74it/s, est. speed input: 3381.74 toks/s, output: 555.03 toks/s][32m [repeated 26x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  89%|████████▊ | 227/256 [00:25<00:00, 110.22it/s, est. speed input: 5812.65 toks/s, output: 1343.89 toks/s]
+Processed prompts:  93%|█████████▎| 239/256 [00:25<00:00, 102.84it/s, est. speed input: 6037.40 toks/s, output: 1431.00 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  74%|███████▍  | 189/256 [00:25<00:00, 122.72it/s, est. speed input: 5095.95 toks/s, output: 1080.87 toks/s]
+Processed prompts:  79%|███████▉  | 202/256 [00:25<00:00, 123.71it/s, est. speed input: 5343.91 toks/s, output: 1169.27 toks/s][32m [repeated 15x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   9%|▉         | 23/256 [00:25<00:55,  4.19it/s, est. speed input: 1290.00 toks/s, output: 104.59 toks/s]
+Processed prompts:  12%|█▏        | 30/256 [00:26<00:30,  7.50it/s, est. speed input: 1440.91 toks/s, output: 140.28 toks/s]
+Processed prompts:  15%|█▌        | 39/256 [00:26<00:16, 12.92it/s, est. speed input: 1833.29 toks/s, output: 186.80 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:25<00:00,  9.89it/s, est. speed input: 6303.91 toks/s, output: 1553.06 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  85%|████████▌ | 218/256 [00:27<00:00, 142.86it/s, est. speed input: 5766.88 toks/s, output: 1261.00 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   3%|▎         | 8/256 [00:28<06:51,  1.66s/it, est. speed input: 444.40 toks/s, output: 27.08 toks/s]
+Processed prompts:   4%|▍         | 11/256 [00:28<04:00,  1.02it/s, est. speed input: 608.37 toks/s, output: 38.00 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:28<00:00,  8.96it/s, est. speed input: 6329.20 toks/s, output: 1507.98 toks/s] [32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:23<05:38,  1.36s/it, est. speed input: 321.02 toks/s, output: 26.44 toks/s][32m [repeated 18x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  32%|███▏      | 83/256 [00:25<00:04, 42.61it/s, est. speed input: 3337.72 toks/s, output: 393.80 toks/s]
+Processed prompts:  36%|███▋      | 93/256 [00:26<00:02, 56.10it/s, est. speed input: 3538.76 toks/s, output: 450.05 toks/s][32m [repeated 9x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:28<00:00,  9.06it/s, est. speed input: 6157.20 toks/s, output: 1464.53 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:26<06:35,  1.59s/it, est. speed input: 324.60 toks/s, output: 24.46 toks/s][32m [repeated 18x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  55%|█████▌    | 142/256 [00:28<00:01, 103.28it/s, est. speed input: 4133.42 toks/s, output: 680.48 toks/s]
+Processed prompts:  60%|█████▉    | 153/256 [00:28<00:00, 103.82it/s, est. speed input: 4400.35 toks/s, output: 741.26 toks/s][32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  88%|████████▊ | 224/256 [00:29<00:00, 92.57it/s, est. speed input: 5896.15 toks/s, output: 1161.43 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:29<00:00, 88.83it/s, est. speed input: 6043.69 toks/s, output: 1225.82 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:37:38 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.34 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:37:38 [executor_base.py:208] It took 1.599337 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:37:42 [executor_base.py:219] It took 3.163006 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 986x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 986x across cluster][0m
+[36m(ActorModelRayActor pid=287371)[0m ele.get("min_pixels" 3136[32m [repeated 846x across cluster][0m
+[36m(ActorModelRayActor pid=287371)[0m ele.get("max_pixels" 1254400[32m [repeated 846x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:39:27 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.74 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:39:27 [executor_base.py:208] It took 1.427563 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:30<00:00,  8.44it/s, est. speed input: 6334.74 toks/s, output: 1367.09 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  83%|████████▎ | 213/256 [00:29<00:00, 94.72it/s, est. speed input: 5658.06 toks/s, output: 1092.39 toks/s][32m [repeated 12x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  70%|██████▉   | 179/256 [00:29<00:00, 111.22it/s, est. speed input: 5041.98 toks/s, output: 889.65 toks/s]
+Processed prompts:  75%|███████▍  | 191/256 [00:29<00:00, 103.97it/s, est. speed input: 5237.37 toks/s, output: 959.52 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<03:12,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<03:01,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<03:03,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<03:01,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<02:55,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:54,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:10<02:51,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:49,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:33,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:13<02:21,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:14<02:11,  1.13s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:15<02:04,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:16<01:59,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:17<01:56,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:18<01:55,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:19<01:53,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:20<02:02,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:22<02:10,  1.19s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:23<02:14,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:24<02:17,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:26<02:19,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:27<02:19,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:28<02:19,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:30<02:21,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:31<02:15,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:32<02:13,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:34<02:12,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:35<02:12,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:36<02:09,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:38<02:08,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:39<02:08,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:40<02:06,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:41<02:04,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:43<02:05,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:44<02:06,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:46<02:04,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:47<02:07,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:49<02:07,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:50<02:04,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:51<02:04,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:53<02:01,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:54<01:56,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:55<01:55,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:57<01:52,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [00:58<01:52,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [00:59<01:51,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:01<01:50,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:02<01:47,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:03<01:39,  1.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:06<02:11,  1.69s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:07<01:54,  1.49s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:08<01:43,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:09<01:35,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:10<01:28,  1.19s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:11<01:23,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:12<01:20,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:13<01:24,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:15<01:26,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:16<01:28,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:18<01:29,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:19<01:32,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:21<01:31,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:22<01:29,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:23<01:29,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:25<01:29,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:26<01:25,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:28<01:25,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:29<01:25,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:30<01:23,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:32<01:22,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:33<01:22,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:35<01:21,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:36<01:17,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:37<01:13,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:39<01:11,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:40<01:09,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:41<01:08,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:42<01:03,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:44<01:03,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:45<01:01,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:47<01:04,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:48<01:03,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:50<01:04,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:51<01:03,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:53<01:01,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:54<01:01,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:56<01:00,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:57<00:58,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [01:58<00:54,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:00<00:52,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:01<00:49,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:02<00:48,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:04<00:47,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:05<00:45,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:06<00:44,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:08<00:43,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:09<00:38,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:10<00:35,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:11<00:33,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:12<00:31,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:13<00:28,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:14<00:27,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:15<00:25,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:16<00:24,  1.00s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:17<00:23,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:18<00:22,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:19<00:21,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:20<00:20,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:21<00:19,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:22<00:17,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:23<00:16,  1.01it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:24<00:15,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:25<00:15,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:26<00:14,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:27<00:13,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:28<00:11,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:29<00:11,  1.00s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:30<00:10,  1.00s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:31<00:09,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:32<00:08,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:33<00:07,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:34<00:06,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:35<00:04,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:36<00:03,  1.01it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:37<00:02,  1.02it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:38<00:01,  1.02it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:39<00:00,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:40<00:00,  1.01it/s][A
+make_experience: 100%|██████████| 128/128 [02:40<00:00,  1.25s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nHow close is the image content to the prompt: "a bathroom exploding"?\nPlease evaluate how well the image matches each element of provided prompt.\n\n And answer with the final alignment rating.\nRate it from 0 to 5 (float, 2 decimals). A rating of 0 represents very poor alignment level, while 5 represents excellent alignment level.\'\nassistant\n<think> The image depicts a bathroom with a toilet, but there is no indication of an explosion. The damage to the wall appears to be from some other form of physical stress or impact, not an explosion. The elements provided in the prompt, such as the presence of an explosion, are not supported by the image content. The image seems to show a scene of damage, possibly due to some other reason, but not specifically due to an explosion.</think>\n<answer>1.00</answer>']
+[36m(ActorModelRayActor pid=287374)[0m ele.get("min_pixels" 3136[32m [repeated 214x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m ele.get("max_pixels" 1254400[32m [repeated 214x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:39:28 [worker.py:133] Sleep mode freed 38.19 GiB memory, 21.92 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:39:28 [executor_base.py:208] It took 1.687068 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.2, rm=0.812, ret=-0.226, glen=174, tlen=703, kl=0.337, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<04:31,  2.14s/it, pg=0.2, rm=0.812, ret=-0.226, glen=174, tlen=703, kl=0.337, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:04<04:31,  2.14s/it, pg=-0.0708, rm=0.938, ret=0.0457, glen=157, tlen=978, kl=0.337, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:04<05:01,  2.39s/it, pg=-0.0708, rm=0.938, ret=0.0457, glen=157, tlen=978, kl=0.337, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<05:01,  2.39s/it, pg=0.114, rm=1, ret=-0.138, glen=159, tlen=787, kl=0.344, act_lr=9.29e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<05:01,  2.42s/it, pg=0.114, rm=1, ret=-0.138, glen=159, tlen=787, kl=0.344, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<05:01,  2.42s/it, pg=0.0217, rm=1, ret=-0.044, glen=163, tlen=986, kl=0.315, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<04:49,  2.33s/it, pg=0.0217, rm=1, ret=-0.044, glen=163, tlen=986, kl=0.315, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<04:49,  2.33s/it, pg=-0.0701, rm=0.875, ret=0.0464, glen=149, tlen=833, kl=0.342, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:35,  2.24s/it, pg=-0.0701, rm=0.875, ret=0.0464, glen=149, tlen=833, kl=0.342, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:35,  2.24s/it, pg=0.105, rm=0.688, ret=-0.13, glen=154, tlen=837, kl=0.348, act_lr=9.29e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:27,  2.19s/it, pg=0.105, rm=0.688, ret=-0.13, glen=154, tlen=837, kl=0.348, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:27,  2.19s/it, pg=0.014, rm=0.812, ret=-0.0389, glen=169, tlen=777, kl=0.323, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:12,  2.08s/it, pg=0.014, rm=0.812, ret=-0.0389, glen=169, tlen=777, kl=0.323, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:25<04:12,  2.08s/it, pg=0.0432, rm=0.875, ret=-0.0691, glen=158, tlen=932, kl=0.348, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:25<09:02,  4.52s/it, pg=0.0432, rm=0.875, ret=-0.0691, glen=158, tlen=932, kl=0.348, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:27<09:02,  4.52s/it, pg=-0.00433, rm=1.06, ret=-0.0232, glen=167, tlen=863, kl=0.346, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:27<07:31,  3.79s/it, pg=-0.00433, rm=1.06, ret=-0.0232, glen=167, tlen=863, kl=0.346, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:29<07:31,  3.79s/it, pg=0.0842, rm=0.812, ret=-0.11, glen=172, tlen=707, kl=0.327, act_lr=9.29e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:29<06:14,  3.17s/it, pg=0.0842, rm=0.812, ret=-0.11, glen=172, tlen=707, kl=0.327, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:30<06:14,  3.17s/it, pg=0.0261, rm=1.06, ret=-0.0526, glen=169, tlen=663, kl=0.356, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:30<05:10,  2.66s/it, pg=0.0261, rm=1.06, ret=-0.0526, glen=169, tlen=663, kl=0.356, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:32<05:10,  2.66s/it, pg=0.0481, rm=0.812, ret=-0.0768, glen=170, tlen=807, kl=0.361, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:32<04:40,  2.42s/it, pg=0.0481, rm=0.812, ret=-0.0768, glen=170, tlen=807, kl=0.361, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:34<04:40,  2.42s/it, pg=0.0425, rm=1, ret=-0.0662, glen=158, tlen=710, kl=0.321, act_lr=9.29e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:34<04:23,  2.29s/it, pg=0.0425, rm=1, ret=-0.0662, glen=158, tlen=710, kl=0.321, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<04:23,  2.29s/it, pg=0.027, rm=0.75, ret=-0.0481, glen=150, tlen=820, kl=0.32, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:36<04:24,  2.32s/it, pg=0.027, rm=0.75, ret=-0.0481, glen=150, tlen=820, kl=0.32, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:24,  2.32s/it, pg=-0.0307, rm=1.25, ret=0.0037, glen=174, tlen=967, kl=0.338, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:38<04:13,  2.24s/it, pg=-0.0307, rm=1.25, ret=0.0037, glen=174, tlen=967, kl=0.338, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:48<04:13,  2.24s/it, pg=0.0197, rm=1.12, ret=-0.0452, glen=162, tlen=636, kl=0.324, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:48<08:02,  4.31s/it, pg=0.0197, rm=1.12, ret=-0.0452, glen=162, tlen=636, kl=0.324, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:02,  4.31s/it, pg=0.00024, rm=1, ret=-0.0273, glen=161, tlen=854, kl=0.364, act_lr=9.29e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:50<06:47,  3.67s/it, pg=0.00024, rm=1, ret=-0.0273, glen=161, tlen=854, kl=0.364, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:51<06:47,  3.67s/it, pg=-0.00478, rm=1.06, ret=-0.0193, glen=157, tlen=741, kl=0.322, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:51<05:41,  3.10s/it, pg=-0.00478, rm=1.06, ret=-0.0193, glen=157, tlen=741, kl=0.322, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:54<05:41,  3.10s/it, pg=-0.114, rm=0.75, ret=0.0895, glen=164, tlen=956, kl=0.334, act_lr=9.29e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:54<05:13,  2.88s/it, pg=-0.114, rm=0.75, ret=0.0895, glen=164, tlen=956, kl=0.334, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:56<05:13,  2.88s/it, pg=-0.0218, rm=1.12, ret=-0.00399, glen=166, tlen=720, kl=0.342, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:56<04:38,  2.57s/it, pg=-0.0218, rm=1.12, ret=-0.00399, glen=166, tlen=720, kl=0.342, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:58<04:38,  2.57s/it, pg=-0.0282, rm=1, ret=0.00487, glen=168, tlen=974, kl=0.307, act_lr=9.29e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [00:58<04:13,  2.37s/it, pg=-0.0282, rm=1, ret=0.00487, glen=168, tlen=974, kl=0.307, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [00:59<04:13,  2.37s/it, pg=0.173, rm=0.875, ret=-0.199, glen=156, tlen=745, kl=0.348, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [00:59<03:53,  2.20s/it, pg=0.173, rm=0.875, ret=-0.199, glen=156, tlen=745, kl=0.348, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:01<03:53,  2.20s/it, pg=0.137, rm=0.875, ret=-0.164, glen=164, tlen=760, kl=0.349, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:01<03:45,  2.15s/it, pg=0.137, rm=0.875, ret=-0.164, glen=164, tlen=760, kl=0.349, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:11<03:45,  2.15s/it, pg=0.0511, rm=0.625, ret=-0.0739, glen=156, tlen=844, kl=0.327, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:11<07:28,  4.31s/it, pg=0.0511, rm=0.625, ret=-0.0739, glen=156, tlen=844, kl=0.327, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:13<07:28,  4.31s/it, pg=0.0495, rm=0.875, ret=-0.0761, glen=175, tlen=856, kl=0.345, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:13<06:25,  3.74s/it, pg=0.0495, rm=0.875, ret=-0.0761, glen=175, tlen=856, kl=0.345, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:16<06:25,  3.74s/it, pg=0.205, rm=1.12, ret=-0.227, glen=149, tlen=828, kl=0.331, act_lr=9.29e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:16<05:40,  3.34s/it, pg=0.205, rm=1.12, ret=-0.227, glen=149, tlen=828, kl=0.331, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:18<05:40,  3.34s/it, pg=0.0193, rm=1.06, ret=-0.0477, glen=186, tlen=923, kl=0.34, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:18<04:59,  2.96s/it, pg=0.0193, rm=1.06, ret=-0.0477, glen=186, tlen=923, kl=0.34, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:20<04:59,  2.96s/it, pg=0.0279, rm=0.812, ret=-0.0521, glen=156, tlen=887, kl=0.343, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:20<04:29,  2.70s/it, pg=0.0279, rm=0.812, ret=-0.0521, glen=156, tlen=887, kl=0.343, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:22<04:29,  2.70s/it, pg=0.01, rm=0.812, ret=-0.0333, glen=161, tlen=828, kl=0.304, act_lr=9.29e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:22<04:09,  2.52s/it, pg=0.01, rm=0.812, ret=-0.0333, glen=161, tlen=828, kl=0.304, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:24<04:09,  2.52s/it, pg=0.0477, rm=1.06, ret=-0.0726, glen=168, tlen=763, kl=0.34, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:24<03:51,  2.36s/it, pg=0.0477, rm=1.06, ret=-0.0726, glen=168, tlen=763, kl=0.34, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:26<03:51,  2.36s/it, pg=0.0319, rm=0.75, ret=-0.058, glen=158, tlen=827, kl=0.367, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:26<03:34,  2.21s/it, pg=0.0319, rm=0.75, ret=-0.058, glen=158, tlen=827, kl=0.367, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:35<03:34,  2.21s/it, pg=0.0473, rm=1.06, ret=-0.073, glen=175, tlen=771, kl=0.328, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:35<06:43,  4.21s/it, pg=0.0473, rm=1.06, ret=-0.073, glen=175, tlen=771, kl=0.328, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:37<06:43,  4.21s/it, pg=0.034, rm=0.875, ret=-0.0607, glen=176, tlen=856, kl=0.345, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:37<05:37,  3.56s/it, pg=0.034, rm=0.875, ret=-0.0607, glen=176, tlen=856, kl=0.345, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:38<05:37,  3.56s/it, pg=-0.0367, rm=1.06, ret=0.0112, glen=152, tlen=848, kl=0.337, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:39<04:48,  3.07s/it, pg=-0.0367, rm=1.06, ret=0.0112, glen=152, tlen=848, kl=0.337, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:41<04:48,  3.07s/it, pg=0.0137, rm=0.875, ret=-0.0389, glen=163, tlen=874, kl=0.334, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:41<04:19,  2.79s/it, pg=0.0137, rm=0.875, ret=-0.0389, glen=163, tlen=874, kl=0.334, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:43<04:19,  2.79s/it, pg=-0.0661, rm=0.875, ret=0.0421, glen=165, tlen=789, kl=0.333, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:43<03:50,  2.51s/it, pg=-0.0661, rm=0.875, ret=0.0421, glen=165, tlen=789, kl=0.333, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:45<03:50,  2.51s/it, pg=0.0303, rm=0.812, ret=-0.0561, glen=168, tlen=745, kl=0.335, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:45<03:34,  2.36s/it, pg=0.0303, rm=0.812, ret=-0.0561, glen=168, tlen=745, kl=0.335, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:47<03:34,  2.36s/it, pg=0.074, rm=0.5, ret=-0.0986, glen=155, tlen=1.06e+3, kl=0.34, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:47<03:43,  2.48s/it, pg=0.074, rm=0.5, ret=-0.0986, glen=155, tlen=1.06e+3, kl=0.34, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:49<03:43,  2.48s/it, pg=0.219, rm=1.19, ret=-0.241, glen=173, tlen=813, kl=0.308, act_lr=9.29e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:49<03:30,  2.36s/it, pg=0.219, rm=1.19, ret=-0.241, glen=173, tlen=813, kl=0.308, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:58<03:30,  2.36s/it, pg=0.019, rm=0.812, ret=-0.043, glen=155, tlen=623, kl=0.327, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [01:58<06:12,  4.23s/it, pg=0.019, rm=0.812, ret=-0.043, glen=155, tlen=623, kl=0.327, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:00<06:12,  4.23s/it, pg=-0.0752, rm=1.06, ret=0.0457, glen=162, tlen=895, kl=0.394, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:00<05:20,  3.68s/it, pg=-0.0752, rm=1.06, ret=0.0457, glen=162, tlen=895, kl=0.394, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:03<05:20,  3.68s/it, pg=0.0232, rm=0.875, ret=-0.0486, glen=163, tlen=1.01e+3, kl=0.349, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:03<04:35,  3.20s/it, pg=0.0232, rm=0.875, ret=-0.0486, glen=163, tlen=1.01e+3, kl=0.349, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:04<04:35,  3.20s/it, pg=0.0629, rm=1.06, ret=-0.086, glen=165, tlen=815, kl=0.319, act_lr=9.29e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:04<03:57,  2.79s/it, pg=0.0629, rm=1.06, ret=-0.086, glen=165, tlen=815, kl=0.319, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:06<03:57,  2.79s/it, pg=-0.00154, rm=1, ret=-0.022, glen=168, tlen=648, kl=0.317, act_lr=9.29e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:06<03:20,  2.38s/it, pg=-0.00154, rm=1, ret=-0.022, glen=168, tlen=648, kl=0.317, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:07<03:20,  2.38s/it, pg=0.0309, rm=1.25, ret=-0.0571, glen=163, tlen=689, kl=0.35, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|█��█▌      | 45/128 [02:07<02:55,  2.11s/it, pg=0.0309, rm=1.25, ret=-0.0571, glen=163, tlen=689, kl=0.35, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:10<02:55,  2.11s/it, pg=-0.0217, rm=1, ret=-0.00144, glen=158, tlen=825, kl=0.315, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:10<02:58,  2.18s/it, pg=-0.0217, rm=1, ret=-0.00144, glen=158, tlen=825, kl=0.315, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:11<02:58,  2.18s/it, pg=-0.00111, rm=1, ret=-0.0247, glen=158, tlen=851, kl=0.354, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:11<02:47,  2.07s/it, pg=-0.00111, rm=1, ret=-0.0247, glen=158, tlen=851, kl=0.354, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:20<02:47,  2.07s/it, pg=0.0496, rm=1.06, ret=-0.0788, glen=181, tlen=784, kl=0.349, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:20<05:32,  4.16s/it, pg=0.0496, rm=1.06, ret=-0.0788, glen=181, tlen=784, kl=0.349, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:23<05:32,  4.16s/it, pg=-0.0229, rm=1.06, ret=0.00071, glen=157, tlen=771, kl=0.295, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:23<04:40,  3.55s/it, pg=-0.0229, rm=1.06, ret=0.00071, glen=157, tlen=771, kl=0.295, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:25<04:40,  3.55s/it, pg=-0.0761, rm=0.75, ret=0.0522, glen=159, tlen=841, kl=0.344, act_lr=9.29e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:25<04:02,  3.11s/it, pg=-0.0761, rm=0.75, ret=0.0522, glen=159, tlen=841, kl=0.344, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:27<04:02,  3.11s/it, pg=0.269, rm=0.938, ret=-0.288, glen=151, tlen=973, kl=0.302, act_lr=9.29e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:27<03:40,  2.87s/it, pg=0.269, rm=0.938, ret=-0.288, glen=151, tlen=973, kl=0.302, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:29<03:40,  2.87s/it, pg=0.038, rm=0.938, ret=-0.062, glen=159, tlen=764, kl=0.325, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:29<03:23,  2.68s/it, pg=0.038, rm=0.938, ret=-0.062, glen=159, tlen=764, kl=0.325, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:31<03:23,  2.68s/it, pg=-0.0841, rm=0.938, ret=0.0618, glen=160, tlen=918, kl=0.32, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:31<03:02,  2.43s/it, pg=-0.0841, rm=0.938, ret=0.0618, glen=160, tlen=918, kl=0.32, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:33<03:02,  2.43s/it, pg=0.0697, rm=0.875, ret=-0.0957, glen=169, tlen=838, kl=0.343, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:33<02:48,  2.27s/it, pg=0.0697, rm=0.875, ret=-0.0957, glen=169, tlen=838, kl=0.343, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:34<02:48,  2.27s/it, pg=0.0468, rm=1, ret=-0.0726, glen=170, tlen=662, kl=0.335, act_lr=9.29e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:34<02:28,  2.04s/it, pg=0.0468, rm=1, ret=-0.0726, glen=170, tlen=662, kl=0.335, act_lr=9.29e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:44<02:28,  2.04s/it, pg=0.015, rm=1.25, ret=-0.0416, glen=171, tlen=823, kl=0.335, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:44<05:02,  4.20s/it, pg=0.015, rm=1.25, ret=-0.0416, glen=171, tlen=823, kl=0.335, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:46<05:02,  4.20s/it, pg=0.0687, rm=0.688, ret=-0.091, glen=152, tlen=944, kl=0.346, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:46<04:22,  3.70s/it, pg=0.0687, rm=0.688, ret=-0.091, glen=152, tlen=944, kl=0.346, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:48<04:22,  3.70s/it, pg=-0.0563, rm=1.12, ret=0.0338, glen=147, tlen=1.02e+3, kl=0.326, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:48<03:44,  3.20s/it, pg=-0.0563, rm=1.12, ret=0.0338, glen=147, tlen=1.02e+3, kl=0.326, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:50<03:44,  3.20s/it, pg=0.012, rm=1.25, ret=-0.0356, glen=157, tlen=656, kl=0.326, act_lr=9.28e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:50<03:05,  2.68s/it, pg=0.012, rm=1.25, ret=-0.0356, glen=157, tlen=656, kl=0.326, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:52<03:05,  2.68s/it, pg=0.134, rm=0.938, ret=-0.158, glen=157, tlen=933, kl=0.335, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:52<02:55,  2.59s/it, pg=0.134, rm=0.938, ret=-0.158, glen=157, tlen=933, kl=0.335, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:54<02:55,  2.59s/it, pg=0.0346, rm=0.688, ret=-0.0585, glen=156, tlen=978, kl=0.328, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:54<02:47,  2.50s/it, pg=0.0346, rm=0.688, ret=-0.0585, glen=156, tlen=978, kl=0.328, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:56<02:47,  2.50s/it, pg=0.0257, rm=0.812, ret=-0.0499, glen=153, tlen=824, kl=0.335, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [02:56<02:31,  2.30s/it, pg=0.0257, rm=0.812, ret=-0.0499, glen=153, tlen=824, kl=0.335, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [02:58<02:31,  2.30s/it, pg=0.0249, rm=0.875, ret=-0.0499, glen=177, tlen=749, kl=0.324, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [02:58<02:27,  2.28s/it, pg=0.0249, rm=0.875, ret=-0.0499, glen=177, tlen=749, kl=0.324, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:08<02:27,  2.28s/it, pg=0.114, rm=1, ret=-0.141, glen=177, tlen=652, kl=0.324, act_lr=9.28e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:08<04:39,  4.37s/it, pg=0.114, rm=1, ret=-0.141, glen=177, tlen=652, kl=0.324, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:10<04:39,  4.37s/it, pg=-0.1, rm=1.12, ret=0.0781, glen=158, tlen=941, kl=0.32, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:10<03:48,  3.63s/it, pg=-0.1, rm=1.12, ret=0.0781, glen=158, tlen=941, kl=0.32, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:11<03:48,  3.63s/it, pg=0.118, rm=0.875, ret=-0.142, glen=148, tlen=820, kl=0.356, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:11<03:11,  3.09s/it, pg=0.118, rm=0.875, ret=-0.142, glen=148, tlen=820, kl=0.356, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:13<03:11,  3.09s/it, pg=-0.0258, rm=1.12, ret=-0.000375, glen=168, tlen=722, kl=0.317, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:13<02:45,  2.71s/it, pg=-0.0258, rm=1.12, ret=-0.000375, glen=168, tlen=722, kl=0.317, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:15<02:45,  2.71s/it, pg=-0.00216, rm=1, ret=-0.0225, glen=167, tlen=648, kl=0.321, act_lr=9.28e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:15<02:24,  2.40s/it, pg=-0.00216, rm=1, ret=-0.0225, glen=167, tlen=648, kl=0.321, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:17<02:24,  2.40s/it, pg=-0.0565, rm=0.938, ret=0.0337, glen=154, tlen=806, kl=0.336, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:17<02:14,  2.29s/it, pg=-0.0565, rm=0.938, ret=0.0337, glen=154, tlen=806, kl=0.336, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:19<02:14,  2.29s/it, pg=-0.139, rm=1.06, ret=0.116, glen=159, tlen=826, kl=0.34, act_lr=9.28e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:19<02:05,  2.16s/it, pg=-0.139, rm=1.06, ret=0.116, glen=159, tlen=826, kl=0.34, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:21<02:05,  2.16s/it, pg=0.225, rm=0.812, ret=-0.247, glen=155, tlen=929, kl=0.321, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:21<02:05,  2.19s/it, pg=0.225, rm=0.812, ret=-0.247, glen=155, tlen=929, kl=0.321, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:31<02:05,  2.19s/it, pg=0.025, rm=0.938, ret=-0.0518, glen=163, tlen=722, kl=0.363, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:31<04:04,  4.37s/it, pg=0.025, rm=0.938, ret=-0.0518, glen=163, tlen=722, kl=0.363, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:32<04:04,  4.37s/it, pg=0.0564, rm=0.688, ret=-0.0818, glen=170, tlen=962, kl=0.346, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:32<03:19,  3.63s/it, pg=0.0564, rm=0.688, ret=-0.0818, glen=170, tlen=962, kl=0.346, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:34<03:19,  3.63s/it, pg=0.253, rm=1.19, ret=-0.275, glen=166, tlen=825, kl=0.34, act_lr=9.28e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:34<02:47,  3.10s/it, pg=0.253, rm=1.19, ret=-0.275, glen=166, tlen=825, kl=0.34, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:37<02:47,  3.10s/it, pg=-0.00416, rm=1.06, ret=-0.0209, glen=166, tlen=996, kl=0.323, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:37<02:34,  2.92s/it, pg=-0.00416, rm=1.06, ret=-0.0209, glen=166, tlen=996, kl=0.323, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:39<02:34,  2.92s/it, pg=0.119, rm=1.12, ret=-0.145, glen=165, tlen=863, kl=0.334, act_lr=9.28e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:39<02:19,  2.68s/it, pg=0.119, rm=1.12, ret=-0.145, glen=165, tlen=863, kl=0.334, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:41<02:19,  2.68s/it, pg=0.00688, rm=0.875, ret=-0.0327, glen=160, tlen=676, kl=0.346, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:41<02:03,  2.42s/it, pg=0.00688, rm=0.875, ret=-0.0327, glen=160, tlen=676, kl=0.346, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:43<02:03,  2.42s/it, pg=0.126, rm=0.875, ret=-0.149, glen=160, tlen=812, kl=0.321, act_lr=9.28e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:43<01:51,  2.24s/it, pg=0.126, rm=0.875, ret=-0.149, glen=160, tlen=812, kl=0.321, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:45<01:51,  2.24s/it, pg=0.233, rm=1, ret=-0.252, glen=178, tlen=793, kl=0.273, act_lr=9.28e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:45<01:46,  2.18s/it, pg=0.233, rm=1, ret=-0.252, glen=178, tlen=793, kl=0.273, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:53<01:46,  2.18s/it, pg=0.0423, rm=1.06, ret=-0.0659, glen=156, tlen=845, kl=0.332, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:53<03:20,  4.18s/it, pg=0.0423, rm=1.06, ret=-0.0659, glen=156, tlen=845, kl=0.332, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:56<03:20,  4.18s/it, pg=0.0272, rm=1.06, ret=-0.0499, glen=158, tlen=784, kl=0.316, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [03:56<02:47,  3.55s/it, pg=0.0272, rm=1.06, ret=-0.0499, glen=158, tlen=784, kl=0.316, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [03:57<02:47,  3.55s/it, pg=0.0315, rm=1, ret=-0.0561, glen=163, tlen=663, kl=0.343, act_lr=9.28e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [03:57<02:14,  2.92s/it, pg=0.0315, rm=1, ret=-0.0561, glen=163, tlen=663, kl=0.343, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [03:59<02:14,  2.92s/it, pg=0.0326, rm=1, ret=-0.0591, glen=175, tlen=674, kl=0.338, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [03:59<01:55,  2.56s/it, pg=0.0326, rm=1, ret=-0.0591, glen=175, tlen=674, kl=0.338, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:00<01:55,  2.56s/it, pg=0.00993, rm=1.12, ret=-0.0355, glen=182, tlen=663, kl=0.32, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:00<01:41,  2.31s/it, pg=0.00993, rm=1.12, ret=-0.0355, glen=182, tlen=663, kl=0.32, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:02<01:41,  2.31s/it, pg=0.245, rm=0.875, ret=-0.267, glen=158, tlen=608, kl=0.338, act_lr=9.28e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:02<01:27,  2.04s/it, pg=0.245, rm=0.875, ret=-0.267, glen=158, tlen=608, kl=0.338, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:04<01:27,  2.04s/it, pg=0.0141, rm=1.25, ret=-0.038, glen=174, tlen=673, kl=0.309, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:04<01:21,  1.94s/it, pg=0.0141, rm=1.25, ret=-0.038, glen=174, tlen=673, kl=0.309, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:06<01:21,  1.94s/it, pg=-0.147, rm=1.12, ret=0.126, glen=173, tlen=726, kl=0.32, act_lr=9.28e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:06<01:20,  1.96s/it, pg=-0.147, rm=1.12, ret=0.126, glen=173, tlen=726, kl=0.32, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:15<01:20,  1.96s/it, pg=0.0313, rm=1.06, ret=-0.055, glen=174, tlen=805, kl=0.304, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:15<02:45,  4.14s/it, pg=0.0313, rm=1.06, ret=-0.055, glen=174, tlen=805, kl=0.304, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:17<02:45,  4.14s/it, pg=0.152, rm=0.75, ret=-0.175, glen=165, tlen=835, kl=0.331, act_lr=9.28e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:17<02:15,  3.47s/it, pg=0.152, rm=0.75, ret=-0.175, glen=165, tlen=835, kl=0.331, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:19<02:15,  3.47s/it, pg=-0.00322, rm=1, ret=-0.0208, glen=162, tlen=702, kl=0.321, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:19<01:54,  3.01s/it, pg=-0.00322, rm=1, ret=-0.0208, glen=162, tlen=702, kl=0.321, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:20<01:54,  3.01s/it, pg=0.00865, rm=0.938, ret=-0.0341, glen=171, tlen=730, kl=0.333, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:20<01:37,  2.64s/it, pg=0.00865, rm=0.938, ret=-0.0341, glen=171, tlen=730, kl=0.333, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:22<01:37,  2.64s/it, pg=0.0446, rm=0.812, ret=-0.0691, glen=168, tlen=805, kl=0.319, act_lr=9.28e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:22<01:29,  2.47s/it, pg=0.0446, rm=0.812, ret=-0.0691, glen=168, tlen=805, kl=0.319, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:25<01:29,  2.47s/it, pg=-0.0316, rm=0.938, ret=0.00535, glen=174, tlen=949, kl=0.336, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:25<01:22,  2.37s/it, pg=-0.0316, rm=0.938, ret=0.00535, glen=174, tlen=949, kl=0.336, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:27<01:22,  2.37s/it, pg=-0.0687, rm=1.12, ret=0.0438, glen=158, tlen=852, kl=0.356, act_lr=9.28e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:27<01:16,  2.24s/it, pg=-0.0687, rm=1.12, ret=0.0438, glen=158, tlen=852, kl=0.356, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:28<01:16,  2.24s/it, pg=-0.13, rm=0.688, ret=0.106, glen=163, tlen=851, kl=0.332, act_lr=9.28e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:28<01:10,  2.12s/it, pg=-0.13, rm=0.688, ret=0.106, glen=163, tlen=851, kl=0.332, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:37<01:10,  2.12s/it, pg=0.0313, rm=1.06, ret=-0.0546, glen=148, tlen=932, kl=0.356, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:37<02:15,  4.22s/it, pg=0.0313, rm=1.06, ret=-0.0546, glen=148, tlen=932, kl=0.356, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:39<02:15,  4.22s/it, pg=-0.0847, rm=1.12, ret=0.063, glen=165, tlen=652, kl=0.309, act_lr=9.28e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:39<01:45,  3.41s/it, pg=-0.0847, rm=1.12, ret=0.063, glen=165, tlen=652, kl=0.309, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:41<01:45,  3.41s/it, pg=0.0289, rm=0.812, ret=-0.0535, glen=156, tlen=793, kl=0.344, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:41<01:29,  2.99s/it, pg=0.0289, rm=0.812, ret=-0.0535, glen=156, tlen=793, kl=0.344, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:43<01:29,  2.99s/it, pg=0.0144, rm=0.875, ret=-0.0398, glen=168, tlen=879, kl=0.331, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:43<01:18,  2.72s/it, pg=0.0144, rm=0.875, ret=-0.0398, glen=168, tlen=879, kl=0.331, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:45<01:18,  2.72s/it, pg=0.0883, rm=0.875, ret=-0.116, glen=170, tlen=808, kl=0.37, act_lr=9.28e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:45<01:10,  2.52s/it, pg=0.0883, rm=0.875, ret=-0.116, glen=170, tlen=808, kl=0.37, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:47<01:10,  2.52s/it, pg=0.109, rm=0.688, ret=-0.135, glen=164, tlen=913, kl=0.362, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:47<01:05,  2.44s/it, pg=0.109, rm=0.688, ret=-0.135, glen=164, tlen=913, kl=0.362, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:49<01:05,  2.44s/it, pg=0.0235, rm=0.938, ret=-0.052, glen=168, tlen=727, kl=0.353, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:49<01:00,  2.31s/it, pg=0.0235, rm=0.938, ret=-0.052, glen=168, tlen=727, kl=0.353, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:51<01:00,  2.31s/it, pg=0.0261, rm=0.875, ret=-0.0503, glen=165, tlen=939, kl=0.314, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [04:51<00:54,  2.18s/it, pg=0.0261, rm=0.875, ret=-0.0503, glen=165, tlen=939, kl=0.314, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:00<00:54,  2.18s/it, pg=0.00529, rm=1.12, ret=-0.0289, glen=157, tlen=638, kl=0.329, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:00<01:39,  4.15s/it, pg=0.00529, rm=1.12, ret=-0.0289, glen=157, tlen=638, kl=0.329, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:02<01:39,  4.15s/it, pg=-0.223, rm=1, ret=0.2, glen=157, tlen=978, kl=0.341, act_lr=9.28e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:02<01:22,  3.61s/it, pg=-0.223, rm=1, ret=0.2, glen=157, tlen=978, kl=0.341, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:04<01:22,  3.61s/it, pg=0.0445, rm=1, ret=-0.0717, glen=163, tlen=715, kl=0.343, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:04<01:07,  3.07s/it, pg=0.0445, rm=1, ret=-0.0717, glen=163, tlen=715, kl=0.343, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:06<01:07,  3.07s/it, pg=-0.0124, rm=1.19, ret=-0.0131, glen=158, tlen=856, kl=0.341, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:06<00:58,  2.77s/it, pg=-0.0124, rm=1.19, ret=-0.0131, glen=158, tlen=856, kl=0.341, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:08<00:58,  2.77s/it, pg=0.185, rm=1.06, ret=-0.211, glen=168, tlen=863, kl=0.365, act_lr=9.28e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:08<00:51,  2.58s/it, pg=0.185, rm=1.06, ret=-0.211, glen=168, tlen=863, kl=0.365, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:10<00:51,  2.58s/it, pg=-0.00117, rm=1, ret=-0.0238, glen=169, tlen=709, kl=0.326, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:10<00:44,  2.35s/it, pg=-0.00117, rm=1, ret=-0.0238, glen=169, tlen=709, kl=0.326, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:13<00:44,  2.35s/it, pg=0.237, rm=0.875, ret=-0.256, glen=149, tlen=1.02e+3, kl=0.307, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:13<00:41,  2.33s/it, pg=0.237, rm=0.875, ret=-0.256, glen=149, tlen=1.02e+3, kl=0.307, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:15<00:41,  2.33s/it, pg=-0.0514, rm=0.938, ret=0.0257, glen=170, tlen=839, kl=0.345, act_lr=9.28e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:15<00:38,  2.24s/it, pg=-0.0514, rm=0.938, ret=0.0257, glen=170, tlen=839, kl=0.345, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:23<00:38,  2.24s/it, pg=-0.0254, rm=1.12, ret=-0.000153, glen=165, tlen=627, kl=0.33, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:23<01:05,  4.12s/it, pg=-0.0254, rm=1.12, ret=-0.000153, glen=165, tlen=627, kl=0.33, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:25<01:05,  4.12s/it, pg=0.0676, rm=0.875, ret=-0.0982, glen=185, tlen=866, kl=0.362, act_lr=9.28e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:25<00:53,  3.57s/it, pg=0.0676, rm=0.875, ret=-0.0982, glen=185, tlen=866, kl=0.362, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:27<00:53,  3.57s/it, pg=-0.131, rm=1.12, ret=0.11, glen=163, tlen=638, kl=0.312, act_lr=9.28e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:27<00:40,  2.91s/it, pg=-0.131, rm=1.12, ret=0.11, glen=163, tlen=638, kl=0.312, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:29<00:40,  2.91s/it, pg=-0.0839, rm=0.875, ret=0.0614, glen=173, tlen=745, kl=0.339, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:29<00:33,  2.58s/it, pg=-0.0839, rm=0.875, ret=0.0614, glen=173, tlen=745, kl=0.339, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:31<00:33,  2.58s/it, pg=-0.0355, rm=1.12, ret=0.00641, glen=177, tlen=737, kl=0.352, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:31<00:29,  2.46s/it, pg=-0.0355, rm=1.12, ret=0.00641, glen=177, tlen=737, kl=0.352, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:33<00:29,  2.46s/it, pg=0.0254, rm=0.812, ret=-0.0522, glen=163, tlen=692, kl=0.366, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:33<00:25,  2.32s/it, pg=0.0254, rm=0.812, ret=-0.0522, glen=163, tlen=692, kl=0.366, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:35<00:25,  2.32s/it, pg=0.14, rm=0.75, ret=-0.165, glen=158, tlen=1044.25, kl=0.329, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:35<00:22,  2.23s/it, pg=0.14, rm=0.75, ret=-0.165, glen=158, tlen=1044.25, kl=0.329, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:37<00:22,  2.23s/it, pg=-0.0427, rm=1.19, ret=0.0182, glen=161, tlen=840, kl=0.334, act_lr=9.28e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:37<00:19,  2.19s/it, pg=-0.0427, rm=1.19, ret=0.0182, glen=161, tlen=840, kl=0.334, act_lr=9.28e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:46<00:19,  2.19s/it, pg=0.00987, rm=0.812, ret=-0.0324, glen=151, tlen=819, kl=0.317, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:46<00:33,  4.19s/it, pg=0.00987, rm=0.812, ret=-0.0324, glen=151, tlen=819, kl=0.317, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:48<00:33,  4.19s/it, pg=0.0105, rm=0.812, ret=-0.0336, glen=160, tlen=827, kl=0.308, act_lr=9.27e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:48<00:24,  3.50s/it, pg=0.0105, rm=0.812, ret=-0.0336, glen=160, tlen=827, kl=0.308, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:50<00:24,  3.50s/it, pg=0.0287, rm=0.75, ret=-0.0534, glen=149, tlen=819, kl=0.358, act_lr=9.27e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [05:50<00:18,  3.16s/it, pg=0.0287, rm=0.75, ret=-0.0534, glen=149, tlen=819, kl=0.358, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [05:52<00:18,  3.16s/it, pg=-0.0203, rm=1.06, ret=-0.00109, glen=157, tlen=924, kl=0.306, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|██��██████▌| 123/128 [05:52<00:14,  2.82s/it, pg=-0.0203, rm=1.06, ret=-0.00109, glen=157, tlen=924, kl=0.306, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [05:53<00:14,  2.82s/it, pg=0.0472, rm=1.25, ret=-0.0731, glen=174, tlen=692, kl=0.331, act_lr=9.27e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [05:53<00:09,  2.43s/it, pg=0.0472, rm=1.25, ret=-0.0731, glen=174, tlen=692, kl=0.331, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [05:55<00:09,  2.43s/it, pg=0.0449, rm=0.812, ret=-0.0711, glen=176, tlen=754, kl=0.315, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [05:55<00:06,  2.30s/it, pg=0.0449, rm=0.812, ret=-0.0711, glen=176, tlen=754, kl=0.315, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [05:57<00:06,  2.30s/it, pg=0.103, rm=0.875, ret=-0.13, glen=183, tlen=822, kl=0.335, act_lr=9.27e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [05:57<00:04,  2.17s/it, pg=0.103, rm=0.875, ret=-0.13, glen=183, tlen=822, kl=0.335, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [05:59<00:04,  2.17s/it, pg=-0.00442, rm=0.875, ret=-0.0205, glen=161, tlen=935, kl=0.342, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [05:59<00:02,  2.07s/it, pg=-0.00442, rm=0.875, ret=-0.0205, glen=161, tlen=935, kl=0.342, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:09<00:02,  2.07s/it, pg=0.0219, rm=0.875, ret=-0.0455, glen=158, tlen=823, kl=0.346, act_lr=9.27e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:09<00:00,  4.27s/it, pg=0.0219, rm=0.875, ret=-0.0455, glen=158, tlen=823, kl=0.346, act_lr=9.27e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:09<00:00,  2.88s/it, pg=0.0219, rm=0.875, ret=-0.0455, glen=158, tlen=823, kl=0.346, act_lr=9.27e-7]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:48:25 [executor_base.py:219] It took 1.697198 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:48:27 [executor_base.py:219] It took 3.346118 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.1.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 3267x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.11.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 898x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.20.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 918x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:48:49 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:48:49 [executor_base.py:208] It took 1.412797 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 703x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  13%|█▎        | 17/127 [3:35:31<21:34:50, 706.28s/it, policy_loss=0.03, actor_lr=9.28e-7, kl=0.334, reward=0.954, response_length=164, total_length=813, acc_rewards=0.454, format_rewards=0.5, return=-0.0546] 
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  14%|█▍        | 18/127 [3:35:31<21:03:33, 695.54s/it, policy_loss=0.03, actor_lr=9.28e-7, kl=0.334, reward=0.954, response_length=164, total_length=813, acc_rewards=0.454, format_rewards=0.5, return=-0.0546]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:48:51 [executor_base.py:219] It took 1.565523 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 1/256 [00:18<1:17:13, 18.17s/it, est. speed input: 27.68 toks/s, output: 4.29 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   2%|▏         | 6/256 [00:19<07:19,  1.76s/it, est. speed input: 154.28 toks/s, output: 29.53 toks/s]
+Processed prompts:   4%|▎         | 9/256 [00:19<03:33,  1.16it/s, est. speed input: 284.52 toks/s, output: 45.59 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   8%|▊         | 21/256 [00:19<00:48,  4.88it/s, est. speed input: 665.83 toks/s, output: 111.62 toks/s]
+Processed prompts:   9%|▉         | 24/256 [00:19<00:39,  5.90it/s, est. speed input: 729.29 toks/s, output: 128.48 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   2%|▏         | 4/256 [00:20<12:18,  2.93s/it, est. speed input: 78.41 toks/s, output: 21.98 toks/s]
+Processed prompts:   2%|▏         | 6/256 [00:20<05:53,  1.41s/it, est. speed input: 116.65 toks/s, output: 33.77 toks/s]
+Processed prompts:   3%|▎         | 7/256 [00:20<04:24,  1.06s/it, est. speed input: 139.71 toks/s, output: 39.68 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  11%|█▏        | 29/256 [00:20<00:26,  8.54it/s, est. speed input: 893.96 toks/s, output: 157.95 toks/s]
+Processed prompts:  14%|█▍        | 36/256 [00:20<00:16, 13.27it/s, est. speed input: 1149.79 toks/s, output: 199.99 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  21%|██▏       | 55/256 [00:20<00:07, 27.74it/s, est. speed input: 1557.18 toks/s, output: 316.35 toks/s]
+Processed prompts:  24%|██▍       | 61/256 [00:20<00:06, 32.24it/s, est. speed input: 1728.48 toks/s, output: 354.29 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  27%|██▋       | 70/256 [00:20<00:04, 42.08it/s, est. speed input: 1952.93 toks/s, output: 412.91 toks/s]
+Processed prompts:  32%|███▏      | 83/256 [00:20<00:02, 59.19it/s, est. speed input: 2213.38 toks/s, output: 499.67 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  94%|█████████▍| 240/256 [00:22<00:00, 54.20it/s, est. speed input: 5897.65 toks/s, output: 1632.33 toks/s] 
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  86%|████████▌ | 219/256 [00:23<00:00, 140.26it/s, est. speed input: 5209.86 toks/s, output: 1616.43 toks/s]
+Processed prompts:  92%|█████████▏| 236/256 [00:23<00:00, 137.29it/s, est. speed input: 5623.27 toks/s, output: 1759.64 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  98%|█████████▊| 250/256 [00:23<00:00, 55.16it/s, est. speed input: 6113.83 toks/s, output: 1713.01 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  79%|███████▉  | 203/256 [00:22<00:00, 140.17it/s, est. speed input: 4871.57 toks/s, output: 1484.30 toks/s][32m [repeated 20x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:23<07:21,  1.77s/it, est. speed input: 460.72 toks/s, output: 24.75 toks/s]
+Processed prompts:   4%|▎         | 9/256 [00:23<04:38,  1.13s/it, est. speed input: 588.89 toks/s, output: 32.51 toks/s][32m [repeated 10x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:23<00:00, 10.74it/s, est. speed input: 5979.31 toks/s, output: 1904.50 toks/s] [32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  52%|█████▏    | 134/256 [00:26<00:01, 75.31it/s, est. speed input: 3988.42 toks/s, output: 708.73 toks/s][32m [repeated 36x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  88%|████████▊ | 225/256 [00:27<00:00, 127.45it/s, est. speed input: 5878.67 toks/s, output: 1305.52 toks/s]
+Processed prompts:  93%|█████████▎| 238/256 [00:27<00:00, 120.73it/s, est. speed input: 6082.20 toks/s, output: 1396.92 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  75%|███████▌  | 193/256 [00:27<00:00, 112.04it/s, est. speed input: 5265.14 toks/s, output: 1086.52 toks/s]
+Processed prompts:  82%|████████▏ | 211/256 [00:27<00:00, 125.14it/s, est. speed input: 5641.26 toks/s, output: 1208.68 toks/s][32m [repeated 24x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.25it/s, est. speed input: 6337.77 toks/s, output: 1525.09 toks/s] [32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   7%|▋         | 17/256 [00:29<01:36,  2.47it/s, est. speed input: 894.47 toks/s, output: 58.09 toks/s][32m [repeated 30x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  11%|█▏        | 29/256 [00:29<00:33,  6.76it/s, est. speed input: 1430.64 toks/s, output: 103.53 toks/s]
+Processed prompts:  12%|█▎        | 32/256 [00:29<00:27,  8.05it/s, est. speed input: 1579.73 toks/s, output: 115.29 toks/s][32m [repeated 17x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:34<00:00, 13.91it/s, est. speed input: 6286.15 toks/s, output: 1174.56 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:34<00:00,  7.33it/s, est. speed input: 6286.15 toks/s, output: 1174.56 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:37<00:00, 55.16it/s, est. speed input: 6204.85 toks/s, output: 1750.45 toks/s][32m [repeated 9x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  89%|████████▉ | 228/256 [00:32<00:00, 95.83it/s, est. speed input: 6325.29 toks/s, output: 1067.93 toks/s] [32m [repeated 10x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  74%|███████▍  | 190/256 [00:32<00:00, 102.72it/s, est. speed input: 5650.62 toks/s, output: 856.62 toks/s]
+Processed prompts:  79%|███████▉  | 203/256 [00:32<00:00, 109.31it/s, est. speed input: 5810.70 toks/s, output: 927.81 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [01:11<00:00,  1.30s/it, est. speed input: 2025.74 toks/s, output: 627.45 toks/s] 
+Processed prompts: 100%|██████████| 256/256 [01:11<00:00,  3.60it/s, est. speed input: 2025.74 toks/s, output: 627.45 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:48:49 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.34 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:48:49 [executor_base.py:208] It took 1.629956 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:48:52 [executor_base.py:219] It took 3.126662 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m  1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 981x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 981x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(ActorModelRayActor pid=287378)[0m ele.get("min_pixels" 3136[32m [repeated 876x across cluster][0m
+[36m(ActorModelRayActor pid=287378)[0m ele.get("max_pixels" 1254400[32m [repeated 876x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:51:06 [worker.py:133] Sleep mode freed 38.28 GiB memory, 21.97 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 14:51:06 [executor_base.py:208] It took 1.425453 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287372)[0m ele.get("min_pixels" 3136[32m [repeated 182x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("max_pixels" 1254400[32m [repeated 182x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:53,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:51,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<02:54,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<02:45,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:06<02:43,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:43,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:09<02:41,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:10<02:37,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:40,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:13<02:39,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:14<02:38,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:16<02:37,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:17<02:38,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:18<02:35,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:20<02:36,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:21<02:35,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:22<02:26,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:23<02:16,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:24<02:06,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:25<01:59,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:27<01:58,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:28<01:53,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:29<01:53,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:30<01:50,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:31<01:58,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:32<02:02,  1.21s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:34<02:08,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:35<02:10,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:37<02:11,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:38<02:12,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:39<02:10,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:41<02:10,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:42<02:11,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:44<02:11,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:45<02:09,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:46<02:09,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:48<02:07,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:49<02:07,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:51<02:05,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:52<02:04,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:53<02:03,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:55<01:56,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:56<01:56,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:57<01:55,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [00:59<01:53,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:00<01:51,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:01<01:50,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:03<01:48,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:04<01:39,  1.25s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:05<01:31,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:06<01:25,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:07<01:21,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:08<01:18,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:09<01:15,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:10<01:14,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:11<01:12,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:12<01:19,  1.13s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:13<01:23,  1.19s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:15<01:27,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:16<01:29,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:18<01:30,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:19<01:30,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:21<01:29,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:22<01:27,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:23<01:26,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:25<01:24,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:26<01:26,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:28<01:22,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:29<01:22,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:30<01:20,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:32<01:19,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:33<01:19,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:35<01:17,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:36<01:15,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:37<01:15,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:39<01:14,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:40<01:12,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:42<01:09,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:43<01:08,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:44<01:06,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:45<00:59,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:46<00:54,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:47<00:49,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:48<00:46,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:49<00:44,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:50<00:43,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:51<00:41,  1.00s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:52<00:39,  1.01it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [01:53<00:38,  1.01it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [01:54<00:37,  1.01it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [01:55<00:36,  1.02it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [01:56<00:35,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [01:57<00:34,  1.00it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [01:58<00:34,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:00<00:42,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:01<00:37,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:02<00:37,  1.21s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:04<00:39,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:05<00:38,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:07<00:38,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:08<00:37,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:10<00:36,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:11<00:34,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:12<00:33,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:14<00:31,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:15<00:30,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:16<00:28,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:18<00:27,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:19<00:26,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:21<00:25,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:22<00:23,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:23<00:21,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:24<00:18,  1.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:25<00:16,  1.16s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:26<00:14,  1.11s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:27<00:12,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:28<00:11,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:29<00:10,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:30<00:09,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:31<00:08,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:32<00:07,  1.00s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:33<00:06,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:34<00:05,  1.02s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:35<00:04,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:36<00:03,  1.01s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:37<00:02,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:38<00:01,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:39<00:00,  1.01s/it][A
+make_experience: 100%|██████████| 128/128 [02:39<00:00,  1.25s/it]
+[36m(ActorModelRayActor pid=286523)[0m ["system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nGive an overall aesthetic rating for this image, between 0 and 5, rounded to two decimal points. A rating of 0 represents very poor aesthetic quality, while 5 represents excellent aesthetic quality.\nassistant\n<think>When assessing the image, one may consider the composition, color balance, and the subject matter. The image shows two black swans swimming in a body of water, which could be seen as a natural and serene scene. However, the water appears a bit muddy and the image does not have a strong, intentional composition that guides the viewer's attention. The lighting seems natural, but it does not enhance the vibrancy of the scene. The swans, being the main subjects, are not prominently featured, and the image lacks any dynamic or engaging element. Overall, the image conveys a peaceful moment in nature but it does not stand out for its artistic qualities or aesthetic appeal.</think>\n<answer>2.50</answer>"]
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:51:06 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.42 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 14:51:06 [executor_base.py:208] It took 1.694729 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("min_pixels" 3136[32m [repeated 3x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("max_pixels" 1254400[32m [repeated 3x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=0.0287, rm=0.812, ret=-0.0539, glen=150, tlen=786, kl=0.36, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<05:22,  2.54s/it, pg=0.0287, rm=0.812, ret=-0.0539, glen=150, tlen=786, kl=0.36, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:05<05:22,  2.54s/it, pg=0.291, rm=1.06, ret=-0.316, glen=172, tlen=794, kl=0.312, act_lr=9.27e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:05<05:15,  2.50s/it, pg=0.291, rm=1.06, ret=-0.316, glen=172, tlen=794, kl=0.312, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<05:15,  2.50s/it, pg=0.185, rm=0.938, ret=-0.21, glen=169, tlen=763, kl=0.338, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<04:45,  2.28s/it, pg=0.185, rm=0.938, ret=-0.21, glen=169, tlen=763, kl=0.338, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:08<04:45,  2.28s/it, pg=0.0983, rm=0.812, ret=-0.121, glen=163, tlen=734, kl=0.33, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:08<04:21,  2.11s/it, pg=0.0983, rm=0.812, ret=-0.121, glen=163, tlen=734, kl=0.33, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:10<04:21,  2.11s/it, pg=0.0749, rm=0.812, ret=-0.0994, glen=158, tlen=787, kl=0.333, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:10<04:07,  2.01s/it, pg=0.0749, rm=0.812, ret=-0.0994, glen=158, tlen=787, kl=0.333, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:12<04:07,  2.01s/it, pg=0.00401, rm=1.06, ret=-0.0302, glen=154, tlen=833, kl=0.351, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:12<04:00,  1.97s/it, pg=0.00401, rm=1.06, ret=-0.0302, glen=154, tlen=833, kl=0.351, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:14<04:00,  1.97s/it, pg=0.0314, rm=0.812, ret=-0.055, glen=162, tlen=846, kl=0.339, act_lr=9.27e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:14<04:00,  1.99s/it, pg=0.0314, rm=0.812, ret=-0.055, glen=162, tlen=846, kl=0.339, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:24<04:00,  1.99s/it, pg=0.223, rm=0.812, ret=-0.246, glen=152, tlen=1057.0, kl=0.31, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:24<09:03,  4.53s/it, pg=0.223, rm=0.812, ret=-0.246, glen=152, tlen=1057.0, kl=0.31, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:26<09:03,  4.53s/it, pg=0.173, rm=0.75, ret=-0.199, glen=165, tlen=738, kl=0.351, act_lr=9.27e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:26<07:31,  3.80s/it, pg=0.173, rm=0.75, ret=-0.199, glen=165, tlen=738, kl=0.351, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:28<07:31,  3.80s/it, pg=0.256, rm=0.812, ret=-0.282, glen=168, tlen=858, kl=0.336, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:28<06:29,  3.30s/it, pg=0.256, rm=0.812, ret=-0.282, glen=168, tlen=858, kl=0.336, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:31<06:29,  3.30s/it, pg=-0.0337, rm=1, ret=0.00947, glen=158, tlen=899, kl=0.346, act_lr=9.27e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:31<05:50,  2.99s/it, pg=-0.0337, rm=1, ret=0.00947, glen=158, tlen=899, kl=0.346, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:33<05:50,  2.99s/it, pg=-0.0939, rm=0.938, ret=0.0685, glen=176, tlen=902, kl=0.33, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:33<05:16,  2.73s/it, pg=-0.0939, rm=0.938, ret=0.0685, glen=176, tlen=902, kl=0.33, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:35<05:16,  2.73s/it, pg=0.0285, rm=0.938, ret=-0.0537, glen=169, tlen=723, kl=0.325, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:35<04:42,  2.45s/it, pg=0.0285, rm=0.938, ret=-0.0537, glen=169, tlen=723, kl=0.325, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:37<04:42,  2.45s/it, pg=-0.0151, rm=0.875, ret=-0.0107, glen=156, tlen=794, kl=0.342, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:37<04:32,  2.39s/it, pg=-0.0151, rm=0.875, ret=-0.0107, glen=156, tlen=794, kl=0.342, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:39<04:32,  2.39s/it, pg=0.124, rm=1, ret=-0.145, glen=159, tlen=987, kl=0.301, act_lr=9.27e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:39<04:19,  2.30s/it, pg=0.124, rm=1, ret=-0.145, glen=159, tlen=987, kl=0.301, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:48<04:19,  2.30s/it, pg=0.173, rm=0.812, ret=-0.198, glen=169, tlen=731, kl=0.334, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:48<08:12,  4.40s/it, pg=0.173, rm=0.812, ret=-0.198, glen=169, tlen=731, kl=0.334, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:12,  4.40s/it, pg=-0.0645, rm=0.938, ret=0.0398, glen=164, tlen=625, kl=0.315, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:50<06:32,  3.54s/it, pg=-0.0645, rm=0.938, ret=0.0398, glen=164, tlen=625, kl=0.315, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:51<06:32,  3.54s/it, pg=0.0589, rm=0.812, ret=-0.0871, glen=168, tlen=628, kl=0.355, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:51<05:19,  2.90s/it, pg=0.0589, rm=0.812, ret=-0.0871, glen=168, tlen=628, kl=0.355, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:53<05:19,  2.90s/it, pg=-0.124, rm=0.75, ret=0.0999, glen=171, tlen=867, kl=0.317, act_lr=9.27e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:53<04:47,  2.64s/it, pg=-0.124, rm=0.75, ret=0.0999, glen=171, tlen=867, kl=0.317, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:55<04:47,  2.64s/it, pg=-0.129, rm=0.875, ret=0.105, glen=169, tlen=775, kl=0.328, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:55<04:18,  2.39s/it, pg=-0.129, rm=0.875, ret=0.105, glen=169, tlen=775, kl=0.328, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:58<04:18,  2.39s/it, pg=0.1, rm=0.938, ret=-0.123, glen=162, tlen=951, kl=0.307, act_lr=9.27e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [00:58<04:18,  2.42s/it, pg=0.1, rm=0.938, ret=-0.123, glen=162, tlen=951, kl=0.307, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [00:59<04:18,  2.42s/it, pg=0.00295, rm=0.875, ret=-0.0276, glen=162, tlen=614, kl=0.336, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [00:59<03:54,  2.21s/it, pg=0.00295, rm=0.875, ret=-0.0276, glen=162, tlen=614, kl=0.336, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:02<03:54,  2.21s/it, pg=0.0286, rm=0.812, ret=-0.0515, glen=167, tlen=850, kl=0.309, act_lr=9.27e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:02<03:54,  2.23s/it, pg=0.0286, rm=0.812, ret=-0.0515, glen=167, tlen=850, kl=0.309, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:10<03:54,  2.23s/it, pg=-0.047, rm=1.19, ret=0.0233, glen=163, tlen=785, kl=0.324, act_lr=9.27e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:11<07:19,  4.23s/it, pg=-0.047, rm=1.19, ret=0.0233, glen=163, tlen=785, kl=0.324, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:12<07:19,  4.23s/it, pg=0.0849, rm=1, ret=-0.109, glen=165, tlen=643, kl=0.323, act_lr=9.27e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:12<05:53,  3.43s/it, pg=0.0849, rm=1, ret=-0.109, glen=165, tlen=643, kl=0.323, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:14<05:53,  3.43s/it, pg=0.0293, rm=0.938, ret=-0.0541, glen=155, tlen=885, kl=0.349, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:14<05:09,  3.04s/it, pg=0.0293, rm=0.938, ret=-0.0541, glen=155, tlen=885, kl=0.349, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:16<05:09,  3.04s/it, pg=-0.232, rm=0.938, ret=0.207, glen=162, tlen=678, kl=0.345, act_lr=9.27e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:16<04:28,  2.66s/it, pg=-0.232, rm=0.938, ret=0.207, glen=162, tlen=678, kl=0.345, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:18<04:28,  2.66s/it, pg=0.00373, rm=0.875, ret=-0.0267, glen=166, tlen=1006.0, kl=0.327, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:18<04:07,  2.47s/it, pg=0.00373, rm=0.875, ret=-0.0267, glen=166, tlen=1006.0, kl=0.327, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:20<04:07,  2.47s/it, pg=0.0121, rm=0.875, ret=-0.0369, glen=157, tlen=1059.75, kl=0.324, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:20<03:52,  2.35s/it, pg=0.0121, rm=0.875, ret=-0.0369, glen=157, tlen=1059.75, kl=0.324, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:22<03:52,  2.35s/it, pg=-0.11, rm=0.938, ret=0.0876, glen=158, tlen=963, kl=0.318, act_lr=9.27e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:22<03:43,  2.28s/it, pg=-0.11, rm=0.938, ret=0.0876, glen=158, tlen=963, kl=0.318, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:24<03:43,  2.28s/it, pg=-0.00755, rm=1.06, ret=-0.0193, glen=168, tlen=904, kl=0.344, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:24<03:29,  2.16s/it, pg=-0.00755, rm=1.06, ret=-0.0193, glen=168, tlen=904, kl=0.344, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:33<03:29,  2.16s/it, pg=0.198, rm=1.06, ret=-0.225, glen=156, tlen=705, kl=0.333, act_lr=9.27e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:33<06:45,  4.22s/it, pg=0.198, rm=1.06, ret=-0.225, glen=156, tlen=705, kl=0.333, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:35<06:45,  4.22s/it, pg=-0.0038, rm=0.875, ret=-0.0227, glen=180, tlen=696, kl=0.333, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:35<05:24,  3.41s/it, pg=-0.0038, rm=0.875, ret=-0.0227, glen=180, tlen=696, kl=0.333, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:37<05:24,  3.41s/it, pg=-0.166, rm=1.06, ret=0.141, glen=164, tlen=826, kl=0.329, act_lr=9.27e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:37<04:47,  3.06s/it, pg=-0.166, rm=1.06, ret=0.141, glen=164, tlen=826, kl=0.329, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:39<04:47,  3.06s/it, pg=0.159, rm=0.812, ret=-0.19, glen=168, tlen=666, kl=0.366, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:39<04:07,  2.66s/it, pg=0.159, rm=0.812, ret=-0.19, glen=168, tlen=666, kl=0.366, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:41<04:07,  2.66s/it, pg=-0.057, rm=0.812, ret=0.0315, glen=173, tlen=801, kl=0.336, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:41<03:49,  2.49s/it, pg=-0.057, rm=0.812, ret=0.0315, glen=173, tlen=801, kl=0.336, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:43<03:49,  2.49s/it, pg=0.198, rm=0.625, ret=-0.22, glen=150, tlen=925, kl=0.314, act_lr=9.27e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:43<03:33,  2.35s/it, pg=0.198, rm=0.625, ret=-0.22, glen=150, tlen=925, kl=0.314, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:45<03:33,  2.35s/it, pg=-0.131, rm=1.06, ret=0.105, glen=158, tlen=953, kl=0.348, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:45<03:29,  2.33s/it, pg=-0.131, rm=1.06, ret=0.105, glen=158, tlen=953, kl=0.348, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:46<03:29,  2.33s/it, pg=-0.0391, rm=1.06, ret=0.0158, glen=165, tlen=643, kl=0.308, act_lr=9.27e-7]
+[36m(ActorModelRayActor pid=286523)[0m [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:47<03:07,  2.11s/it, pg=-0.0391, rm=1.06, ret=0.0158, glen=165, tlen=643, kl=0.308, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:56<03:07,  2.11s/it, pg=0.17, rm=0.75, ret=-0.194, glen=166, tlen=1.03e+3, kl=0.328, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [01:56<06:10,  4.21s/it, pg=0.17, rm=0.75, ret=-0.194, glen=166, tlen=1.03e+3, kl=0.328, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [01:58<06:10,  4.21s/it, pg=-0.1, rm=1.19, ret=0.0733, glen=167, tlen=728, kl=0.339, act_lr=9.27e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [01:58<05:05,  3.51s/it, pg=-0.1, rm=1.19, ret=0.0733, glen=167, tlen=728, kl=0.339, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:00<05:05,  3.51s/it, pg=0.161, rm=1.06, ret=-0.187, glen=164, tlen=779, kl=0.339, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:00<04:24,  3.08s/it, pg=0.161, rm=1.06, ret=-0.187, glen=164, tlen=779, kl=0.339, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:02<04:24,  3.08s/it, pg=0.171, rm=0.75, ret=-0.195, glen=173, tlen=746, kl=0.308, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:02<03:56,  2.78s/it, pg=0.171, rm=0.75, ret=-0.195, glen=173, tlen=746, kl=0.308, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:04<03:56,  2.78s/it, pg=0.0307, rm=0.938, ret=-0.0572, glen=168, tlen=722, kl=0.348, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:04<03:36,  2.57s/it, pg=0.0307, rm=0.938, ret=-0.0572, glen=168, tlen=722, kl=0.348, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:06<03:36,  2.57s/it, pg=-0.0863, rm=0.875, ret=0.0612, glen=170, tlen=863, kl=0.338, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:06<03:15,  2.36s/it, pg=-0.0863, rm=0.875, ret=0.0612, glen=170, tlen=863, kl=0.338, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:08<03:15,  2.36s/it, pg=-0.0255, rm=1.12, ret=0.00113, glen=172, tlen=710, kl=0.325, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:08<03:10,  2.33s/it, pg=-0.0255, rm=1.12, ret=0.00113, glen=172, tlen=710, kl=0.325, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:10<03:10,  2.33s/it, pg=0.0286, rm=0.812, ret=-0.0522, glen=162, tlen=845, kl=0.322, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:10<03:00,  2.23s/it, pg=0.0286, rm=0.812, ret=-0.0522, glen=162, tlen=845, kl=0.322, act_lr=9.27e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:19<03:00,  2.23s/it, pg=-0.0774, rm=1, ret=0.054, glen=160, tlen=887, kl=0.324, act_lr=9.26e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:19<05:53,  4.42s/it, pg=-0.0774, rm=1, ret=0.054, glen=160, tlen=887, kl=0.324, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:22<05:53,  4.42s/it, pg=-0.00522, rm=0.875, ret=-0.0153, glen=171, tlen=765, kl=0.285, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:22<04:57,  3.77s/it, pg=-0.00522, rm=0.875, ret=-0.0153, glen=171, tlen=765, kl=0.285, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:23<04:57,  3.77s/it, pg=-0.0882, rm=0.938, ret=0.0623, glen=172, tlen=657, kl=0.341, act_lr=9.26e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:23<03:59,  3.07s/it, pg=-0.0882, rm=0.938, ret=0.0623, glen=172, tlen=657, kl=0.341, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:25<03:59,  3.07s/it, pg=0.0159, rm=0.875, ret=-0.0396, glen=162, tlen=677, kl=0.328, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:25<03:26,  2.68s/it, pg=0.0159, rm=0.875, ret=-0.0396, glen=162, tlen=677, kl=0.328, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:26<03:26,  2.68s/it, pg=0.0954, rm=0.812, ret=-0.121, glen=170, tlen=662, kl=0.339, act_lr=9.26e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:26<02:55,  2.31s/it, pg=0.0954, rm=0.812, ret=-0.121, glen=170, tlen=662, kl=0.339, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:28<02:55,  2.31s/it, pg=-0.0451, rm=1.12, ret=0.0184, glen=165, tlen=714, kl=0.357, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:28<02:44,  2.19s/it, pg=-0.0451, rm=1.12, ret=0.0184, glen=165, tlen=714, kl=0.357, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:31<02:44,  2.19s/it, pg=-0.108, rm=1.12, ret=0.0785, glen=186, tlen=746, kl=0.339, act_lr=9.26e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:31<02:43,  2.21s/it, pg=-0.108, rm=1.12, ret=0.0785, glen=186, tlen=746, kl=0.339, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:32<02:43,  2.21s/it, pg=-0.0818, rm=0.812, ret=0.0597, glen=167, tlen=873, kl=0.304, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:32<02:32,  2.09s/it, pg=-0.0818, rm=0.812, ret=0.0597, glen=167, tlen=873, kl=0.304, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:42<02:32,  2.09s/it, pg=0.153, rm=0.938, ret=-0.178, glen=160, tlen=955, kl=0.325, act_lr=9.26e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:42<05:06,  4.26s/it, pg=0.153, rm=0.938, ret=-0.178, glen=160, tlen=955, kl=0.325, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:44<05:06,  4.26s/it, pg=0.129, rm=1.06, ret=-0.154, glen=157, tlen=695, kl=0.332, act_lr=9.26e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:44<04:11,  3.54s/it, pg=0.129, rm=1.06, ret=-0.154, glen=157, tlen=695, kl=0.332, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:46<04:11,  3.54s/it, pg=-0.0658, rm=0.812, ret=0.0416, glen=174, tlen=944, kl=0.317, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:46<03:38,  3.12s/it, pg=-0.0658, rm=0.812, ret=0.0416, glen=174, tlen=944, kl=0.317, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:47<03:38,  3.12s/it, pg=-0.0183, rm=1.06, ret=-0.00824, glen=168, tlen=710, kl=0.367, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:47<03:06,  2.71s/it, pg=-0.0183, rm=1.06, ret=-0.00824, glen=168, tlen=710, kl=0.367, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:49<03:06,  2.71s/it, pg=0.0514, rm=0.812, ret=-0.0776, glen=169, tlen=775, kl=0.324, act_lr=9.26e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:49<02:46,  2.45s/it, pg=0.0514, rm=0.812, ret=-0.0776, glen=169, tlen=775, kl=0.324, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:51<02:46,  2.45s/it, pg=-0.104, rm=1.12, ret=0.0769, glen=182, tlen=742, kl=0.356, act_lr=9.26e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:51<02:35,  2.32s/it, pg=-0.104, rm=1.12, ret=0.0769, glen=182, tlen=742, kl=0.356, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:54<02:35,  2.32s/it, pg=-0.025, rm=0.812, ret=0.000559, glen=165, tlen=1.07e+3, kl=0.326, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [02:54<02:31,  2.29s/it, pg=-0.025, rm=0.812, ret=0.000559, glen=165, tlen=1.07e+3, kl=0.326, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [02:55<02:31,  2.29s/it, pg=0.226, rm=0.75, ret=-0.251, glen=161, tlen=732, kl=0.328, act_lr=9.26e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [02:55<02:19,  2.14s/it, pg=0.226, rm=0.75, ret=-0.251, glen=161, tlen=732, kl=0.328, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:04<02:19,  2.14s/it, pg=-0.0355, rm=1, ret=0.0108, glen=164, tlen=905, kl=0.325, act_lr=9.26e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:04<04:28,  4.19s/it, pg=-0.0355, rm=1, ret=0.0108, glen=164, tlen=905, kl=0.325, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:07<04:28,  4.19s/it, pg=-0.06, rm=0.875, ret=0.0368, glen=161, tlen=732, kl=0.315, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:07<03:52,  3.69s/it, pg=-0.06, rm=0.875, ret=0.0368, glen=161, tlen=732, kl=0.315, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:09<03:52,  3.69s/it, pg=0.141, rm=0.688, ret=-0.167, glen=161, tlen=849, kl=0.328, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:09<03:13,  3.13s/it, pg=0.141, rm=0.688, ret=-0.167, glen=161, tlen=849, kl=0.328, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:10<03:13,  3.13s/it, pg=0.0904, rm=1, ret=-0.118, glen=180, tlen=612, kl=0.349, act_lr=9.26e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:10<02:39,  2.61s/it, pg=0.0904, rm=1, ret=-0.118, glen=180, tlen=612, kl=0.349, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:12<02:39,  2.61s/it, pg=0.0752, rm=0.875, ret=-0.0996, glen=163, tlen=918, kl=0.307, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:12<02:26,  2.44s/it, pg=0.0752, rm=0.875, ret=-0.0996, glen=163, tlen=918, kl=0.307, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:14<02:26,  2.44s/it, pg=-0.0306, rm=0.875, ret=0.00773, glen=156, tlen=1.03e+3, kl=0.322, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:14<02:22,  2.41s/it, pg=-0.0306, rm=0.875, ret=0.00773, glen=156, tlen=1.03e+3, kl=0.322, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:16<02:22,  2.41s/it, pg=-0.0245, rm=1.06, ret=0.00269, glen=159, tlen=701, kl=0.318, act_lr=9.26e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:16<02:12,  2.29s/it, pg=-0.0245, rm=1.06, ret=0.00269, glen=159, tlen=701, kl=0.318, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:19<02:12,  2.29s/it, pg=-0.0371, rm=1, ret=0.0133, glen=154, tlen=943, kl=0.344, act_lr=9.26e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:19<02:09,  2.27s/it, pg=-0.0371, rm=1, ret=0.0133, glen=154, tlen=943, kl=0.344, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:28<02:09,  2.27s/it, pg=-0.00739, rm=1.06, ret=-0.0208, glen=174, tlen=910, kl=0.341, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:28<04:01,  4.30s/it, pg=-0.00739, rm=1.06, ret=-0.0208, glen=174, tlen=910, kl=0.341, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:30<04:01,  4.30s/it, pg=-0.104, rm=1, ret=0.0825, glen=168, tlen=722, kl=0.294, act_lr=9.26e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:30<03:20,  3.65s/it, pg=-0.104, rm=1, ret=0.0825, glen=168, tlen=722, kl=0.294, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:32<03:20,  3.65s/it, pg=-0.0231, rm=1, ret=-0.000959, glen=162, tlen=762, kl=0.335, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:32<02:47,  3.10s/it, pg=-0.0231, rm=1, ret=-0.000959, glen=162, tlen=762, kl=0.335, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:33<02:47,  3.10s/it, pg=-0.0131, rm=1, ret=-0.0106, glen=154, tlen=817, kl=0.327, act_lr=9.26e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:33<02:23,  2.71s/it, pg=-0.0131, rm=1, ret=-0.0106, glen=154, tlen=817, kl=0.327, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:35<02:23,  2.71s/it, pg=0.0875, rm=0.812, ret=-0.112, glen=162, tlen=854, kl=0.316, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:35<02:10,  2.51s/it, pg=0.0875, rm=0.812, ret=-0.112, glen=162, tlen=854, kl=0.316, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:38<02:10,  2.51s/it, pg=0.0762, rm=1, ret=-0.101, glen=164, tlen=781, kl=0.332, act_lr=9.26e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:38<02:01,  2.38s/it, pg=0.0762, rm=1, ret=-0.101, glen=164, tlen=781, kl=0.332, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:39<02:01,  2.38s/it, pg=0.0761, rm=0.812, ret=-0.0996, glen=159, tlen=808, kl=0.345, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:39<01:50,  2.21s/it, pg=0.0761, rm=0.812, ret=-0.0996, glen=159, tlen=808, kl=0.345, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:41<01:50,  2.21s/it, pg=0.0134, rm=0.688, ret=-0.0376, glen=165, tlen=975, kl=0.301, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:41<01:43,  2.11s/it, pg=0.0134, rm=0.688, ret=-0.0376, glen=165, tlen=975, kl=0.301, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:50<01:43,  2.11s/it, pg=0.0165, rm=1, ret=-0.0413, glen=164, tlen=772, kl=0.334, act_lr=9.26e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:50<03:19,  4.15s/it, pg=0.0165, rm=1, ret=-0.0413, glen=164, tlen=772, kl=0.334, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:52<03:19,  4.15s/it, pg=-0.0397, rm=0.625, ret=0.0165, glen=157, tlen=1035.0, kl=0.324, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [03:52<02:49,  3.61s/it, pg=-0.0397, rm=0.625, ret=0.0165, glen=157, tlen=1035.0, kl=0.324, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [03:55<02:49,  3.61s/it, pg=0.0293, rm=0.688, ret=-0.0536, glen=148, tlen=1.02e+3, kl=0.353, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [03:55<02:24,  3.13s/it, pg=0.0293, rm=0.688, ret=-0.0536, glen=148, tlen=1.02e+3, kl=0.353, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [03:56<02:24,  3.13s/it, pg=0.0599, rm=0.812, ret=-0.0864, glen=175, tlen=681, kl=0.337, act_lr=9.26e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [03:56<01:58,  2.63s/it, pg=0.0599, rm=0.812, ret=-0.0864, glen=175, tlen=681, kl=0.337, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [03:58<01:58,  2.63s/it, pg=0.0595, rm=0.688, ret=-0.0836, glen=177, tlen=873, kl=0.31, act_lr=9.26e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [03:58<01:48,  2.48s/it, pg=0.0595, rm=0.688, ret=-0.0836, glen=177, tlen=873, kl=0.31, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:00<01:48,  2.48s/it, pg=-0.258, rm=1.06, ret=0.232, glen=169, tlen=747, kl=0.312, act_lr=9.26e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:00<01:40,  2.34s/it, pg=-0.258, rm=1.06, ret=0.232, glen=169, tlen=747, kl=0.312, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:02<01:40,  2.34s/it, pg=0.112, rm=0.75, ret=-0.135, glen=156, tlen=1.06e+3, kl=0.317, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:02<01:32,  2.21s/it, pg=0.112, rm=0.75, ret=-0.135, glen=156, tlen=1.06e+3, kl=0.317, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:04<01:32,  2.21s/it, pg=0.0164, rm=0.875, ret=-0.0399, glen=165, tlen=681, kl=0.323, act_lr=9.26e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:04<01:26,  2.12s/it, pg=0.0164, rm=0.875, ret=-0.0399, glen=165, tlen=681, kl=0.323, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:13<01:26,  2.12s/it, pg=0.34, rm=0.688, ret=-0.36, glen=167, tlen=858, kl=0.333, act_lr=9.26e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:13<02:46,  4.17s/it, pg=0.34, rm=0.688, ret=-0.36, glen=167, tlen=858, kl=0.333, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:15<02:46,  4.17s/it, pg=0.324, rm=0.938, ret=-0.352, glen=168, tlen=785, kl=0.327, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:15<02:16,  3.49s/it, pg=0.324, rm=0.938, ret=-0.352, glen=168, tlen=785, kl=0.327, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:17<02:16,  3.49s/it, pg=0.154, rm=0.688, ret=-0.177, glen=153, tlen=841, kl=0.309, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:17<01:53,  2.98s/it, pg=0.154, rm=0.688, ret=-0.177, glen=153, tlen=841, kl=0.309, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:18<01:53,  2.98s/it, pg=0.217, rm=0.75, ret=-0.241, glen=173, tlen=633, kl=0.34, act_lr=9.26e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:18<01:38,  2.66s/it, pg=0.217, rm=0.75, ret=-0.241, glen=173, tlen=633, kl=0.34, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:21<01:38,  2.66s/it, pg=0.0301, rm=0.938, ret=-0.0559, glen=159, tlen=889, kl=0.353, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:21<01:29,  2.49s/it, pg=0.0301, rm=0.938, ret=-0.0559, glen=159, tlen=889, kl=0.353, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:22<01:29,  2.49s/it, pg=0.201, rm=0.938, ret=-0.224, glen=160, tlen=825, kl=0.338, act_lr=9.26e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:22<01:20,  2.29s/it, pg=0.201, rm=0.938, ret=-0.224, glen=160, tlen=825, kl=0.338, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:24<01:20,  2.29s/it, pg=0.193, rm=1, ret=-0.215, glen=149, tlen=847, kl=0.332, act_lr=9.26e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:24<01:13,  2.15s/it, pg=0.193, rm=1, ret=-0.215, glen=149, tlen=847, kl=0.332, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:26<01:13,  2.15s/it, pg=-0.0348, rm=0.875, ret=0.0118, glen=167, tlen=738, kl=0.307, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:26<01:07,  2.03s/it, pg=-0.0348, rm=0.875, ret=0.0118, glen=167, tlen=738, kl=0.307, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 14:58:29,606] [INFO] [timer.py:264:stop] epoch=0/micro_step=2400/global_step=300, RunningAvgSamplesPerSec=5.837140143206038, CurrSamplesPerSec=6.345539114573768, MemAllocated=3.56GB, MaxMemAllocated=21.15GB
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:35<01:07,  2.03s/it, pg=0.0598, rm=0.812, ret=-0.0842, glen=153, tlen=691, kl=0.347, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:35<02:09,  4.04s/it, pg=0.0598, rm=0.812, ret=-0.0842, glen=153, tlen=691, kl=0.347, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:37<02:09,  4.04s/it, pg=0.0996, rm=1, ret=-0.125, glen=165, tlen=707, kl=0.34, act_lr=9.26e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:37<01:47,  3.46s/it, pg=0.0996, rm=1, ret=-0.125, glen=165, tlen=707, kl=0.34, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:39<01:47,  3.46s/it, pg=-0.0651, rm=1.06, ret=0.0424, glen=156, tlen=821, kl=0.311, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:39<01:30,  3.00s/it, pg=-0.0651, rm=1.06, ret=0.0424, glen=156, tlen=821, kl=0.311, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:41<01:30,  3.00s/it, pg=0.0192, rm=1, ret=-0.046, glen=165, tlen=727, kl=0.36, act_lr=9.26e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:41<01:16,  2.65s/it, pg=0.0192, rm=1, ret=-0.046, glen=165, tlen=727, kl=0.36, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:43<01:16,  2.65s/it, pg=0.0764, rm=1, ret=-0.102, glen=165, tlen=782, kl=0.335, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:43<01:10,  2.52s/it, pg=0.0764, rm=1, ret=-0.102, glen=165, tlen=782, kl=0.335, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:45<01:10,  2.52s/it, pg=-0.00799, rm=0.938, ret=-0.019, glen=168, tlen=690, kl=0.336, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:45<01:02,  2.31s/it, pg=-0.00799, rm=0.938, ret=-0.019, glen=168, tlen=690, kl=0.336, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:47<01:02,  2.31s/it, pg=0.052, rm=0.812, ret=-0.0788, glen=169, tlen=775, kl=0.33, act_lr=9.26e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:47<00:58,  2.26s/it, pg=0.052, rm=0.812, ret=-0.0788, glen=169, tlen=775, kl=0.33, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:49<00:58,  2.26s/it, pg=-0.0515, rm=1.19, ret=0.0262, glen=157, tlen=929, kl=0.339, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [04:49<00:55,  2.20s/it, pg=-0.0515, rm=1.19, ret=0.0262, glen=157, tlen=929, kl=0.339, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [04:57<00:55,  2.20s/it, pg=0.0164, rm=0.75, ret=-0.0378, glen=170, tlen=922, kl=0.293, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [04:57<01:38,  4.10s/it, pg=0.0164, rm=0.75, ret=-0.0378, glen=170, tlen=922, kl=0.293, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [04:59<01:38,  4.10s/it, pg=-0.173, rm=0.875, ret=0.153, glen=166, tlen=815, kl=0.316, act_lr=9.26e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [04:59<01:19,  3.44s/it, pg=-0.173, rm=0.875, ret=0.153, glen=166, tlen=815, kl=0.316, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:01<01:19,  3.44s/it, pg=-0.0399, rm=1, ret=0.0158, glen=165, tlen=954, kl=0.306, act_lr=9.26e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:01<01:06,  3.02s/it, pg=-0.0399, rm=1, ret=0.0158, glen=165, tlen=954, kl=0.306, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:03<01:06,  3.02s/it, pg=0.0608, rm=0.812, ret=-0.0857, glen=171, tlen=756, kl=0.319, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:03<00:55,  2.64s/it, pg=0.0608, rm=0.812, ret=-0.0857, glen=171, tlen=756, kl=0.319, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:05<00:55,  2.64s/it, pg=-0.0626, rm=0.938, ret=0.0394, glen=169, tlen=676, kl=0.309, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:05<00:47,  2.36s/it, pg=-0.0626, rm=0.938, ret=0.0394, glen=169, tlen=676, kl=0.309, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:07<00:47,  2.36s/it, pg=0.0154, rm=1, ret=-0.0397, glen=156, tlen=717, kl=0.342, act_lr=9.26e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:07<00:41,  2.20s/it, pg=0.0154, rm=1, ret=-0.0397, glen=156, tlen=717, kl=0.342, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:09<00:41,  2.20s/it, pg=0.0445, rm=0.812, ret=-0.0686, glen=162, tlen=908, kl=0.341, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:09<00:40,  2.27s/it, pg=0.0445, rm=0.812, ret=-0.0686, glen=162, tlen=908, kl=0.341, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:11<00:40,  2.27s/it, pg=0.00285, rm=1, ret=-0.0282, glen=161, tlen=956, kl=0.355, act_lr=9.26e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:11<00:37,  2.22s/it, pg=0.00285, rm=1, ret=-0.0282, glen=161, tlen=956, kl=0.355, act_lr=9.26e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:19<00:37,  2.22s/it, pg=0.0628, rm=0.875, ret=-0.0881, glen=166, tlen=673, kl=0.33, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:19<01:03,  4.00s/it, pg=0.0628, rm=0.875, ret=-0.0881, glen=166, tlen=673, kl=0.33, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:22<01:03,  4.00s/it, pg=0.0856, rm=0.75, ret=-0.107, glen=157, tlen=926, kl=0.312, act_lr=9.25e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:22<00:52,  3.52s/it, pg=0.0856, rm=0.75, ret=-0.107, glen=157, tlen=926, kl=0.312, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:24<00:52,  3.52s/it, pg=0.205, rm=1.06, ret=-0.222, glen=162, tlen=711, kl=0.305, act_lr=9.25e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:24<00:43,  3.08s/it, pg=0.205, rm=1.06, ret=-0.222, glen=162, tlen=711, kl=0.305, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:26<00:43,  3.08s/it, pg=0.0852, rm=0.75, ret=-0.106, glen=159, tlen=929, kl=0.303, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:26<00:35,  2.72s/it, pg=0.0852, rm=0.75, ret=-0.106, glen=159, tlen=929, kl=0.303, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:27<00:35,  2.72s/it, pg=0.157, rm=0.688, ret=-0.181, glen=163, tlen=915, kl=0.327, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:27<00:29,  2.46s/it, pg=0.157, rm=0.688, ret=-0.181, glen=163, tlen=915, kl=0.327, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:29<00:29,  2.46s/it, pg=-0.0318, rm=0.875, ret=0.00759, glen=181, tlen=673, kl=0.328, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:29<00:23,  2.15s/it, pg=-0.0318, rm=0.875, ret=0.00759, glen=181, tlen=673, kl=0.328, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:31<00:23,  2.15s/it, pg=-0.262, rm=0.938, ret=0.24, glen=158, tlen=843, kl=0.334, act_lr=9.25e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:31<00:20,  2.07s/it, pg=-0.262, rm=0.938, ret=0.24, glen=158, tlen=843, kl=0.334, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:33<00:20,  2.07s/it, pg=-0.201, rm=1, ret=0.179, glen=158, tlen=886, kl=0.329, act_lr=9.25e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:33<00:18,  2.09s/it, pg=-0.201, rm=1, ret=0.179, glen=158, tlen=886, kl=0.329, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:42<00:18,  2.09s/it, pg=-0.0156, rm=0.75, ret=-0.00848, glen=154, tlen=1.03e+3, kl=0.322, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:42<00:33,  4.17s/it, pg=-0.0156, rm=0.75, ret=-0.00848, glen=154, tlen=1.03e+3, kl=0.322, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:44<00:33,  4.17s/it, pg=-0.0469, rm=0.938, ret=0.0206, glen=185, tlen=757, kl=0.311, act_lr=9.25e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:44<00:25,  3.60s/it, pg=-0.0469, rm=0.938, ret=0.0206, glen=185, tlen=757, kl=0.311, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:48<00:25,  3.60s/it, pg=0.302, rm=1.09, ret=-0.329, glen=414, tlen=975, kl=0.132, act_lr=9.25e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [05:48<00:21,  3.52s/it, pg=0.302, rm=1.09, ret=-0.329, glen=414, tlen=975, kl=0.132, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [05:49<00:21,  3.52s/it, pg=-0.0108, rm=0.812, ret=-0.0172, glen=185, tlen=700, kl=0.357, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [05:49<00:14,  2.89s/it, pg=-0.0108, rm=0.812, ret=-0.0172, glen=185, tlen=700, kl=0.357, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [05:51<00:14,  2.89s/it, pg=0.0475, rm=0.812, ret=-0.0731, glen=164, tlen=936, kl=0.349, act_lr=9.25e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [05:51<00:10,  2.63s/it, pg=0.0475, rm=0.812, ret=-0.0731, glen=164, tlen=936, kl=0.349, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [05:53<00:10,  2.63s/it, pg=-0.114, rm=1, ret=0.0911, glen=164, tlen=956, kl=0.308, act_lr=9.25e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [05:53<00:07,  2.56s/it, pg=-0.114, rm=1, ret=0.0911, glen=164, tlen=956, kl=0.308, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [05:55<00:07,  2.56s/it, pg=0.0467, rm=1.25, ret=-0.0734, glen=171, tlen=703, kl=0.331, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [05:55<00:04,  2.34s/it, pg=0.0467, rm=1.25, ret=-0.0734, glen=171, tlen=703, kl=0.331, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [05:57<00:04,  2.34s/it, pg=0.125, rm=1, ret=-0.148, glen=161, tlen=989, kl=0.313, act_lr=9.25e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [05:57<00:02,  2.25s/it, pg=0.125, rm=1, ret=-0.148, glen=161, tlen=989, kl=0.313, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:06<00:02,  2.25s/it, pg=-0.0514, rm=1.12, ret=0.027, glen=155, tlen=893, kl=0.347, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:06<00:00,  4.26s/it, pg=-0.0514, rm=1.12, ret=0.027, glen=155, tlen=893, kl=0.347, act_lr=9.25e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:06<00:00,  2.86s/it, pg=-0.0514, rm=1.12, ret=0.027, glen=155, tlen=893, kl=0.347, act_lr=9.25e-7]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:00:03 [executor_base.py:219] It took 1.636624 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279381)[0m INFO 05-28 15:00:04 [executor_base.py:219] It took 3.290420 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m update weight: model.layers.2.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 3319x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.11.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 903x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.20.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 864x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:00:26 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:00:26 [executor_base.py:208] It took 1.416005 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 695x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  14%|█▍        | 18/127 [3:47:09<21:03:33, 695.54s/it, policy_loss=0.0296, actor_lr=9.26e-7, kl=0.328, reward=0.911, response_length=166, total_length=818, acc_rewards=0.412, format_rewards=0.5, return=-0.0541]
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  15%|█▍        | 19/127 [3:47:09<20:53:04, 696.15s/it, policy_loss=0.0296, actor_lr=9.26e-7, kl=0.328, reward=0.911, response_length=166, total_length=818, acc_rewards=0.412, format_rewards=0.5, return=-0.0541]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:00:28 [executor_base.py:219] It took 1.501371 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   0%|          | 1/256 [00:23<1:38:07, 23.09s/it, est. speed input: 67.00 toks/s, output: 3.46 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   4%|▍         | 11/256 [00:24<02:58,  1.38it/s, est. speed input: 558.31 toks/s, output: 50.61 toks/s]
+Processed prompts:   6%|▌         | 15/256 [00:24<01:34,  2.54it/s, est. speed input: 628.02 toks/s, output: 70.71 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  88%|████████▊ | 225/256 [00:26<00:00, 122.30it/s, est. speed input: 5676.57 toks/s, output: 1353.21 toks/s]
+Processed prompts:  93%|█████████▎| 238/256 [00:26<00:00, 121.13it/s, est. speed input: 6012.29 toks/s, output: 1446.60 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  98%|█████████▊| 251/256 [00:27<00:00, 86.95it/s, est. speed input: 6315.12 toks/s, output: 1537.33 toks/s] 
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.32it/s, est. speed input: 6336.31 toks/s, output: 1563.35 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  86%|████████▋ | 221/256 [00:20<00:00, 122.67it/s, est. speed input: 5179.33 toks/s, output: 1728.62 toks/s][32m [repeated 70x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  91%|█████████▏| 234/256 [00:20<00:00, 98.83it/s, est. speed input: 5468.20 toks/s, output: 1841.73 toks/s] 
+Processed prompts:  96%|█████████▌| 245/256 [00:20<00:00, 97.55it/s, est. speed input: 5705.69 toks/s, output: 1945.47 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:21<00:00, 49.28it/s, est. speed input: 5838.86 toks/s, output: 2019.42 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:21<00:00, 12.17it/s, est. speed input: 5838.86 toks/s, output: 2019.42 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  64%|██████▍   | 165/256 [00:28<00:00, 124.17it/s, est. speed input: 4722.68 toks/s, output: 834.97 toks/s]
+Processed prompts:  73%|███████▎  | 186/256 [00:28<00:00, 140.62it/s, est. speed input: 5219.88 toks/s, output: 955.96 toks/s][32m [repeated 39x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  86%|████████▌ | 219/256 [00:29<00:00, 145.03it/s, est. speed input: 5898.04 toks/s, output: 1151.62 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:29<00:00, 135.29it/s, est. speed input: 6142.80 toks/s, output: 1243.09 toks/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:30<00:00,  8.36it/s, est. speed input: 6401.25 toks/s, output: 1336.82 toks/s] [32m [repeated 8x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  10%|▉         | 25/256 [00:30<00:57,  4.04it/s, est. speed input: 998.61 toks/s, output: 92.23 toks/s][32m [repeated 15x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  91%|█████████▏| 234/256 [00:28<00:00, 108.59it/s, est. speed input: 6304.96 toks/s, output: 1196.19 toks/s]
+Processed prompts:  96%|█████████▌| 246/256 [00:28<00:00, 106.34it/s, est. speed input: 6474.06 toks/s, output: 1274.68 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  61%|██████    | 155/256 [00:31<00:00, 111.02it/s, est. speed input: 4882.49 toks/s, output: 679.66 toks/s]
+Processed prompts:  67%|██████▋   | 171/256 [00:32<00:00, 117.85it/s, est. speed input: 5201.54 toks/s, output: 759.99 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:34<00:00,  7.51it/s, est. speed input: 6553.51 toks/s, output: 1198.39 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 1/256 [00:29<2:06:26, 29.75s/it, est. speed input: 52.03 toks/s, output: 3.03 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  77%|███████▋  | 196/256 [00:32<00:00, 111.44it/s, est. speed input: 5733.47 toks/s, output: 889.27 toks/s]
+Processed prompts:  82%|████████▏ | 209/256 [00:32<00:00, 110.89it/s, est. speed input: 6079.76 toks/s, output: 959.52 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   1%|          | 3/256 [00:30<29:25,  6.98s/it, est. speed input: 152.03 toks/s, output: 9.48 toks/s]
+Processed prompts:   2%|▏         | 5/256 [00:30<12:50,  3.07s/it, est. speed input: 176.86 toks/s, output: 16.48 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   4%|▎         | 9/256 [00:30<04:54,  1.19s/it, est. speed input: 302.03 toks/s, output: 30.77 toks/s]
+Processed prompts:   5%|▌         | 13/256 [00:30<02:38,  1.54it/s, est. speed input: 500.58 toks/s, output: 45.31 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  14%|█▎        | 35/256 [00:31<00:20, 10.91it/s, est. speed input: 1190.72 toks/s, output: 130.27 toks/s]
+Processed prompts:  17%|█▋        | 43/256 [00:31<00:13, 15.99it/s, est. speed input: 1470.88 toks/s, output: 162.28 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  23%|██▎       | 58/256 [00:31<00:07, 27.66it/s, est. speed input: 1911.37 toks/s, output: 223.91 toks/s]
+Processed prompts:  26%|██▌       | 66/256 [00:31<00:05, 34.37it/s, est. speed input: 2182.47 toks/s, output: 257.52 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  31%|███       | 79/256 [00:32<00:06, 29.10it/s, est. speed input: 2594.18 toks/s, output: 309.41 toks/s]
+Processed prompts:  36%|███▌      | 91/256 [00:32<00:04, 39.59it/s, est. speed input: 2916.73 toks/s, output: 361.02 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  39%|███▉      | 100/256 [00:32<00:03, 46.34it/s, est. speed input: 3193.74 toks/s, output: 400.08 toks/s]
+Processed prompts:  43%|████▎     | 110/256 [00:32<00:02, 55.23it/s, est. speed input: 3521.13 toks/s, output: 444.30 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  55%|█████▌    | 141/256 [00:33<00:01, 86.76it/s, est. speed input: 4445.25 toks/s, output: 586.15 toks/s]
+Processed prompts:  62%|██████▎   | 160/256 [00:33<00:00, 109.52it/s, est. speed input: 4853.14 toks/s, output: 676.85 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  76%|███████▌  | 195/256 [00:33<00:00, 117.19it/s, est. speed input: 5450.24 toks/s, output: 847.75 toks/s]
+Processed prompts:  82%|████████▏ | 209/256 [00:33<00:00, 117.60it/s, est. speed input: 5723.03 toks/s, output: 919.04 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:00:26 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.34 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:00:26 [executor_base.py:208] It took 1.596132 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:00:30 [executor_base.py:219] It took 3.214636 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=287375)[0m ele.get("min_pixels" 3136[32m [repeated 980x across cluster][0m
+[36m(ActorModelRayActor pid=287375)[0m ele.get("max_pixels" 1254400[32m [repeated 980x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 683x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 683x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:02:24 [worker.py:133] Sleep mode freed 38.53 GiB memory, 22.29 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:02:24 [executor_base.py:208] It took 1.417825 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287372)[0m ele.get("min_pixels" 3136[32m [repeated 363x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("max_pixels" 1254400[32m [repeated 363x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:34<00:00,  7.43it/s, est. speed input: 6386.58 toks/s, output: 1164.67 toks/s][32m [repeated 3x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  87%|████████▋ | 222/256 [00:33<00:00, 118.22it/s, est. speed input: 5947.44 toks/s, output: 986.93 toks/s][32m [repeated 8x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:48,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:48,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<02:55,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<02:49,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:06<02:49,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:46,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:09<02:45,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:10<02:41,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:41,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:13<02:42,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:15<02:39,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:16<02:37,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:17<02:36,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:19<02:33,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:20<02:32,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:21<02:33,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:23<02:29,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:24<02:28,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:25<02:25,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:27<02:24,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:28<02:19,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:29<02:19,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:30<02:17,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:32<02:16,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:33<02:13,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:34<02:16,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:36<02:12,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:37<02:09,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:38<02:10,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:40<02:07,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:41<02:06,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:42<02:06,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:44<02:07,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:45<02:04,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:46<02:04,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:48<02:05,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:49<02:02,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:51<02:04,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:52<02:00,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:53<01:59,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:55<01:58,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:56<01:57,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:57<01:57,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:59<01:56,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [01:00<01:53,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:01<01:51,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:03<01:51,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:04<01:47,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:05<01:46,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:07<01:44,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:08<01:42,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:09<01:41,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:11<01:40,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:12<01:39,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:13<01:37,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:15<01:35,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:16<01:36,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:17<01:34,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:19<01:35,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:20<01:32,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:22<01:32,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:23<01:30,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:24<01:29,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:26<01:28,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:27<01:26,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:29<01:25,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:30<01:22,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:31<01:20,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:33<01:21,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:34<01:20,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:35<01:18,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:37<01:16,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:38<01:15,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:40<01:14,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:41<01:12,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:42<01:11,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:44<01:10,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:45<01:09,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:46<01:07,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:48<01:05,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:49<01:03,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:50<01:01,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:52<01:00,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:53<00:58,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:54<00:56,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:56<00:54,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:57<00:53,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:58<00:52,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [02:00<00:51,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [02:01<00:51,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:02<00:49,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:04<00:49,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:05<00:48,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:07<00:47,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:08<00:46,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:09<00:45,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:11<00:44,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:13<00:43,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:14<00:42,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:16<00:41,  1.48s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:17<00:40,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:19<00:39,  1.51s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:20<00:38,  1.52s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:22<00:36,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:23<00:33,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:24<00:31,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:26<00:29,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:27<00:27,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:28<00:25,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:30<00:24,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:31<00:22,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:32<00:20,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:34<00:20,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:35<00:19,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:36<00:18,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:38<00:17,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:39<00:15,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:41<00:14,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████���| 119/128 [02:42<00:13,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:44<00:11,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:45<00:09,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:46<00:08,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:48<00:06,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:49<00:05,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:50<00:04,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:52<00:02,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:53<00:01,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:55<00:00,  1.38s/it][A
+make_experience: 100%|██████████| 128/128 [02:55<00:00,  1.37s/it]
+[36m(ActorModelRayActor pid=286523)[0m ["system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nPlease rate the aesthetics of this picture on a scale from 0 to 5, as a float rounded to two decimal places. A rating of 0 represents very poor aesthetic quality, while 5 represents excellent aesthetic quality.\nassistant\n<think>The image shows a close-up of a clenched fist, with a focus on the texture and detail of the skin. The monochromatic color scheme adds a sense of simplicity and raw emotion to the image. The composition is straightforward, with the fist taking up most of the frame, which could be seen as emphasizing the subject's strength or determination. The image might be interpreted as conveying a sense of power or intent. However, it lacks context, which could diminish the image's ability to evoke a full story or emotion. The photograph could be more engaging if it provided a bit more context or a different angle that showcases the subject in a broader sense. Overall, the image has a gritty, raw quality that could be considered 2.5 on the aesthetic scale, due to its textual focus and immediate emotive impact, but it could benefit from a slightly more dynamic composition or context to enhance its visual appeal.</think>\n<answer>2.50</answer>"]
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:02:24 [worker.py:133] Sleep mode freed 38.22 GiB memory, 22.54 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:02:24 [executor_base.py:208] It took 1.674366 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("min_pixels" 3136[32m [repeated 20x across cluster][0m
+[36m(ActorModelRayActor pid=287372)[0m ele.get("max_pixels" 1254400[32m [repeated 20x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=-0.031, rm=0.875, ret=0.00937, glen=147, tlen=1.04e+3, kl=0.311, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<04:52,  2.30s/it, pg=-0.031, rm=0.875, ret=0.00937, glen=147, tlen=1.04e+3, kl=0.311, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:04<04:52,  2.30s/it, pg=0.00892, rm=1, ret=-0.0341, glen=166, tlen=759, kl=0.33, act_lr=9.25e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:04<04:58,  2.37s/it, pg=0.00892, rm=1, ret=-0.0341, glen=166, tlen=759, kl=0.33, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<04:58,  2.37s/it, pg=0.163, rm=0.75, ret=-0.189, glen=151, tlen=805, kl=0.385, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<04:53,  2.35s/it, pg=0.163, rm=0.75, ret=-0.189, glen=151, tlen=805, kl=0.385, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:09<04:53,  2.35s/it, pg=0.0499, rm=0.812, ret=-0.0746, glen=160, tlen=913, kl=0.322, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:09<05:05,  2.46s/it, pg=0.0499, rm=0.812, ret=-0.0746, glen=160, tlen=913, kl=0.322, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:11<05:05,  2.46s/it, pg=0.202, rm=0.812, ret=-0.223, glen=151, tlen=771, kl=0.309, act_lr=9.25e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:11<04:54,  2.40s/it, pg=0.202, rm=0.812, ret=-0.223, glen=151, tlen=771, kl=0.309, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:13<04:54,  2.40s/it, pg=-0.175, rm=0.75, ret=0.148, glen=158, tlen=773, kl=0.364, act_lr=9.25e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:13<04:36,  2.26s/it, pg=-0.175, rm=0.75, ret=0.148, glen=158, tlen=773, kl=0.364, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:36,  2.26s/it, pg=0.0421, rm=0.812, ret=-0.0648, glen=146, tlen=946, kl=0.338, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:21,  2.16s/it, pg=0.0421, rm=0.812, ret=-0.0648, glen=146, tlen=946, kl=0.338, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:26<04:21,  2.16s/it, pg=-0.0898, rm=1.25, ret=0.0647, glen=163, tlen=1.06e+3, kl=0.342, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:26<09:31,  4.76s/it, pg=-0.0898, rm=1.25, ret=0.0647, glen=163, tlen=1.06e+3, kl=0.342, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:28<09:31,  4.76s/it, pg=0.134, rm=0.875, ret=-0.158, glen=156, tlen=879, kl=0.345, act_lr=9.25e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:28<07:41,  3.88s/it, pg=0.134, rm=0.875, ret=-0.158, glen=156, tlen=879, kl=0.345, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:30<07:41,  3.88s/it, pg=0.115, rm=0.938, ret=-0.137, glen=165, tlen=932, kl=0.314, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:30<06:24,  3.26s/it, pg=0.115, rm=0.938, ret=-0.137, glen=165, tlen=932, kl=0.314, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:31<06:24,  3.26s/it, pg=0.0213, rm=0.812, ret=-0.0466, glen=152, tlen=766, kl=0.357, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:31<05:29,  2.82s/it, pg=0.0213, rm=0.812, ret=-0.0466, glen=152, tlen=766, kl=0.357, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:33<05:29,  2.82s/it, pg=-0.0163, rm=0.812, ret=-0.0101, glen=162, tlen=768, kl=0.337, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:33<04:52,  2.53s/it, pg=-0.0163, rm=0.812, ret=-0.0101, glen=162, tlen=768, kl=0.337, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:35<04:52,  2.53s/it, pg=0.139, rm=0.75, ret=-0.158, glen=157, tlen=842, kl=0.308, act_lr=9.25e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:35<04:35,  2.40s/it, pg=0.139, rm=0.75, ret=-0.158, glen=157, tlen=842, kl=0.308, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:38<04:35,  2.40s/it, pg=0.0448, rm=1, ret=-0.0671, glen=152, tlen=756, kl=0.338, act_lr=9.25e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:39,  2.45s/it, pg=0.0448, rm=1, ret=-0.0671, glen=152, tlen=756, kl=0.338, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:40<04:39,  2.45s/it, pg=0.0331, rm=0.875, ret=-0.0599, glen=170, tlen=764, kl=0.341, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:40<04:33,  2.42s/it, pg=0.0331, rm=0.875, ret=-0.0599, glen=170, tlen=764, kl=0.341, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 15:06:16,805] [WARNING] [stage3.py:2139:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:50<04:33,  2.42s/it, pg=0.144, rm=0.938, ret=-0.166, glen=150, tlen=961, kl=0.323, act_lr=9.25e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:31,  4.56s/it, pg=0.144, rm=0.938, ret=-0.166, glen=150, tlen=961, kl=0.323, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:52<08:31,  4.56s/it, pg=-0.0159, rm=1.06, ret=-0.00572, glen=157, tlen=963, kl=0.321, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<07:09,  3.87s/it, pg=-0.0159, rm=1.06, ret=-0.00572, glen=157, tlen=963, kl=0.321, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:54<07:09,  3.87s/it, pg=0.0715, rm=1, ret=-0.0934, glen=149, tlen=1.1e+3, kl=0.331, act_lr=9.25e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:54<06:14,  3.40s/it, pg=0.0715, rm=1, ret=-0.0934, glen=149, tlen=1.1e+3, kl=0.331, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:56<06:14,  3.40s/it, pg=0.0501, rm=0.812, ret=-0.0763, glen=152, tlen=904, kl=0.353, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:56<05:27,  3.01s/it, pg=0.0501, rm=0.812, ret=-0.0763, glen=152, tlen=904, kl=0.353, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:59<05:27,  3.01s/it, pg=-0.0155, rm=1.06, ret=-0.00805, glen=156, tlen=962, kl=0.338, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:59<04:57,  2.75s/it, pg=-0.0155, rm=1.06, ret=-0.00805, glen=156, tlen=962, kl=0.338, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:00<04:57,  2.75s/it, pg=0.0467, rm=0.75, ret=-0.0713, glen=173, tlen=797, kl=0.323, act_lr=9.25e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:00<04:24,  2.47s/it, pg=0.0467, rm=0.75, ret=-0.0713, glen=173, tlen=797, kl=0.323, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:02<04:24,  2.47s/it, pg=0.0302, rm=0.625, ret=-0.0551, glen=170, tlen=808, kl=0.325, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:02<04:06,  2.32s/it, pg=0.0302, rm=0.625, ret=-0.0551, glen=170, tlen=808, kl=0.325, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:04<04:06,  2.32s/it, pg=0.111, rm=0.938, ret=-0.135, glen=158, tlen=1.03e+3, kl=0.333, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:04<03:55,  2.24s/it, pg=0.111, rm=0.938, ret=-0.135, glen=158, tlen=1.03e+3, kl=0.333, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:14<03:55,  2.24s/it, pg=0.03, rm=0.938, ret=-0.055, glen=165, tlen=860, kl=0.334, act_lr=9.25e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:14<07:31,  4.34s/it, pg=0.03, rm=0.938, ret=-0.055, glen=165, tlen=860, kl=0.334, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:16<07:31,  4.34s/it, pg=-0.123, rm=1, ret=0.0973, glen=170, tlen=845, kl=0.313, act_lr=9.25e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:16<06:31,  3.80s/it, pg=-0.123, rm=1, ret=0.0973, glen=170, tlen=845, kl=0.313, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:18<06:31,  3.80s/it, pg=-0.00923, rm=0.875, ret=-0.0151, glen=165, tlen=752, kl=0.326, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:18<05:36,  3.30s/it, pg=-0.00923, rm=0.875, ret=-0.0151, glen=165, tlen=752, kl=0.326, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:21<05:36,  3.30s/it, pg=0.0605, rm=0.875, ret=-0.0844, glen=163, tlen=773, kl=0.326, act_lr=9.25e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:21<05:02,  3.00s/it, pg=0.0605, rm=0.875, ret=-0.0844, glen=163, tlen=773, kl=0.326, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:23<05:02,  3.00s/it, pg=-0.0205, rm=0.812, ret=-0.0048, glen=163, tlen=845, kl=0.346, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:23<04:34,  2.74s/it, pg=-0.0205, rm=0.812, ret=-0.0048, glen=163, tlen=845, kl=0.346, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:25<04:34,  2.74s/it, pg=-0.208, rm=1.12, ret=0.186, glen=154, tlen=1.11e+3, kl=0.306, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:25<04:24,  2.68s/it, pg=-0.208, rm=1.12, ret=0.186, glen=154, tlen=1.11e+3, kl=0.306, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:27<04:24,  2.68s/it, pg=-0.0964, rm=1.19, ret=0.0749, glen=158, tlen=1.06e+3, kl=0.302, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:27<04:04,  2.50s/it, pg=-0.0964, rm=1.19, ret=0.0749, glen=158, tlen=1.06e+3, kl=0.302, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:29<04:04,  2.50s/it, pg=0.197, rm=0.938, ret=-0.222, glen=163, tlen=847, kl=0.327, act_lr=9.25e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:29<03:43,  2.31s/it, pg=0.197, rm=0.938, ret=-0.222, glen=163, tlen=847, kl=0.327, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:38<03:43,  2.31s/it, pg=-0.0905, rm=0.875, ret=0.0659, glen=157, tlen=756, kl=0.319, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:38<06:51,  4.29s/it, pg=-0.0905, rm=0.875, ret=0.0659, glen=157, tlen=756, kl=0.319, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:40<06:51,  4.29s/it, pg=0.0453, rm=0.812, ret=-0.0704, glen=158, tlen=904, kl=0.347, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:40<05:41,  3.59s/it, pg=0.0453, rm=0.812, ret=-0.0704, glen=158, tlen=904, kl=0.347, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:42<05:41,  3.59s/it, pg=-0.275, rm=1.12, ret=0.25, glen=160, tlen=916, kl=0.336, act_lr=9.25e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:42<04:53,  3.12s/it, pg=-0.275, rm=1.12, ret=0.25, glen=160, tlen=916, kl=0.336, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:45<04:53,  3.12s/it, pg=0.0562, rm=1, ret=-0.0778, glen=161, tlen=979, kl=0.305, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:45<04:30,  2.91s/it, pg=0.0562, rm=1, ret=-0.0778, glen=161, tlen=979, kl=0.305, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:47<04:30,  2.91s/it, pg=-0.0421, rm=1.06, ret=0.0177, glen=164, tlen=818, kl=0.318, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:47<04:03,  2.65s/it, pg=-0.0421, rm=1.06, ret=0.0177, glen=164, tlen=818, kl=0.318, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:49<04:03,  2.65s/it, pg=0.206, rm=0.875, ret=-0.228, glen=166, tlen=909, kl=0.312, act_lr=9.25e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:49<03:50,  2.53s/it, pg=0.206, rm=0.875, ret=-0.228, glen=166, tlen=909, kl=0.312, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:51<03:50,  2.53s/it, pg=0.101, rm=1.06, ret=-0.127, glen=159, tlen=989, kl=0.345, act_lr=9.25e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:51<03:33,  2.37s/it, pg=0.101, rm=1.06, ret=-0.127, glen=159, tlen=989, kl=0.345, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:54<03:33,  2.37s/it, pg=-0.0235, rm=1, ret=-0.000477, glen=164, tlen=840, kl=0.32, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:54<03:38,  2.46s/it, pg=-0.0235, rm=1, ret=-0.000477, glen=164, tlen=840, kl=0.32, act_lr=9.25e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:03<03:38,  2.46s/it, pg=0.0476, rm=0.812, ret=-0.0695, glen=148, tlen=901, kl=0.315, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:03<06:40,  4.55s/it, pg=0.0476, rm=0.812, ret=-0.0695, glen=148, tlen=901, kl=0.315, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:05<06:40,  4.55s/it, pg=-0.154, rm=0.938, ret=0.129, glen=161, tlen=938, kl=0.321, act_lr=9.24e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:05<05:34,  3.85s/it, pg=-0.154, rm=0.938, ret=0.129, glen=161, tlen=938, kl=0.321, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:07<05:34,  3.85s/it, pg=0.092, rm=0.875, ret=-0.114, glen=141, tlen=1152.5, kl=0.335, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:07<04:45,  3.32s/it, pg=0.092, rm=0.875, ret=-0.114, glen=141, tlen=1152.5, kl=0.335, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:09<04:45,  3.32s/it, pg=0.161, rm=0.75, ret=-0.186, glen=170, tlen=769, kl=0.321, act_lr=9.24e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:09<04:05,  2.89s/it, pg=0.161, rm=0.75, ret=-0.186, glen=170, tlen=769, kl=0.321, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:11<04:05,  2.89s/it, pg=-0.0786, rm=0.938, ret=0.0567, glen=161, tlen=759, kl=0.321, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:11<03:40,  2.62s/it, pg=-0.0786, rm=0.938, ret=0.0567, glen=161, tlen=759, kl=0.321, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:13<03:40,  2.62s/it, pg=0.0411, rm=0.812, ret=-0.0626, glen=143, tlen=944, kl=0.328, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:13<03:19,  2.41s/it, pg=0.0411, rm=0.812, ret=-0.0626, glen=143, tlen=944, kl=0.328, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:15<03:19,  2.41s/it, pg=0.276, rm=0.875, ret=-0.297, glen=156, tlen=812, kl=0.325, act_lr=9.24e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:15<03:09,  2.31s/it, pg=0.276, rm=0.875, ret=-0.297, glen=156, tlen=812, kl=0.325, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:17<03:09,  2.31s/it, pg=0.000835, rm=1.06, ret=-0.0254, glen=159, tlen=751, kl=0.342, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:17<02:56,  2.18s/it, pg=0.000835, rm=1.06, ret=-0.0254, glen=159, tlen=751, kl=0.342, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:26<02:56,  2.18s/it, pg=0.215, rm=0.75, ret=-0.239, glen=162, tlen=783, kl=0.337, act_lr=9.24e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:26<05:45,  4.32s/it, pg=0.215, rm=0.75, ret=-0.239, glen=162, tlen=783, kl=0.337, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:28<05:45,  4.32s/it, pg=0.0269, rm=0.875, ret=-0.0501, glen=166, tlen=784, kl=0.302, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:28<04:44,  3.60s/it, pg=0.0269, rm=0.875, ret=-0.0501, glen=166, tlen=784, kl=0.302, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:31<04:44,  3.60s/it, pg=0.0463, rm=0.75, ret=-0.0719, glen=167, tlen=846, kl=0.337, act_lr=9.24e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:31<04:16,  3.28s/it, pg=0.0463, rm=0.75, ret=-0.0719, glen=167, tlen=846, kl=0.337, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:33<04:16,  3.28s/it, pg=0.185, rm=0.938, ret=-0.206, glen=163, tlen=1.1e+3, kl=0.315, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:33<03:50,  2.99s/it, pg=0.185, rm=0.938, ret=-0.206, glen=163, tlen=1.1e+3, kl=0.315, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:35<03:50,  2.99s/it, pg=-0.0862, rm=0.688, ret=0.0598, glen=169, tlen=810, kl=0.345, act_lr=9.24e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:35<03:24,  2.69s/it, pg=-0.0862, rm=0.688, ret=0.0598, glen=169, tlen=810, kl=0.345, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:37<03:24,  2.69s/it, pg=-0.124, rm=1, ret=0.0984, glen=164, tlen=776, kl=0.324, act_lr=9.24e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:37<03:07,  2.50s/it, pg=-0.124, rm=1, ret=0.0984, glen=164, tlen=776, kl=0.324, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:39<03:07,  2.50s/it, pg=-0.0618, rm=1.06, ret=0.0375, glen=156, tlen=1089.75, kl=0.329, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:39<02:55,  2.38s/it, pg=-0.0618, rm=1.06, ret=0.0375, glen=156, tlen=1089.75, kl=0.329, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:41<02:55,  2.38s/it, pg=-0.0148, rm=1.06, ret=-0.00829, glen=157, tlen=963, kl=0.337, act_lr=9.24e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:41<02:46,  2.27s/it, pg=-0.0148, rm=1.06, ret=-0.00829, glen=157, tlen=963, kl=0.337, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:51<02:46,  2.27s/it, pg=0.0885, rm=1.06, ret=-0.111, glen=161, tlen=916, kl=0.301, act_lr=9.24e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:51<05:16,  4.40s/it, pg=0.0885, rm=1.06, ret=-0.111, glen=161, tlen=916, kl=0.301, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:53<05:16,  4.40s/it, pg=0.00415, rm=1.06, ret=-0.0263, glen=156, tlen=838, kl=0.316, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:53<04:23,  3.71s/it, pg=0.00415, rm=1.06, ret=-0.0263, glen=156, tlen=838, kl=0.316, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:55<04:23,  3.71s/it, pg=-0.0101, rm=1.06, ret=-0.0103, glen=158, tlen=915, kl=0.303, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:55<03:44,  3.21s/it, pg=-0.0101, rm=1.06, ret=-0.0103, glen=158, tlen=915, kl=0.303, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:57<03:44,  3.21s/it, pg=-0.000861, rm=0.812, ret=-0.0226, glen=153, tlen=765, kl=0.338, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:57<03:15,  2.84s/it, pg=-0.000861, rm=0.812, ret=-0.0226, glen=153, tlen=765, kl=0.338, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:59<03:15,  2.84s/it, pg=0.0409, rm=0.812, ret=-0.0626, glen=142, tlen=888, kl=0.33, act_lr=9.24e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:59<02:58,  2.63s/it, pg=0.0409, rm=0.812, ret=-0.0626, glen=142, tlen=888, kl=0.33, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:01<02:58,  2.63s/it, pg=0.145, rm=0.875, ret=-0.17, glen=160, tlen=753, kl=0.344, act_lr=9.24e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:01<02:44,  2.45s/it, pg=0.145, rm=0.875, ret=-0.17, glen=160, tlen=753, kl=0.344, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:03<02:44,  2.45s/it, pg=-0.0398, rm=1.06, ret=0.0157, glen=167, tlen=821, kl=0.325, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:03<02:39,  2.42s/it, pg=-0.0398, rm=1.06, ret=0.0157, glen=167, tlen=821, kl=0.325, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:05<02:39,  2.42s/it, pg=0.0929, rm=0.938, ret=-0.113, glen=158, tlen=1.02e+3, kl=0.316, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:05<02:32,  2.34s/it, pg=0.0929, rm=0.938, ret=-0.113, glen=158, tlen=1.02e+3, kl=0.316, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:15<02:32,  2.34s/it, pg=0.0611, rm=0.938, ret=-0.0859, glen=162, tlen=774, kl=0.337, act_lr=9.24e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:15<04:46,  4.47s/it, pg=0.0611, rm=0.938, ret=-0.0859, glen=162, tlen=774, kl=0.337, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:17<04:46,  4.47s/it, pg=-0.308, rm=1.12, ret=0.286, glen=161, tlen=1e+3, kl=0.307, act_lr=9.24e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:17<03:55,  3.75s/it, pg=-0.308, rm=1.12, ret=0.286, glen=161, tlen=1e+3, kl=0.307, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:19<03:55,  3.75s/it, pg=0.0932, rm=0.938, ret=-0.114, glen=165, tlen=883, kl=0.317, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:19<03:16,  3.18s/it, pg=0.0932, rm=0.938, ret=-0.114, glen=165, tlen=883, kl=0.317, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:21<03:16,  3.18s/it, pg=0.0243, rm=0.812, ret=-0.0503, glen=166, tlen=780, kl=0.349, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:21<02:49,  2.77s/it, pg=0.0243, rm=0.812, ret=-0.0503, glen=166, tlen=780, kl=0.349, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:23<02:49,  2.77s/it, pg=-0.0995, rm=1.06, ret=0.0792, glen=145, tlen=1070.75, kl=0.315, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:23<02:33,  2.57s/it, pg=-0.0995, rm=1.06, ret=0.0792, glen=145, tlen=1070.75, kl=0.315, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:25<02:33,  2.57s/it, pg=0.0592, rm=0.938, ret=-0.084, glen=152, tlen=891, kl=0.339, act_lr=9.24e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:25<02:25,  2.46s/it, pg=0.0592, rm=0.938, ret=-0.084, glen=152, tlen=891, kl=0.339, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:28<02:25,  2.46s/it, pg=0.106, rm=0.875, ret=-0.128, glen=166, tlen=833, kl=0.299, act_lr=9.24e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:28<02:26,  2.52s/it, pg=0.106, rm=0.875, ret=-0.128, glen=166, tlen=833, kl=0.299, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|███���█▍    | 70/128 [03:29<02:26,  2.52s/it, pg=-0.193, rm=0.875, ret=0.169, glen=161, tlen=782, kl=0.32, act_lr=9.24e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:29<02:11,  2.31s/it, pg=-0.193, rm=0.875, ret=0.169, glen=161, tlen=782, kl=0.32, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:39<02:11,  2.31s/it, pg=0.0253, rm=0.938, ret=-0.047, glen=156, tlen=896, kl=0.301, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:39<04:08,  4.45s/it, pg=0.0253, rm=0.938, ret=-0.047, glen=156, tlen=896, kl=0.301, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:41<04:08,  4.45s/it, pg=-0.032, rm=1.19, ret=0.00987, glen=161, tlen=906, kl=0.313, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:41<03:26,  3.75s/it, pg=-0.032, rm=1.19, ret=0.00987, glen=161, tlen=906, kl=0.313, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:43<03:26,  3.75s/it, pg=-0.0118, rm=0.938, ret=-0.011, glen=157, tlen=924, kl=0.318, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:43<02:51,  3.17s/it, pg=-0.0118, rm=0.938, ret=-0.011, glen=157, tlen=924, kl=0.318, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:45<02:51,  3.17s/it, pg=0.0403, rm=0.812, ret=-0.0605, glen=142, tlen=943, kl=0.315, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:45<02:36,  2.95s/it, pg=0.0403, rm=0.812, ret=-0.0605, glen=142, tlen=943, kl=0.315, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:47<02:36,  2.95s/it, pg=-0.065, rm=0.812, ret=0.0383, glen=160, tlen=793, kl=0.357, act_lr=9.24e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:47<02:20,  2.70s/it, pg=-0.065, rm=0.812, ret=0.0383, glen=160, tlen=793, kl=0.357, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:49<02:20,  2.70s/it, pg=-0.199, rm=1.06, ret=0.171, glen=172, tlen=831, kl=0.366, act_lr=9.24e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:49<02:04,  2.45s/it, pg=-0.199, rm=1.06, ret=0.171, glen=172, tlen=831, kl=0.366, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:51<02:04,  2.45s/it, pg=0.0679, rm=1, ret=-0.0898, glen=165, tlen=1e+3, kl=0.305, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:51<01:55,  2.32s/it, pg=0.0679, rm=1, ret=-0.0898, glen=165, tlen=1e+3, kl=0.305, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:53<01:55,  2.32s/it, pg=0.0447, rm=0.812, ret=-0.0697, glen=161, tlen=907, kl=0.335, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:53<01:46,  2.18s/it, pg=0.0447, rm=0.812, ret=-0.0697, glen=161, tlen=907, kl=0.335, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:02<01:46,  2.18s/it, pg=0.0299, rm=0.875, ret=-0.0551, glen=167, tlen=785, kl=0.33, act_lr=9.24e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:02<03:20,  4.17s/it, pg=0.0299, rm=0.875, ret=-0.0551, glen=167, tlen=785, kl=0.33, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:04<03:20,  4.17s/it, pg=-0.0284, rm=0.938, ret=0.00517, glen=166, tlen=931, kl=0.333, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:04<02:49,  3.61s/it, pg=-0.0284, rm=0.938, ret=0.00517, glen=166, tlen=931, kl=0.333, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:06<02:49,  3.61s/it, pg=-0.0265, rm=0.938, ret=0.00389, glen=164, tlen=824, kl=0.307, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:06<02:21,  3.08s/it, pg=-0.0265, rm=0.938, ret=0.00389, glen=164, tlen=824, kl=0.307, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:08<02:21,  3.08s/it, pg=0.0553, rm=0.938, ret=-0.0821, glen=168, tlen=827, kl=0.346, act_lr=9.24e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:08<02:03,  2.75s/it, pg=0.0553, rm=0.938, ret=-0.0821, glen=168, tlen=827, kl=0.346, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:10<02:03,  2.75s/it, pg=-0.0045, rm=0.812, ret=-0.0207, glen=166, tlen=848, kl=0.328, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:10<01:53,  2.57s/it, pg=-0.0045, rm=0.812, ret=-0.0207, glen=166, tlen=848, kl=0.328, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:12<01:53,  2.57s/it, pg=0.00338, rm=0.812, ret=-0.0275, glen=164, tlen=867, kl=0.307, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:12<01:42,  2.39s/it, pg=0.00338, rm=0.812, ret=-0.0275, glen=164, tlen=867, kl=0.307, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:14<01:42,  2.39s/it, pg=0.113, rm=0.812, ret=-0.137, glen=163, tlen=939, kl=0.328, act_lr=9.24e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:14<01:38,  2.35s/it, pg=0.113, rm=0.812, ret=-0.137, glen=163, tlen=939, kl=0.328, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:17<01:38,  2.35s/it, pg=0.0473, rm=0.688, ret=-0.0685, glen=144, tlen=906, kl=0.327, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:17<01:36,  2.35s/it, pg=0.0473, rm=0.688, ret=-0.0685, glen=144, tlen=906, kl=0.327, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:26<01:36,  2.35s/it, pg=-0.0247, rm=1, ret=0.00375, glen=157, tlen=833, kl=0.308, act_lr=9.24e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:26<02:54,  4.37s/it, pg=-0.0247, rm=1, ret=0.00375, glen=157, tlen=833, kl=0.308, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:28<02:54,  4.37s/it, pg=0.0427, rm=0.75, ret=-0.0666, glen=163, tlen=842, kl=0.312, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:28<02:23,  3.67s/it, pg=0.0427, rm=0.75, ret=-0.0666, glen=163, tlen=842, kl=0.312, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:30<02:23,  3.67s/it, pg=-0.0147, rm=1.06, ret=-0.00596, glen=163, tlen=914, kl=0.311, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:30<02:06,  3.33s/it, pg=-0.0147, rm=1.06, ret=-0.00596, glen=163, tlen=914, kl=0.311, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:32<02:06,  3.33s/it, pg=0.0572, rm=1.06, ret=-0.0771, glen=157, tlen=958, kl=0.332, act_lr=9.24e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:32<01:49,  2.95s/it, pg=0.0572, rm=1.06, ret=-0.0771, glen=157, tlen=958, kl=0.332, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:35<01:49,  2.95s/it, pg=0.0459, rm=0.812, ret=-0.0724, glen=160, tlen=766, kl=0.35, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:35<01:40,  2.78s/it, pg=0.0459, rm=0.812, ret=-0.0724, glen=160, tlen=766, kl=0.35, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:37<01:40,  2.78s/it, pg=0.096, rm=1, ret=-0.118, glen=153, tlen=909, kl=0.309, act_lr=9.24e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:37<01:29,  2.56s/it, pg=0.096, rm=1, ret=-0.118, glen=153, tlen=909, kl=0.309, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:39<01:29,  2.56s/it, pg=0.118, rm=1, ret=-0.143, glen=165, tlen=827, kl=0.329, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:39<01:19,  2.35s/it, pg=0.118, rm=1, ret=-0.143, glen=165, tlen=827, kl=0.329, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:41<01:19,  2.35s/it, pg=0.022, rm=0.938, ret=-0.0458, glen=163, tlen=768, kl=0.319, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:41<01:12,  2.19s/it, pg=0.022, rm=0.938, ret=-0.0458, glen=163, tlen=768, kl=0.319, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 15:10:16,855] [WARNING] [stage3.py:2139:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:50<01:12,  2.19s/it, pg=0.103, rm=1, ret=-0.126, glen=156, tlen=1.03e+3, kl=0.326, act_lr=9.24e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:50<02:18,  4.33s/it, pg=0.103, rm=1, ret=-0.126, glen=156, tlen=1.03e+3, kl=0.326, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:52<02:18,  4.33s/it, pg=0.0455, rm=0.812, ret=-0.0697, glen=157, tlen=904, kl=0.344, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:52<01:53,  3.67s/it, pg=0.0455, rm=0.812, ret=-0.0697, glen=157, tlen=904, kl=0.344, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:54<01:53,  3.67s/it, pg=0.304, rm=0.75, ret=-0.33, glen=171, tlen=849, kl=0.317, act_lr=9.24e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:54<01:33,  3.12s/it, pg=0.304, rm=0.75, ret=-0.33, glen=171, tlen=849, kl=0.317, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:56<01:33,  3.12s/it, pg=-0.0369, rm=0.938, ret=0.0123, glen=151, tlen=1.02e+3, kl=0.346, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:56<01:23,  2.88s/it, pg=-0.0369, rm=0.938, ret=0.0123, glen=151, tlen=1.02e+3, kl=0.346, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:58<01:23,  2.88s/it, pg=0.0446, rm=0.938, ret=-0.0676, glen=154, tlen=872, kl=0.319, act_lr=9.24e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:58<01:13,  2.63s/it, pg=0.0446, rm=0.938, ret=-0.0676, glen=154, tlen=872, kl=0.319, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [05:00<01:13,  2.63s/it, pg=-0.167, rm=1.06, ret=0.149, glen=151, tlen=1026.0, kl=0.305, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:00<01:06,  2.45s/it, pg=-0.167, rm=1.06, ret=0.149, glen=151, tlen=1026.0, kl=0.305, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:02<01:06,  2.45s/it, pg=0.0306, rm=0.812, ret=-0.0575, glen=170, tlen=875, kl=0.346, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:02<00:58,  2.27s/it, pg=0.0306, rm=0.812, ret=-0.0575, glen=170, tlen=875, kl=0.346, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:04<00:58,  2.27s/it, pg=0.0586, rm=0.812, ret=-0.0817, glen=159, tlen=780, kl=0.326, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:04<00:55,  2.22s/it, pg=0.0586, rm=0.812, ret=-0.0817, glen=159, tlen=780, kl=0.326, act_lr=9.24e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:13<00:55,  2.22s/it, pg=0.0237, rm=0.938, ret=-0.0481, glen=162, tlen=767, kl=0.335, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:13<01:41,  4.22s/it, pg=0.0237, rm=0.938, ret=-0.0481, glen=162, tlen=767, kl=0.335, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:15<01:41,  4.22s/it, pg=-0.136, rm=1.06, ret=0.112, glen=166, tlen=829, kl=0.32, act_lr=9.23e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:15<01:22,  3.61s/it, pg=-0.136, rm=1.06, ret=0.112, glen=166, tlen=829, kl=0.32, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:17<01:22,  3.61s/it, pg=0.146, rm=0.938, ret=-0.169, glen=154, tlen=965, kl=0.331, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:17<01:07,  3.08s/it, pg=0.146, rm=0.938, ret=-0.169, glen=154, tlen=965, kl=0.331, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:20<01:07,  3.08s/it, pg=-0.00776, rm=0.875, ret=-0.0154, glen=147, tlen=951, kl=0.335, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:20<01:00,  2.90s/it, pg=-0.00776, rm=0.875, ret=-0.0154, glen=147, tlen=951, kl=0.335, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:22<01:00,  2.90s/it, pg=-0.0253, rm=0.875, ret=0.000864, glen=155, tlen=932, kl=0.354, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:22<00:54,  2.70s/it, pg=-0.0253, rm=0.875, ret=0.000864, glen=155, tlen=932, kl=0.354, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:24<00:54,  2.70s/it, pg=-0.0718, rm=1, ret=0.0481, glen=155, tlen=803, kl=0.328, act_lr=9.23e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:24<00:46,  2.45s/it, pg=-0.0718, rm=1, ret=0.0481, glen=155, tlen=803, kl=0.328, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:26<00:46,  2.45s/it, pg=-0.0885, rm=0.875, ret=0.0629, glen=151, tlen=805, kl=0.351, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:26<00:41,  2.28s/it, pg=-0.0885, rm=0.875, ret=0.0629, glen=151, tlen=805, kl=0.351, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:28<00:41,  2.28s/it, pg=0.133, rm=0.875, ret=-0.159, glen=163, tlen=831, kl=0.335, act_lr=9.23e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:28<00:37,  2.20s/it, pg=0.133, rm=0.875, ret=-0.159, glen=163, tlen=831, kl=0.335, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:37<00:37,  2.20s/it, pg=0.00522, rm=1, ret=-0.0301, glen=169, tlen=832, kl=0.329, act_lr=9.23e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:37<01:10,  4.42s/it, pg=0.00522, rm=1, ret=-0.0301, glen=169, tlen=832, kl=0.329, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:39<01:10,  4.42s/it, pg=0.0684, rm=0.875, ret=-0.0916, glen=160, tlen=831, kl=0.332, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:39<00:55,  3.67s/it, pg=0.0684, rm=0.875, ret=-0.0916, glen=160, tlen=831, kl=0.332, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:41<00:55,  3.67s/it, pg=0.348, rm=0.875, ret=-0.373, glen=162, tlen=755, kl=0.341, act_lr=9.23e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:41<00:44,  3.18s/it, pg=0.348, rm=0.875, ret=-0.373, glen=162, tlen=755, kl=0.341, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:43<00:44,  3.18s/it, pg=0.0223, rm=1, ret=-0.0439, glen=154, tlen=1.08e+3, kl=0.305, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:43<00:37,  2.86s/it, pg=0.0223, rm=1, ret=-0.0439, glen=154, tlen=1.08e+3, kl=0.305, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:45<00:37,  2.86s/it, pg=0.0891, rm=0.938, ret=-0.111, glen=156, tlen=812, kl=0.33, act_lr=9.23e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:45<00:30,  2.55s/it, pg=0.0891, rm=0.938, ret=-0.111, glen=156, tlen=812, kl=0.33, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:47<00:30,  2.55s/it, pg=0.217, rm=0.938, ret=-0.237, glen=148, tlen=1.04e+3, kl=0.319, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:47<00:27,  2.46s/it, pg=0.217, rm=0.938, ret=-0.237, glen=148, tlen=1.04e+3, kl=0.319, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:49<00:27,  2.46s/it, pg=0.155, rm=1, ret=-0.179, glen=165, tlen=757, kl=0.323, act_lr=9.23e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:49<00:23,  2.33s/it, pg=0.155, rm=1, ret=-0.179, glen=165, tlen=757, kl=0.323, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:52<00:23,  2.33s/it, pg=0.146, rm=0.875, ret=-0.172, glen=164, tlen=757, kl=0.347, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:52<00:20,  2.30s/it, pg=0.146, rm=0.875, ret=-0.172, glen=164, tlen=757, kl=0.347, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [06:01<00:20,  2.30s/it, pg=-0.0361, rm=1, ret=0.0108, glen=164, tlen=904, kl=0.342, act_lr=9.23e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:01<00:34,  4.34s/it, pg=-0.0361, rm=1, ret=0.0108, glen=164, tlen=904, kl=0.342, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:03<00:34,  4.34s/it, pg=0.0263, rm=0.688, ret=-0.0493, glen=161, tlen=922, kl=0.305, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:03<00:25,  3.61s/it, pg=0.0263, rm=0.688, ret=-0.0493, glen=161, tlen=922, kl=0.305, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:04<00:25,  3.61s/it, pg=-0.0352, rm=0.875, ret=0.0139, glen=159, tlen=934, kl=0.305, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:04<00:18,  3.08s/it, pg=-0.0352, rm=0.875, ret=0.0139, glen=159, tlen=934, kl=0.305, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:07<00:18,  3.08s/it, pg=0.0177, rm=1, ret=-0.0405, glen=149, tlen=960, kl=0.32, act_lr=9.23e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:07<00:13,  2.79s/it, pg=0.0177, rm=1, ret=-0.0405, glen=149, tlen=960, kl=0.32, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:09<00:13,  2.79s/it, pg=-0.0687, rm=0.938, ret=0.0453, glen=150, tlen=1.02e+3, kl=0.329, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:09<00:10,  2.63s/it, pg=-0.0687, rm=0.938, ret=0.0453, glen=150, tlen=1.02e+3, kl=0.329, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:11<00:10,  2.63s/it, pg=-0.0208, rm=1, ret=-0.000586, glen=151, tlen=966, kl=0.314, act_lr=9.23e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:11<00:07,  2.53s/it, pg=-0.0208, rm=1, ret=-0.000586, glen=151, tlen=966, kl=0.314, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:13<00:07,  2.53s/it, pg=-0.0245, rm=1, ret=-0.000856, glen=158, tlen=835, kl=0.334, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:13<00:04,  2.37s/it, pg=-0.0245, rm=1, ret=-0.000856, glen=158, tlen=835, kl=0.334, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:15<00:04,  2.37s/it, pg=0.0249, rm=1, ret=-0.0485, glen=154, tlen=1.08e+3, kl=0.315, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:15<00:02,  2.29s/it, pg=0.0249, rm=1, ret=-0.0485, glen=154, tlen=1.08e+3, kl=0.315, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:25<00:02,  2.29s/it, pg=0.442, rm=1, ret=-0.458, glen=154, tlen=1.17e+3, kl=0.304, act_lr=9.23e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:25<00:00,  4.45s/it, pg=0.442, rm=1, ret=-0.458, glen=154, tlen=1.17e+3, kl=0.304, act_lr=9.23e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:25<00:00,  3.01s/it, pg=0.442, rm=1, ret=-0.458, glen=154, tlen=1.17e+3, kl=0.304, act_lr=9.23e-7]
+[36m(LLMRayActor pid=279382)[0m INFO 05-28 15:11:53 [executor_base.py:219] It took 1.407637 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 15:11:55 [executor_base.py:219] It took 3.222782 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.1.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 3262x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.10.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 856x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.19.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 872x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 15:12:17 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.40 GiB memory is still in use.
+[36m(LLMRayActor pid=279377)[0m INFO 05-28 15:12:17 [executor_base.py:208] It took 1.302221 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 791x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  15%|█▍        | 19/127 [3:58:59<20:53:04, 696.15s/it, policy_loss=0.0285, actor_lr=9.24e-7, kl=0.327, reward=0.921, response_length=159, total_length=886, acc_rewards=0.421, format_rewards=0.5, return=-0.052] 
+[36m(ActorModelRayActor pid=286523)[0m Deleted oldest ckpt /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step70
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 15:12:20,102] [INFO] [logging.py:128:log_dist] [Rank 0] [Torch] Checkpoint global_step80 is about to be saved!
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 15:12:20,116] [INFO] [logging.py:128:log_dist] [Rank 0] Saving model checkpoint: /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step80/zero_pp_rank_0_mp_rank_00_model_states.pt
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 15:12:20,116] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step80/zero_pp_rank_0_mp_rank_00_model_states.pt...
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 15:12:20,161] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step80/zero_pp_rank_0_mp_rank_00_model_states.pt.
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 15:12:20,166] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step80/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287378)[0m [2025-05-28 15:12:58,261] [INFO] [engine.py:3645:_save_zero_checkpoint] zero checkpoint saved /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step80/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:12:17 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.34 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:12:17 [executor_base.py:208] It took 1.580079 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287375)[0m [2025-05-28 15:12:20,114] [INFO] [logging.py:128:log_dist] [Rank 1] Saving model checkpoint: /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step80/zero_pp_rank_1_mp_rank_00_model_states.pt
+[36m(ActorModelRayActor pid=287374)[0m [2025-05-28 15:12:20,166] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step80/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt...[32m [repeated 14x across cluster][0m
+[36m(ActorModelRayActor pid=287378)[0m [2025-05-28 15:12:58,261] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step80/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt.[32m [repeated 8x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 15:13:02,907] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step80 is ready now!
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  16%|█▌        | 20/127 [4:00:50<21:48:20, 733.65s/it, policy_loss=0.0285, actor_lr=9.24e-7, kl=0.327, reward=0.921, response_length=159, total_length=886, acc_rewards=0.421, format_rewards=0.5, return=-0.052]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:14:09 [executor_base.py:219] It took 1.428248 seconds to wake up.
+[36m(ActorModelRayActor pid=287376)[0m [2025-05-28 15:13:02,882] [INFO] [engine.py:3645:_save_zero_checkpoint] zero checkpoint saved /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step80/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287376)[0m [2025-05-28 15:13:02,882] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /mnt/petrelfs/luyiting/MultiAgentEval/checkpoints_lmmr1//lmm-r1-ava-evalmuse-koniq-grpo-score-7B/ckpt/_actor/global_step80/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m [2025-05-28 15:13:02,906] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step80 is ready now![32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   0%|          | 1/256 [00:20<1:25:18, 20.07s/it, est. speed input: 77.37 toks/s, output: 4.48 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   1%|          | 3/256 [00:20<22:13,  5.27s/it, est. speed input: 178.73 toks/s, output: 13.53 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:20<10:56,  2.62s/it, est. speed input: 272.22 toks/s, output: 23.06 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:20<06:24,  1.54s/it, est. speed input: 370.05 toks/s, output: 32.71 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   4%|▍         | 10/256 [00:20<03:24,  1.20it/s, est. speed input: 541.89 toks/s, output: 47.56 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   6%|▋         | 16/256 [00:21<01:30,  2.65it/s, est. speed input: 824.05 toks/s, output: 77.74 toks/s]
+Processed prompts:   7%|▋         | 18/256 [00:21<01:13,  3.23it/s, est. speed input: 916.73 toks/s, output: 88.14 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   8%|▊         | 20/256 [00:21<01:00,  3.90it/s, est. speed input: 1055.17 toks/s, output: 98.47 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  10%|█         | 26/256 [00:21<00:33,  6.88it/s, est. speed input: 1220.16 toks/s, output: 131.17 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  11%|█         | 28/256 [00:21<00:31,  7.24it/s, est. speed input: 1302.55 toks/s, output: 141.55 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  12%|█▏        | 30/256 [00:21<00:27,  8.19it/s, est. speed input: 1389.29 toks/s, output: 152.64 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  14%|█▍        | 36/256 [00:22<00:16, 13.57it/s, est. speed input: 1499.47 toks/s, output: 188.15 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  16%|█▌        | 41/256 [00:22<00:12, 17.88it/s, est. speed input: 1735.71 toks/s, output: 218.04 toks/s]
+Processed prompts:  18%|█▊        | 46/256 [00:22<00:09, 22.20it/s, est. speed input: 1872.79 toks/s, output: 248.09 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  22%|██▏       | 56/256 [00:22<00:05, 34.79it/s, est. speed input: 2074.40 toks/s, output: 310.35 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  25%|██▌       | 64/256 [00:22<00:04, 42.38it/s, est. speed input: 2272.86 toks/s, output: 360.55 toks/s]
+Processed prompts:  29%|██▉       | 75/256 [00:22<00:03, 55.37it/s, est. speed input: 2481.98 toks/s, output: 430.82 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  33%|███▎      | 85/256 [00:22<00:02, 64.48it/s, est. speed input: 2769.13 toks/s, output: 495.53 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  39%|███▉      | 100/256 [00:22<00:01, 84.19it/s, est. speed input: 3108.74 toks/s, output: 594.65 toks/s]
+Processed prompts:  43%|████▎     | 110/256 [00:22<00:01, 86.65it/s, est. speed input: 3293.61 toks/s, output: 660.36 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  47%|████▋     | 120/256 [00:23<00:01, 89.96it/s, est. speed input: 3498.06 toks/s, output: 727.35 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  51%|█████     | 131/256 [00:23<00:01, 89.10it/s, est. speed input: 3735.35 toks/s, output: 801.23 toks/s]
+Processed prompts:  56%|█████▋    | 144/256 [00:23<00:01, 97.16it/s, est. speed input: 4053.21 toks/s, output: 891.03 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  62%|██████▏   | 158/256 [00:23<00:00, 107.72it/s, est. speed input: 4302.75 toks/s, output: 990.19 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  67%|██████▋   | 172/256 [00:23<00:00, 110.08it/s, est. speed input: 4619.09 toks/s, output: 1089.88 toks/s]
+Processed prompts:  73%|███████▎  | 188/256 [00:23<00:00, 118.90it/s, est. speed input: 4957.34 toks/s, output: 1207.63 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  81%|████████  | 207/256 [00:23<00:00, 136.49it/s, est. speed input: 5441.56 toks/s, output: 1351.46 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  86%|████████▋ | 221/256 [00:23<00:00, 115.26it/s, est. speed input: 5691.33 toks/s, output: 1454.74 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:23<00:00, 114.50it/s, est. speed input: 5925.47 toks/s, output: 1557.10 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  96%|█████████▌| 246/256 [00:24<00:00, 102.99it/s, est. speed input: 6129.79 toks/s, output: 1651.96 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:24<00:00, 10.39it/s, est. speed input: 6227.05 toks/s, output: 1712.20 toks/s] 
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   0%|          | 1/256 [00:23<1:41:43, 23.93s/it, est. speed input: 64.30 toks/s, output: 3.22 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   3%|▎         | 7/256 [00:23<05:16,  1.27s/it, est. speed input: 453.74 toks/s, output: 26.39 toks/s]
+Processed prompts:   4%|▎         | 9/256 [00:23<02:58,  1.38it/s, est. speed input: 580.16 toks/s, output: 34.87 toks/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  95%|█████████▍| 243/256 [00:27<00:00, 85.01it/s, est. speed input: 6250.14 toks/s, output: 1396.54 toks/s] 
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  99%|█████████▉| 254/256 [00:27<00:00, 65.29it/s, est. speed input: 6385.08 toks/s, output: 1471.13 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  86%|████████▌ | 219/256 [00:21<00:00, 124.59it/s, est. speed input: 5111.39 toks/s, output: 1695.73 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:21<00:00, 130.07it/s, est. speed input: 5448.87 toks/s, output: 1829.70 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|█████████▉| 255/256 [00:28<00:00, 63.81it/s, est. speed input: 6349.70 toks/s, output: 1426.85 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:28<00:00,  8.86it/s, est. speed input: 6352.14 toks/s, output: 1432.83 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  82%|████████▏ | 211/256 [00:28<00:00, 116.27it/s, est. speed input: 5785.05 toks/s, output: 1143.19 toks/s][32m [repeated 58x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  82%|████████▏ | 210/256 [00:29<00:00, 157.33it/s, est. speed input: 5702.38 toks/s, output: 1116.64 toks/s]
+Processed prompts:  91%|█████████ | 232/256 [00:29<00:00, 173.51it/s, est. speed input: 6105.92 toks/s, output: 1253.85 toks/s][32m [repeated 35x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:31<00:00,  8.21it/s, est. speed input: 6292.01 toks/s, output: 1364.65 toks/s][32m [repeated 9x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  10%|█         | 26/256 [00:24<00:36,  6.36it/s, est. speed input: 928.85 toks/s, output: 133.24 toks/s][32m [repeated 11x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  32%|███▏      | 82/256 [00:25<00:03, 53.62it/s, est. speed input: 2424.46 toks/s, output: 453.88 toks/s]
+Processed prompts:  35%|███▌      | 90/256 [00:25<00:02, 58.62it/s, est. speed input: 2642.17 toks/s, output: 501.91 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  99%|█████████▉| 254/256 [00:35<00:00, 48.29it/s, est. speed input: 6725.91 toks/s, output: 1135.34 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:35<00:00,  7.25it/s, est. speed input: 6729.62 toks/s, output: 1146.36 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  95%|█████████▌| 244/256 [00:34<00:00, 89.53it/s, est. speed input: 6657.79 toks/s, output: 1085.02 toks/s][32m [repeated 5x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:14:11 [executor_base.py:219] It took 3.028401 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287378)[0m ele.get("min_pixels" 3136[32m [repeated 878x across cluster][0m
+[36m(ActorModelRayActor pid=287378)[0m ele.get("max_pixels" 1254400[32m [repeated 878x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m  1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 863x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 863x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:15:57 [worker.py:133] Sleep mode freed 38.53 GiB memory, 22.21 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:15:57 [executor_base.py:208] It took 1.406130 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287374)[0m ele.get("min_pixels" 3136[32m [repeated 277x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m ele.get("max_pixels" 1254400[32m [repeated 277x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  78%|███████▊  | 199/256 [00:34<00:00, 117.13it/s, est. speed input: 5995.37 toks/s, output: 846.24 toks/s][32m [repeated 17x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  82%|████████▏ | 211/256 [00:34<00:00, 112.74it/s, est. speed input: 6192.59 toks/s, output: 907.24 toks/s]
+Processed prompts:  87%|████████▋ | 223/256 [00:34<00:00, 107.06it/s, est. speed input: 6320.08 toks/s, output: 970.11 toks/s][32m [repeated 10x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:58,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<03:08,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<03:12,  1.54s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<03:06,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<03:00,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:58,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:10<03:01,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:59,  1.50s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:13<02:51,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:14<02:47,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:16<02:45,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:17<02:43,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:18<02:40,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:20<02:40,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:21<02:37,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:23<02:37,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:24<02:31,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:25<02:30,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:27<02:28,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:28<02:26,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:29<02:24,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:30<02:21,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:32<02:20,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:33<02:19,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:35<02:18,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:36<02:16,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:37<02:14,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:38<02:13,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:40<02:13,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:41<02:13,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:43<02:12,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:44<02:10,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:45<02:08,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:47<02:05,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:48<02:06,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:49<02:04,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:51<02:03,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:52<02:01,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:53<02:00,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:55<01:59,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:56<01:56,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:57<01:54,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:59<01:52,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [01:00<01:49,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [01:01<01:46,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:03<01:48,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:04<01:45,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:05<01:42,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:06<01:43,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:08<01:43,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:09<01:41,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:11<01:41,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:12<01:39,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:13<01:36,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:15<01:37,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:16<01:35,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:17<01:26,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:18<01:19,  1.13s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:19<01:13,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:20<01:11,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:21<01:08,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:22<01:06,  1.00s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:23<01:03,  1.02it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:23<01:02,  1.02it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:25<01:06,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:26<01:11,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:27<01:13,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:29<01:14,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:30<01:14,  1.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:32<01:16,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:33<01:16,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:34<01:16,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:36<01:16,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:37<01:15,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:39<01:13,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:40<01:12,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:41<01:10,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:43<01:10,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:44<01:09,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:46<01:07,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:47<01:05,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:48<01:03,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:50<01:03,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:51<01:00,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:52<00:58,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:54<00:57,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:55<00:55,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:57<00:54,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [01:58<00:53,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [01:59<00:51,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:01<00:50,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:02<00:48,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:03<00:47,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:05<00:45,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:06<00:44,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:07<00:42,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:09<00:41,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:10<00:39,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:11<00:38,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:13<00:37,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:14<00:36,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:15<00:34,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:17<00:33,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:18<00:32,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:19<00:31,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:21<00:30,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:22<00:28,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:24<00:28,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:25<00:26,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:27<00:25,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:28<00:24,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:29<00:22,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:31<00:21,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:32<00:19,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:34<00:18,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:35<00:16,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:36<00:15,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:38<00:14,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:39<00:12,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:41<00:11,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:42<00:09,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:43<00:08,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:45<00:06,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:46<00:05,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:47<00:04,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:49<00:02,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:50<00:01,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:52<00:00,  1.41s/it][A
+make_experience: 100%|██████████| 128/128 [02:52<00:00,  1.35s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nIs the content visually consistent with the prompt: "a bowl of reds"?\nPlease evaluate how well the image matches each element of provided prompt.\n\n And answer with the final alignment rating.\nRate it from 0 to 5 (float, 2 decimals). A rating of 0 represents very poor alignment level, while 5 represents excellent alignment level.\'\nassistant\n<think> The image depicts a bowl filled with red objects that appear to be cherries or marinated olives, which aligns with the prompt "a bowl of reds". The color of the contents is predominantly red, which satisfies the requirement for the content to be red. However, the image does not provide any context that emphasizes the contrast or diversity of the reds, which could make the image appear somewhat monotonous. The visual consistency is good due to the uniform color of the contents, but it might be slightly lacking in terms of visual interest or diversity of colors.</think>\n<answer>4.00</answer>']
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:15:57 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.62 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:15:57 [executor_base.py:208] It took 1.664031 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m ele.get("min_pixels" 3136[32m [repeated 28x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m ele.get("max_pixels" 1254400[32m [repeated 28x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:02<?, ?it/s, pg=-0.031, rm=1, ret=0.00836, glen=143, tlen=1.08e+3, kl=0.33, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:02<04:56,  2.34s/it, pg=-0.031, rm=1, ret=0.00836, glen=143, tlen=1.08e+3, kl=0.33, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:04<04:56,  2.34s/it, pg=0.0291, rm=0.812, ret=-0.0535, glen=164, tlen=872, kl=0.327, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:04<05:02,  2.40s/it, pg=0.0291, rm=0.812, ret=-0.0535, glen=164, tlen=872, kl=0.327, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:06<05:02,  2.40s/it, pg=0.0999, rm=1.12, ret=-0.123, glen=144, tlen=930, kl=0.337, act_lr=9.23e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:06<04:41,  2.25s/it, pg=0.0999, rm=1.12, ret=-0.123, glen=144, tlen=930, kl=0.337, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:08<04:41,  2.25s/it, pg=0.138, rm=0.75, ret=-0.163, glen=178, tlen=838, kl=0.335, act_lr=9.23e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:08<04:21,  2.11s/it, pg=0.138, rm=0.75, ret=-0.163, glen=178, tlen=838, kl=0.335, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:10<04:21,  2.11s/it, pg=0.0977, rm=0.75, ret=-0.122, glen=180, tlen=821, kl=0.298, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:10<04:24,  2.15s/it, pg=0.0977, rm=0.75, ret=-0.122, glen=180, tlen=821, kl=0.298, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:12<04:24,  2.15s/it, pg=0.0154, rm=1, ret=-0.0414, glen=171, tlen=864, kl=0.334, act_lr=9.23e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:12<04:16,  2.11s/it, pg=0.0154, rm=1, ret=-0.0414, glen=171, tlen=864, kl=0.334, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:15<04:16,  2.11s/it, pg=0.0359, rm=1, ret=-0.0609, glen=166, tlen=948, kl=0.324, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:15<04:20,  2.16s/it, pg=0.0359, rm=1, ret=-0.0609, glen=166, tlen=948, kl=0.324, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:25<04:20,  2.16s/it, pg=-0.0306, rm=1, ret=0.00835, glen=145, tlen=1.08e+3, kl=0.326, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:25<09:19,  4.67s/it, pg=-0.0306, rm=1, ret=0.00835, glen=145, tlen=1.08e+3, kl=0.326, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:27<09:19,  4.67s/it, pg=-0.0607, rm=0.938, ret=0.0374, glen=158, tlen=1.05e+3, kl=0.31, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:27<07:47,  3.93s/it, pg=-0.0607, rm=0.938, ret=0.0374, glen=158, tlen=1.05e+3, kl=0.31, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:29<07:47,  3.93s/it, pg=-0.0302, rm=0.938, ret=0.00561, glen=165, tlen=834, kl=0.332, act_lr=9.23e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:29<06:28,  3.30s/it, pg=-0.0302, rm=0.938, ret=0.00561, glen=165, tlen=834, kl=0.332, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:31<06:28,  3.30s/it, pg=-0.0133, rm=1, ret=-0.011, glen=178, tlen=892, kl=0.322, act_lr=9.23e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:31<05:45,  2.95s/it, pg=-0.0133, rm=1, ret=-0.011, glen=178, tlen=892, kl=0.322, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:33<05:45,  2.95s/it, pg=-0.0148, rm=0.938, ret=-0.00782, glen=155, tlen=744, kl=0.339, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:33<05:03,  2.62s/it, pg=-0.0148, rm=0.938, ret=-0.00782, glen=155, tlen=744, kl=0.339, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:35<05:03,  2.62s/it, pg=-0.0863, rm=0.875, ret=0.0641, glen=160, tlen=849, kl=0.306, act_lr=9.23e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:35<04:51,  2.53s/it, pg=-0.0863, rm=0.875, ret=0.0641, glen=160, tlen=849, kl=0.306, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:37<04:51,  2.53s/it, pg=0.0832, rm=0.875, ret=-0.11, glen=168, tlen=875, kl=0.34, act_lr=9.23e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:37<04:27,  2.34s/it, pg=0.0832, rm=0.875, ret=-0.11, glen=168, tlen=875, kl=0.34, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:39<04:27,  2.34s/it, pg=-0.0319, rm=0.938, ret=0.00611, glen=167, tlen=836, kl=0.324, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:39<04:08,  2.20s/it, pg=-0.0319, rm=0.938, ret=0.00611, glen=167, tlen=836, kl=0.324, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:49<04:08,  2.20s/it, pg=0.257, rm=0.75, ret=-0.283, glen=168, tlen=857, kl=0.348, act_lr=9.23e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:49<08:27,  4.53s/it, pg=0.257, rm=0.75, ret=-0.283, glen=168, tlen=857, kl=0.348, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:51<08:27,  4.53s/it, pg=0.051, rm=0.875, ret=-0.0732, glen=153, tlen=828, kl=0.329, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:51<07:01,  3.80s/it, pg=0.051, rm=0.875, ret=-0.0732, glen=153, tlen=828, kl=0.329, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:53<07:01,  3.80s/it, pg=-0.0254, rm=0.875, ret=-0.00106, glen=167, tlen=856, kl=0.338, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:53<06:00,  3.28s/it, pg=-0.0254, rm=0.875, ret=-0.00106, glen=167, tlen=856, kl=0.338, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:55<06:00,  3.28s/it, pg=-0.0152, rm=0.812, ret=-0.00746, glen=163, tlen=766, kl=0.319, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:55<05:16,  2.91s/it, pg=-0.0152, rm=0.812, ret=-0.00746, glen=163, tlen=766, kl=0.319, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:58<05:16,  2.91s/it, pg=-0.11, rm=1.06, ret=0.0823, glen=166, tlen=826, kl=0.367, act_lr=9.23e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:58<04:56,  2.74s/it, pg=-0.11, rm=1.06, ret=0.0823, glen=166, tlen=826, kl=0.367, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:59<04:56,  2.74s/it, pg=-0.215, rm=1.19, ret=0.189, glen=155, tlen=727, kl=0.347, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [00:59<04:23,  2.47s/it, pg=-0.215, rm=1.19, ret=0.189, glen=155, tlen=727, kl=0.347, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:01<04:23,  2.47s/it, pg=0.0764, rm=0.938, ret=-0.101, glen=171, tlen=769, kl=0.317, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:01<04:02,  2.29s/it, pg=0.0764, rm=0.938, ret=-0.101, glen=171, tlen=769, kl=0.317, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:03<04:02,  2.29s/it, pg=0.0494, rm=1, ret=-0.0741, glen=161, tlen=910, kl=0.341, act_lr=9.23e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:03<03:54,  2.23s/it, pg=0.0494, rm=1, ret=-0.0741, glen=161, tlen=910, kl=0.341, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:13<03:54,  2.23s/it, pg=-0.0076, rm=1.06, ret=-0.0184, glen=162, tlen=662, kl=0.351, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:13<07:29,  4.32s/it, pg=-0.0076, rm=1.06, ret=-0.0184, glen=162, tlen=662, kl=0.351, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:15<07:29,  4.32s/it, pg=0.0372, rm=1, ret=-0.0621, glen=169, tlen=951, kl=0.325, act_lr=9.23e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:15<06:24,  3.73s/it, pg=0.0372, rm=1, ret=-0.0621, glen=169, tlen=951, kl=0.325, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:17<06:24,  3.73s/it, pg=0.0175, rm=1.06, ret=-0.0446, glen=172, tlen=772, kl=0.35, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:17<05:23,  3.17s/it, pg=0.0175, rm=1.06, ret=-0.0446, glen=172, tlen=772, kl=0.35, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:19<05:23,  3.17s/it, pg=0.101, rm=0.812, ret=-0.125, glen=171, tlen=857, kl=0.327, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:19<04:47,  2.85s/it, pg=0.101, rm=0.812, ret=-0.125, glen=171, tlen=857, kl=0.327, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:21<04:47,  2.85s/it, pg=-0.0275, rm=1, ret=0.00438, glen=160, tlen=1.13e+3, kl=0.325, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:21<04:36,  2.76s/it, pg=-0.0275, rm=1, ret=0.00438, glen=160, tlen=1.13e+3, kl=0.325, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:24<04:36,  2.76s/it, pg=0.0285, rm=0.875, ret=-0.0522, glen=156, tlen=945, kl=0.334, act_lr=9.23e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:24<04:11,  2.54s/it, pg=0.0285, rm=0.875, ret=-0.0522, glen=156, tlen=945, kl=0.334, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:26<04:11,  2.54s/it, pg=0.105, rm=1, ret=-0.132, glen=166, tlen=703, kl=0.347, act_lr=9.23e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:26<03:55,  2.40s/it, pg=0.105, rm=1, ret=-0.132, glen=166, tlen=703, kl=0.347, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:28<03:55,  2.40s/it, pg=0.0166, rm=1, ret=-0.0446, glen=170, tlen=852, kl=0.354, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:28<03:44,  2.31s/it, pg=0.0166, rm=1, ret=-0.0446, glen=170, tlen=852, kl=0.354, act_lr=9.23e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:37<03:44,  2.31s/it, pg=0.07, rm=0.875, ret=-0.0994, glen=171, tlen=806, kl=0.378, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:37<06:56,  4.34s/it, pg=0.07, rm=0.875, ret=-0.0994, glen=171, tlen=806, kl=0.378, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:39<06:56,  4.34s/it, pg=-0.256, rm=1.06, ret=0.232, glen=158, tlen=879, kl=0.354, act_lr=9.22e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:39<05:43,  3.61s/it, pg=-0.256, rm=1.06, ret=0.232, glen=158, tlen=879, kl=0.354, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:41<05:43,  3.61s/it, pg=-0.162, rm=0.938, ret=0.139, glen=157, tlen=815, kl=0.33, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:41<04:50,  3.09s/it, pg=-0.162, rm=0.938, ret=0.139, glen=157, tlen=815, kl=0.33, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:43<04:50,  3.09s/it, pg=0.0561, rm=0.875, ret=-0.0827, glen=158, tlen=851, kl=0.379, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:43<04:32,  2.93s/it, pg=0.0561, rm=0.875, ret=-0.0827, glen=158, tlen=851, kl=0.379, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:45<04:32,  2.93s/it, pg=0.27, rm=1.09, ret=-0.289, glen=148, tlen=658, kl=0.33, act_lr=9.22e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:45<03:57,  2.58s/it, pg=0.27, rm=1.09, ret=-0.289, glen=148, tlen=658, kl=0.33, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:47<03:57,  2.58s/it, pg=0.028, rm=1, ret=-0.0524, glen=165, tlen=825, kl=0.339, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:47<03:38,  2.40s/it, pg=0.028, rm=1, ret=-0.0524, glen=165, tlen=825, kl=0.339, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:49<03:38,  2.40s/it, pg=-0.0696, rm=1.06, ret=0.0463, glen=166, tlen=770, kl=0.299, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:49<03:20,  2.23s/it, pg=-0.0696, rm=1.06, ret=0.0463, glen=166, tlen=770, kl=0.299, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:51<03:20,  2.23s/it, pg=-0.133, rm=1.12, ret=0.107, glen=163, tlen=662, kl=0.346, act_lr=9.22e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:51<03:12,  2.16s/it, pg=-0.133, rm=1.12, ret=0.107, glen=163, tlen=662, kl=0.346, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:00<03:12,  2.16s/it, pg=-0.122, rm=1, ret=0.0951, glen=169, tlen=950, kl=0.341, act_lr=9.22e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:00<06:15,  4.27s/it, pg=-0.122, rm=1, ret=0.0951, glen=169, tlen=950, kl=0.341, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:02<06:15,  4.27s/it, pg=-0.0779, rm=0.875, ret=0.0535, glen=166, tlen=778, kl=0.328, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:02<05:11,  3.59s/it, pg=-0.0779, rm=0.875, ret=0.0535, glen=166, tlen=778, kl=0.328, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:04<05:11,  3.59s/it, pg=0.132, rm=1.06, ret=-0.155, glen=169, tlen=917, kl=0.344, act_lr=9.22e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:04<04:29,  3.13s/it, pg=0.132, rm=1.06, ret=-0.155, glen=169, tlen=917, kl=0.344, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:06<04:29,  3.13s/it, pg=0.0129, rm=1, ret=-0.0384, glen=166, tlen=858, kl=0.326, act_lr=9.22e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:06<04:05,  2.88s/it, pg=0.0129, rm=1, ret=-0.0384, glen=166, tlen=858, kl=0.326, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:09<04:05,  2.88s/it, pg=0.0886, rm=0.875, ret=-0.113, glen=160, tlen=854, kl=0.347, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:09<03:47,  2.71s/it, pg=0.0886, rm=0.875, ret=-0.113, glen=160, tlen=854, kl=0.347, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:11<03:47,  2.71s/it, pg=0.0171, rm=1, ret=-0.0432, glen=173, tlen=866, kl=0.34, act_lr=9.22e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:11<03:26,  2.49s/it, pg=0.0171, rm=1, ret=-0.0432, glen=173, tlen=866, kl=0.34, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:13<03:26,  2.49s/it, pg=0.303, rm=0.812, ret=-0.325, glen=166, tlen=881, kl=0.333, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:13<03:14,  2.38s/it, pg=0.303, rm=0.812, ret=-0.325, glen=166, tlen=881, kl=0.333, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:15<03:14,  2.38s/it, pg=0.149, rm=0.812, ret=-0.177, glen=177, tlen=808, kl=0.366, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:15<03:04,  2.28s/it, pg=0.149, rm=0.812, ret=-0.177, glen=177, tlen=808, kl=0.366, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:24<03:04,  2.28s/it, pg=0.000272, rm=1.06, ret=-0.0275, glen=170, tlen=849, kl=0.346, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:24<05:40,  4.25s/it, pg=0.000272, rm=1.06, ret=-0.0275, glen=170, tlen=849, kl=0.346, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:25<05:40,  4.25s/it, pg=0.221, rm=0.875, ret=-0.242, glen=161, tlen=830, kl=0.326, act_lr=9.22e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:25<04:39,  3.54s/it, pg=0.221, rm=0.875, ret=-0.242, glen=161, tlen=830, kl=0.326, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:28<04:39,  3.54s/it, pg=0.00329, rm=1.06, ret=-0.0296, glen=178, tlen=857, kl=0.342, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:28<04:02,  3.11s/it, pg=0.00329, rm=1.06, ret=-0.0296, glen=178, tlen=857, kl=0.342, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:30<04:02,  3.11s/it, pg=0.0148, rm=1, ret=-0.0392, glen=165, tlen=847, kl=0.332, act_lr=9.22e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:30<03:35,  2.80s/it, pg=0.0148, rm=1, ret=-0.0392, glen=165, tlen=847, kl=0.332, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:31<03:35,  2.80s/it, pg=0.0207, rm=1.06, ret=-0.0489, glen=164, tlen=764, kl=0.393, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:31<03:09,  2.49s/it, pg=0.0207, rm=1.06, ret=-0.0489, glen=164, tlen=764, kl=0.393, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:33<03:09,  2.49s/it, pg=0.0174, rm=1.06, ret=-0.0463, glen=173, tlen=772, kl=0.359, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:33<02:55,  2.34s/it, pg=0.0174, rm=1.06, ret=-0.0463, glen=173, tlen=772, kl=0.359, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:35<02:55,  2.34s/it, pg=0.186, rm=1.06, ret=-0.211, glen=156, tlen=728, kl=0.33, act_lr=9.22e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:35<02:41,  2.18s/it, pg=0.186, rm=1.06, ret=-0.211, glen=156, tlen=728, kl=0.33, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:37<02:41,  2.18s/it, pg=-0.0182, rm=0.875, ret=-0.00901, glen=187, tlen=907, kl=0.333, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:37<02:32,  2.08s/it, pg=-0.0182, rm=0.875, ret=-0.00901, glen=187, tlen=907, kl=0.333, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:46<02:32,  2.08s/it, pg=0.0389, rm=1, ret=-0.0663, glen=171, tlen=919, kl=0.341, act_lr=9.22e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:46<05:07,  4.27s/it, pg=0.0389, rm=1, ret=-0.0663, glen=171, tlen=919, kl=0.341, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:49<05:07,  4.27s/it, pg=0.0531, rm=0.875, ret=-0.0787, glen=164, tlen=838, kl=0.341, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:49<04:18,  3.65s/it, pg=0.0531, rm=0.875, ret=-0.0787, glen=164, tlen=838, kl=0.341, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:51<04:18,  3.65s/it, pg=0.109, rm=0.812, ret=-0.133, glen=162, tlen=810, kl=0.341, act_lr=9.22e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:51<03:41,  3.16s/it, pg=0.109, rm=0.812, ret=-0.133, glen=162, tlen=810, kl=0.341, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:53<03:41,  3.16s/it, pg=-0.0392, rm=1.12, ret=0.012, glen=168, tlen=1040.0, kl=0.357, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:53<03:15,  2.83s/it, pg=-0.0392, rm=1.12, ret=0.012, glen=168, tlen=1040.0, kl=0.357, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:55<03:15,  2.83s/it, pg=0.0679, rm=0.938, ret=-0.0941, glen=167, tlen=889, kl=0.354, act_lr=9.22e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:55<02:52,  2.54s/it, pg=0.0679, rm=0.938, ret=-0.0941, glen=167, tlen=889, kl=0.354, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:57<02:52,  2.54s/it, pg=-0.0952, rm=0.938, ret=0.0694, glen=158, tlen=879, kl=0.361, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:57<02:43,  2.45s/it, pg=-0.0952, rm=0.938, ret=0.0694, glen=158, tlen=879, kl=0.361, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [02:59<02:43,  2.45s/it, pg=-0.103, rm=1.06, ret=0.0768, glen=163, tlen=883, kl=0.371, act_lr=9.22e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [02:59<02:35,  2.36s/it, pg=-0.103, rm=1.06, ret=0.0768, glen=163, tlen=883, kl=0.371, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:01<02:35,  2.36s/it, pg=0.167, rm=1.06, ret=-0.192, glen=159, tlen=672, kl=0.351, act_lr=9.22e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:01<02:22,  2.19s/it, pg=0.167, rm=1.06, ret=-0.192, glen=159, tlen=672, kl=0.351, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:10<02:22,  2.19s/it, pg=-0.0196, rm=0.875, ret=-0.00638, glen=185, tlen=905, kl=0.323, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:10<04:30,  4.23s/it, pg=-0.0196, rm=0.875, ret=-0.00638, glen=185, tlen=905, kl=0.323, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:12<04:30,  4.23s/it, pg=0.119, rm=0.875, ret=-0.143, glen=160, tlen=846, kl=0.323, act_lr=9.22e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:12<03:47,  3.61s/it, pg=0.119, rm=0.875, ret=-0.143, glen=160, tlen=846, kl=0.323, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:14<03:47,  3.61s/it, pg=0.0825, rm=1.06, ret=-0.108, glen=158, tlen=666, kl=0.35, act_lr=9.22e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:14<03:10,  3.07s/it, pg=0.0825, rm=1.06, ret=-0.108, glen=158, tlen=666, kl=0.35, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:16<03:10,  3.07s/it, pg=0.109, rm=0.812, ret=-0.137, glen=154, tlen=803, kl=0.381, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:16<02:49,  2.78s/it, pg=0.109, rm=0.812, ret=-0.137, glen=154, tlen=803, kl=0.381, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:18<02:49,  2.78s/it, pg=0.178, rm=0.75, ret=-0.204, glen=168, tlen=790, kl=0.348, act_lr=9.22e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:18<02:38,  2.64s/it, pg=0.178, rm=0.75, ret=-0.204, glen=168, tlen=790, kl=0.348, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:20<02:38,  2.64s/it, pg=0.0339, rm=0.938, ret=-0.0574, glen=156, tlen=859, kl=0.321, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:20<02:24,  2.45s/it, pg=0.0339, rm=0.938, ret=-0.0574, glen=156, tlen=859, kl=0.321, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:22<02:24,  2.45s/it, pg=0.0527, rm=1.06, ret=-0.0753, glen=146, tlen=720, kl=0.352, act_lr=9.22e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:22<02:13,  2.31s/it, pg=0.0527, rm=1.06, ret=-0.0753, glen=146, tlen=720, kl=0.352, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:24<02:13,  2.31s/it, pg=0.038, rm=1, ret=-0.0643, glen=162, tlen=910, kl=0.349, act_lr=9.22e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:24<02:04,  2.18s/it, pg=0.038, rm=1, ret=-0.0643, glen=162, tlen=910, kl=0.349, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:33<02:04,  2.18s/it, pg=-0.0209, rm=1.19, ret=-0.004, glen=161, tlen=946, kl=0.337, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:33<03:59,  4.28s/it, pg=-0.0209, rm=1.19, ret=-0.004, glen=161, tlen=946, kl=0.337, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:35<03:59,  4.28s/it, pg=0.0546, rm=0.875, ret=-0.0798, glen=162, tlen=855, kl=0.352, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:35<03:16,  3.57s/it, pg=0.0546, rm=0.875, ret=-0.0798, glen=162, tlen=855, kl=0.352, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:37<03:16,  3.57s/it, pg=-0.0696, rm=1, ret=0.042, glen=166, tlen=886, kl=0.358, act_lr=9.22e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:37<02:51,  3.17s/it, pg=-0.0696, rm=1, ret=0.042, glen=166, tlen=886, kl=0.358, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:39<02:51,  3.17s/it, pg=0.0354, rm=0.875, ret=-0.0608, glen=173, tlen=757, kl=0.34, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:39<02:26,  2.77s/it, pg=0.0354, rm=0.875, ret=-0.0608, glen=173, tlen=757, kl=0.34, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:41<02:26,  2.77s/it, pg=0.21, rm=0.938, ret=-0.234, glen=168, tlen=828, kl=0.327, act_lr=9.22e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:41<02:15,  2.60s/it, pg=0.21, rm=0.938, ret=-0.234, glen=168, tlen=828, kl=0.327, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:43<02:15,  2.60s/it, pg=-0.0857, rm=1, ret=0.0588, glen=178, tlen=810, kl=0.347, act_lr=9.22e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:43<02:04,  2.44s/it, pg=-0.0857, rm=1, ret=0.0588, glen=178, tlen=810, kl=0.347, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:46<02:04,  2.44s/it, pg=-0.0467, rm=1.06, ret=0.0247, glen=151, tlen=1.11e+3, kl=0.314, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:46<01:56,  2.33s/it, pg=-0.0467, rm=1.06, ret=0.0247, glen=151, tlen=1.11e+3, kl=0.314, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:48<01:56,  2.33s/it, pg=-0.0136, rm=1, ret=-0.00806, glen=168, tlen=882, kl=0.323, act_lr=9.22e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:48<01:51,  2.27s/it, pg=-0.0136, rm=1, ret=-0.00806, glen=168, tlen=882, kl=0.323, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:57<01:51,  2.27s/it, pg=0.413, rm=0.938, ret=-0.433, glen=145, tlen=1.29e+3, kl=0.317, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:57<03:36,  4.52s/it, pg=0.413, rm=0.938, ret=-0.433, glen=145, tlen=1.29e+3, kl=0.317, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [03:59<03:36,  4.52s/it, pg=0.0505, rm=0.75, ret=-0.0748, glen=160, tlen=866, kl=0.325, act_lr=9.22e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [03:59<02:54,  3.72s/it, pg=0.0505, rm=0.75, ret=-0.0748, glen=160, tlen=866, kl=0.325, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:01<02:54,  3.72s/it, pg=-0.0573, rm=0.938, ret=0.0353, glen=169, tlen=1.06e+3, kl=0.302, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:01<02:28,  3.23s/it, pg=-0.0573, rm=0.938, ret=0.0353, glen=169, tlen=1.06e+3, kl=0.302, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:03<02:28,  3.23s/it, pg=0.0353, rm=0.938, ret=-0.0603, glen=171, tlen=874, kl=0.311, act_lr=9.22e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:03<02:10,  2.90s/it, pg=0.0353, rm=0.938, ret=-0.0603, glen=171, tlen=874, kl=0.311, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:05<02:10,  2.90s/it, pg=0.0528, rm=0.75, ret=-0.0783, glen=162, tlen=869, kl=0.342, act_lr=9.22e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:05<01:53,  2.58s/it, pg=0.0528, rm=0.75, ret=-0.0783, glen=162, tlen=869, kl=0.342, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:07<01:53,  2.58s/it, pg=-0.0244, rm=0.938, ret=0.00168, glen=163, tlen=790, kl=0.317, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:07<01:44,  2.43s/it, pg=-0.0244, rm=0.938, ret=0.00168, glen=163, tlen=790, kl=0.317, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:10<01:44,  2.43s/it, pg=0.0524, rm=0.938, ret=-0.0775, glen=174, tlen=928, kl=0.315, act_lr=9.22e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:10<01:39,  2.38s/it, pg=0.0524, rm=0.938, ret=-0.0775, glen=174, tlen=928, kl=0.315, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:11<01:39,  2.38s/it, pg=-0.494, rm=1.12, ret=0.468, glen=171, tlen=893, kl=0.363, act_lr=9.22e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:11<01:30,  2.22s/it, pg=-0.494, rm=1.12, ret=0.468, glen=171, tlen=893, kl=0.363, act_lr=9.22e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:21<01:30,  2.22s/it, pg=-0.0435, rm=1.06, ret=0.0198, glen=152, tlen=1107.0, kl=0.342, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:21<02:56,  4.41s/it, pg=-0.0435, rm=1.06, ret=0.0198, glen=152, tlen=1107.0, kl=0.342, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:23<02:56,  4.41s/it, pg=-0.00204, rm=0.875, ret=-0.0213, glen=161, tlen=811, kl=0.335, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:23<02:24,  3.71s/it, pg=-0.00204, rm=0.875, ret=-0.0213, glen=161, tlen=811, kl=0.335, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:25<02:24,  3.71s/it, pg=0.0385, rm=0.875, ret=-0.0661, glen=164, tlen=937, kl=0.359, act_lr=9.21e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:25<02:03,  3.25s/it, pg=0.0385, rm=0.875, ret=-0.0661, glen=164, tlen=937, kl=0.359, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:27<02:03,  3.25s/it, pg=0.0294, rm=1.12, ret=-0.0576, glen=168, tlen=760, kl=0.367, act_lr=9.21e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:27<01:49,  2.95s/it, pg=0.0294, rm=1.12, ret=-0.0576, glen=168, tlen=760, kl=0.367, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:29<01:49,  2.95s/it, pg=0.0644, rm=0.812, ret=-0.0892, glen=158, tlen=912, kl=0.343, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:29<01:34,  2.62s/it, pg=0.0644, rm=0.812, ret=-0.0892, glen=158, tlen=912, kl=0.343, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:31<01:34,  2.62s/it, pg=0.0147, rm=0.938, ret=-0.0402, glen=169, tlen=782, kl=0.33, act_lr=9.21e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:31<01:23,  2.38s/it, pg=0.0147, rm=0.938, ret=-0.0402, glen=169, tlen=782, kl=0.33, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:33<01:23,  2.38s/it, pg=-0.13, rm=1, ret=0.11, glen=161, tlen=882, kl=0.323, act_lr=9.21e-7]       [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:33<01:17,  2.27s/it, pg=-0.13, rm=1, ret=0.11, glen=161, tlen=882, kl=0.323, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:35<01:17,  2.27s/it, pg=0.106, rm=0.75, ret=-0.136, glen=174, tlen=842, kl=0.379, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:35<01:13,  2.24s/it, pg=0.106, rm=0.75, ret=-0.136, glen=174, tlen=842, kl=0.379, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:44<01:13,  2.24s/it, pg=0.0912, rm=0.75, ret=-0.12, glen=173, tlen=899, kl=0.359, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:44<02:12,  4.15s/it, pg=0.0912, rm=0.75, ret=-0.12, glen=173, tlen=899, kl=0.359, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:46<02:12,  4.15s/it, pg=0.14, rm=0.875, ret=-0.166, glen=158, tlen=747, kl=0.355, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:46<01:49,  3.53s/it, pg=0.14, rm=0.875, ret=-0.166, glen=158, tlen=747, kl=0.355, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:48<01:49,  3.53s/it, pg=-0.0957, rm=0.938, ret=0.0736, glen=169, tlen=792, kl=0.342, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:48<01:30,  3.03s/it, pg=-0.0957, rm=0.938, ret=0.0736, glen=169, tlen=792, kl=0.342, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:50<01:30,  3.03s/it, pg=-0.0493, rm=0.938, ret=0.0261, glen=161, tlen=852, kl=0.324, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:50<01:21,  2.79s/it, pg=-0.0493, rm=0.938, ret=0.0261, glen=161, tlen=852, kl=0.324, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:52<01:21,  2.79s/it, pg=0.0379, rm=0.938, ret=-0.0627, glen=168, tlen=871, kl=0.33, act_lr=9.21e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:52<01:13,  2.63s/it, pg=0.0379, rm=0.938, ret=-0.0627, glen=168, tlen=871, kl=0.33, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:54<01:13,  2.63s/it, pg=0.189, rm=1.06, ret=-0.216, glen=157, tlen=728, kl=0.362, act_lr=9.21e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:54<01:04,  2.38s/it, pg=0.189, rm=1.06, ret=-0.216, glen=157, tlen=728, kl=0.362, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:57<01:04,  2.38s/it, pg=0.172, rm=0.875, ret=-0.197, glen=171, tlen=893, kl=0.347, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:57<01:01,  2.37s/it, pg=0.172, rm=0.875, ret=-0.197, glen=171, tlen=893, kl=0.347, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [04:58<01:01,  2.37s/it, pg=0.147, rm=0.812, ret=-0.172, glen=184, tlen=807, kl=0.305, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [04:58<00:55,  2.22s/it, pg=0.147, rm=0.812, ret=-0.172, glen=184, tlen=807, kl=0.305, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:07<00:55,  2.22s/it, pg=0.00388, rm=0.812, ret=-0.0257, glen=174, tlen=892, kl=0.324, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:07<01:39,  4.16s/it, pg=0.00388, rm=0.812, ret=-0.0257, glen=174, tlen=892, kl=0.324, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:09<01:39,  4.16s/it, pg=0.035, rm=1.06, ret=-0.0591, glen=159, tlen=730, kl=0.33, act_lr=9.21e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:09<01:19,  3.47s/it, pg=0.035, rm=1.06, ret=-0.0591, glen=159, tlen=730, kl=0.33, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:11<01:19,  3.47s/it, pg=0.103, rm=1.06, ret=-0.127, glen=153, tlen=1.11e+3, kl=0.331, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:11<01:08,  3.10s/it, pg=0.103, rm=1.06, ret=-0.127, glen=153, tlen=1.11e+3, kl=0.331, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:13<01:08,  3.10s/it, pg=0.152, rm=0.875, ret=-0.171, glen=151, tlen=1.04e+3, kl=0.296, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:13<00:58,  2.78s/it, pg=0.152, rm=0.875, ret=-0.171, glen=151, tlen=1.04e+3, kl=0.296, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:15<00:58,  2.78s/it, pg=0.0179, rm=1, ret=-0.0451, glen=166, tlen=848, kl=0.365, act_lr=9.21e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:15<00:49,  2.50s/it, pg=0.0179, rm=1, ret=-0.0451, glen=166, tlen=848, kl=0.365, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:17<00:49,  2.50s/it, pg=-0.149, rm=0.938, ret=0.124, glen=170, tlen=800, kl=0.348, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:17<00:44,  2.34s/it, pg=-0.149, rm=0.938, ret=0.124, glen=170, tlen=800, kl=0.348, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:19<00:44,  2.34s/it, pg=0.0165, rm=0.938, ret=-0.0439, glen=175, tlen=788, kl=0.341, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:19<00:40,  2.26s/it, pg=0.0165, rm=0.938, ret=-0.0439, glen=175, tlen=788, kl=0.341, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:21<00:40,  2.26s/it, pg=-0.0351, rm=0.812, ret=0.00754, glen=174, tlen=843, kl=0.357, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:21<00:37,  2.18s/it, pg=-0.0351, rm=0.812, ret=0.00754, glen=174, tlen=843, kl=0.357, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:30<00:37,  2.18s/it, pg=0.00812, rm=0.812, ret=-0.0321, glen=173, tlen=868, kl=0.331, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:30<01:06,  4.16s/it, pg=0.00812, rm=0.812, ret=-0.0321, glen=173, tlen=868, kl=0.331, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:32<01:06,  4.16s/it, pg=0.152, rm=0.875, ret=-0.178, glen=168, tlen=829, kl=0.331, act_lr=9.21e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:32<00:54,  3.62s/it, pg=0.152, rm=0.875, ret=-0.178, glen=168, tlen=829, kl=0.331, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:35<00:54,  3.62s/it, pg=0.087, rm=1, ret=-0.11, glen=169, tlen=853, kl=0.331, act_lr=9.21e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:35<00:45,  3.23s/it, pg=0.087, rm=1, ret=-0.11, glen=169, tlen=853, kl=0.331, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:37<00:45,  3.23s/it, pg=0.0301, rm=1, ret=-0.0538, glen=162, tlen=1.1e+3, kl=0.339, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:37<00:37,  2.86s/it, pg=0.0301, rm=1, ret=-0.0538, glen=162, tlen=1.1e+3, kl=0.339, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:38<00:37,  2.86s/it, pg=-0.0921, rm=1.12, ret=0.0682, glen=160, tlen=766, kl=0.317, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:38<00:30,  2.55s/it, pg=-0.0921, rm=1.12, ret=0.0682, glen=160, tlen=766, kl=0.317, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:40<00:30,  2.55s/it, pg=0.0393, rm=1, ret=-0.0651, glen=165, tlen=906, kl=0.351, act_lr=9.21e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:40<00:26,  2.40s/it, pg=0.0393, rm=1, ret=-0.0651, glen=165, tlen=906, kl=0.351, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:43<00:26,  2.40s/it, pg=-0.171, rm=1.19, ret=0.152, glen=152, tlen=1.11e+3, kl=0.341, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:43<00:23,  2.34s/it, pg=-0.171, rm=1.19, ret=0.152, glen=152, tlen=1.11e+3, kl=0.341, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:44<00:23,  2.34s/it, pg=0.0545, rm=1, ret=-0.0809, glen=167, tlen=828, kl=0.348, act_lr=9.21e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:44<00:19,  2.19s/it, pg=0.0545, rm=1, ret=-0.0809, glen=167, tlen=828, kl=0.348, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:53<00:19,  2.19s/it, pg=0.304, rm=0.75, ret=-0.334, glen=172, tlen=786, kl=0.35, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:53<00:33,  4.13s/it, pg=0.304, rm=0.75, ret=-0.334, glen=172, tlen=786, kl=0.35, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:55<00:33,  4.13s/it, pg=0.0528, rm=0.812, ret=-0.0784, glen=163, tlen=950, kl=0.34, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:55<00:25,  3.58s/it, pg=0.0528, rm=0.812, ret=-0.0784, glen=163, tlen=950, kl=0.34, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [05:58<00:25,  3.58s/it, pg=0.0556, rm=0.875, ret=-0.0796, glen=157, tlen=880, kl=0.353, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [05:58<00:19,  3.29s/it, pg=0.0556, rm=0.875, ret=-0.0796, glen=157, tlen=880, kl=0.353, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:00<00:19,  3.29s/it, pg=0.0702, rm=0.812, ret=-0.0992, glen=172, tlen=900, kl=0.374, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:00<00:14,  2.87s/it, pg=0.0702, rm=0.812, ret=-0.0992, glen=172, tlen=900, kl=0.374, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:02<00:14,  2.87s/it, pg=-0.0102, rm=0.875, ret=-0.012, glen=161, tlen=849, kl=0.331, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:02<00:10,  2.69s/it, pg=-0.0102, rm=0.875, ret=-0.012, glen=161, tlen=849, kl=0.331, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:04<00:10,  2.69s/it, pg=-0.123, rm=0.938, ret=0.0997, glen=158, tlen=743, kl=0.337, act_lr=9.21e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:04<00:07,  2.47s/it, pg=-0.123, rm=0.938, ret=0.0997, glen=158, tlen=743, kl=0.337, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:06<00:07,  2.47s/it, pg=0.354, rm=0.75, ret=-0.378, glen=157, tlen=911, kl=0.319, act_lr=9.21e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:06<00:04,  2.36s/it, pg=0.354, rm=0.75, ret=-0.378, glen=157, tlen=911, kl=0.319, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:08<00:04,  2.36s/it, pg=0.0609, rm=0.875, ret=-0.0834, glen=158, tlen=743, kl=0.323, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:08<00:02,  2.20s/it, pg=0.0609, rm=0.875, ret=-0.0834, glen=158, tlen=743, kl=0.323, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:17<00:02,  2.20s/it, pg=0.0416, rm=0.875, ret=-0.0707, glen=170, tlen=944, kl=0.372, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:17<00:00,  4.27s/it, pg=0.0416, rm=0.875, ret=-0.0707, glen=170, tlen=944, kl=0.372, act_lr=9.21e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:17<00:00,  2.95s/it, pg=0.0416, rm=0.875, ret=-0.0707, glen=170, tlen=944, kl=0.372, act_lr=9.21e-7]
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 15:25:15 [executor_base.py:219] It took 1.619879 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279379)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 15:25:16 [executor_base.py:219] It took 3.158577 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.1.input_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 3252x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.10.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 855x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.19.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 838x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 811x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 15:25:40 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.47 GiB memory is still in use.
+[36m(LLMRayActor pid=279379)[0m INFO 05-28 15:25:40 [executor_base.py:208] It took 2.176406 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  16%|█▌        | 20/127 [4:12:23<21:48:20, 733.65s/it, policy_loss=0.0308, actor_lr=9.22e-7, kl=0.339, reward=0.945, response_length=164, total_length=862, acc_rewards=0.445, format_rewards=0.5, return=-0.0557]
+Episode [1/2]:  17%|█▋        | 21/127 [4:12:23<21:14:34, 721.46s/it, policy_loss=0.0308, actor_lr=9.22e-7, kl=0.339, reward=0.945, response_length=164, total_length=862, acc_rewards=0.445, format_rewards=0.5, return=-0.0557]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:25:43 [executor_base.py:219] It took 2.640462 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 14x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   0%|          | 1/256 [00:18<1:20:12, 18.87s/it, est. speed input: 26.18 toks/s, output: 4.77 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   1%|          | 2/256 [00:19<34:11,  8.08s/it, est. speed input: 50.95 toks/s, output: 9.90 toks/s]  
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   1%|          | 3/256 [00:19<19:05,  4.53s/it, est. speed input: 70.31 toks/s, output: 15.28 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   2%|▏         | 4/256 [00:19<11:43,  2.79s/it, est. speed input: 147.61 toks/s, output: 20.83 toks/s]
+Processed prompts:   2%|▏         | 6/256 [00:20<05:39,  1.36s/it, est. speed input: 248.12 toks/s, output: 32.15 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   3%|▎         | 8/256 [00:20<03:20,  1.23it/s, est. speed input: 342.11 toks/s, output: 43.57 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   4%|▍         | 10/256 [00:20<02:09,  1.90it/s, est. speed input: 388.62 toks/s, output: 55.31 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   5%|▍         | 12/256 [00:20<01:30,  2.70it/s, est. speed input: 480.06 toks/s, output: 67.16 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:   7%|▋         | 19/256 [00:20<00:35,  6.68it/s, est. speed input: 684.23 toks/s, output: 110.34 toks/s]
+Processed prompts:  10%|▉         | 25/256 [00:20<00:21, 10.71it/s, est. speed input: 869.44 toks/s, output: 148.04 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  11%|█         | 28/256 [00:20<00:18, 12.31it/s, est. speed input: 925.52 toks/s, output: 166.56 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  13%|█▎        | 34/256 [00:21<00:12, 17.58it/s, est. speed input: 1031.98 toks/s, output: 205.07 toks/s]
+Processed prompts:  15%|█▌        | 39/256 [00:21<00:10, 21.48it/s, est. speed input: 1139.50 toks/s, output: 237.28 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  18%|█▊        | 46/256 [00:21<00:07, 28.57it/s, est. speed input: 1293.04 toks/s, output: 283.55 toks/s]
+Processed prompts:  21%|██        | 54/256 [00:21<00:05, 36.98it/s, est. speed input: 1522.31 toks/s, output: 337.20 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  23%|██▎       | 60/256 [00:21<00:04, 40.51it/s, est. speed input: 1649.15 toks/s, output: 377.45 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  26%|██▌       | 67/256 [00:21<00:04, 45.66it/s, est. speed input: 1843.13 toks/s, output: 425.09 toks/s]
+Processed prompts:  30%|██▉       | 76/256 [00:21<00:03, 55.05it/s, est. speed input: 2095.39 toks/s, output: 487.65 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  36%|███▌      | 92/256 [00:21<00:02, 80.31it/s, est. speed input: 2581.10 toks/s, output: 602.04 toks/s]
+Processed prompts:  44%|████▍     | 113/256 [00:21<00:01, 105.53it/s, est. speed input: 3110.35 toks/s, output: 754.14 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  54%|█████▎    | 137/256 [00:22<00:01, 103.09it/s, est. speed input: 3610.16 toks/s, output: 928.46 toks/s]
+Processed prompts:  60%|█████▉    | 153/256 [00:22<00:00, 117.62it/s, est. speed input: 4091.02 toks/s, output: 1049.49 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  66%|██████▋   | 170/256 [00:22<00:00, 125.65it/s, est. speed input: 4445.01 toks/s, output: 1179.81 toks/s]
+Processed prompts:  72%|███████▏  | 184/256 [00:22<00:00, 124.98it/s, est. speed input: 4728.74 toks/s, output: 1288.54 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  95%|█████████▍| 243/256 [00:23<00:00, 101.31it/s, est. speed input: 5875.21 toks/s, output: 1766.71 toks/s]
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts:  99%|█████████▉| 254/256 [00:23<00:00, 41.43it/s, est. speed input: 5913.33 toks/s, output: 1822.46 toks/s] 
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  13%|█▎        | 34/256 [00:22<00:16, 13.44it/s, est. speed input: 1359.34 toks/s, output: 175.44 toks/s][32m [repeated 9x across cluster][0m
+[36m(LLMRayActor pid=279377)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:24<00:00, 10.66it/s, est. speed input: 5910.95 toks/s, output: 1830.97 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  70%|██████▉   | 178/256 [00:23<00:00, 112.91it/s, est. speed input: 4836.93 toks/s, output: 1086.29 toks/s]
+Processed prompts:  77%|███████▋  | 196/256 [00:23<00:00, 127.90it/s, est. speed input: 5166.18 toks/s, output: 1214.74 toks/s][32m [repeated 9x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  87%|████████▋ | 223/256 [00:24<00:00, 102.84it/s, est. speed input: 5632.01 toks/s, output: 1407.88 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:24<00:00, 97.97it/s, est. speed input: 5829.04 toks/s, output: 1490.82 toks/s] 
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:25<00:00, 35.25it/s, est. speed input: 6123.07 toks/s, output: 1625.71 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:25<00:00, 10.19it/s, est. speed input: 6123.07 toks/s, output: 1625.71 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  96%|█████████▌| 245/256 [00:24<00:00, 99.48it/s, est. speed input: 6029.48 toks/s, output: 1578.33 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  18%|█▊        | 45/256 [00:27<00:08, 24.09it/s, est. speed input: 2104.50 toks/s, output: 188.23 toks/s][32m [repeated 23x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  96%|█████████▋| 247/256 [00:27<00:00, 90.02it/s, est. speed input: 6114.68 toks/s, output: 1487.09 toks/s] 
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  32%|███▏      | 83/256 [00:27<00:03, 46.04it/s, est. speed input: 3311.11 toks/s, output: 372.16 toks/s]
+Processed prompts:  38%|███▊      | 96/256 [00:28<00:02, 63.41it/s, est. speed input: 3502.96 toks/s, output: 440.28 toks/s][32m [repeated 13x across cluster][0m
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:28<00:00,  9.09it/s, est. speed input: 6168.65 toks/s, output: 1526.78 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:  87%|████��███▋ | 223/256 [00:27<00:00, 103.69it/s, est. speed input: 5679.85 toks/s, output: 1314.63 toks/s]
+Processed prompts:  92%|█████████▏| 235/256 [00:27<00:00, 105.07it/s, est. speed input: 5891.09 toks/s, output: 1401.13 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   2%|▏         | 6/256 [00:22<05:49,  1.40s/it, est. speed input: 137.85 toks/s, output: 29.13 toks/s][32m [repeated 9x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  99%|█████████▉| 254/256 [00:29<00:00, 53.74it/s, est. speed input: 6252.65 toks/s, output: 1366.41 toks/s] [32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  16%|█▋        | 42/256 [00:23<00:08, 26.31it/s, est. speed input: 1126.71 toks/s, output: 232.28 toks/s]
+Processed prompts:  20%|█▉        | 51/256 [00:23<00:05, 34.99it/s, est. speed input: 1398.53 toks/s, output: 285.71 toks/s][32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:26<00:00, 37.11it/s, est. speed input: 5929.90 toks/s, output: 1677.87 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:26<00:00,  9.79it/s, est. speed input: 5929.90 toks/s, output: 1677.87 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   8%|▊         | 21/256 [00:25<00:49,  4.71it/s, est. speed input: 1233.12 toks/s, output: 84.00 toks/s][32m [repeated 39x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  98%|█████████▊| 252/256 [00:31<00:00, 75.73it/s, est. speed input: 6549.79 toks/s, output: 1288.76 toks/s][32m [repeated 5x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts:  31%|███       | 79/256 [00:34<00:03, 51.59it/s, est. speed input: 2831.53 toks/s, output: 295.31 toks/s]
+Processed prompts:  36%|███▌      | 91/256 [00:34<00:02, 66.01it/s, est. speed input: 3144.97 toks/s, output: 346.08 toks/s][32m [repeated 19x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 15:25:40 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.41 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 15:25:40 [executor_base.py:208] It took 2.550803 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 15:25:45 [executor_base.py:219] It took 4.099728 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 905x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 905x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 885x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 885x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:27:32 [worker.py:133] Sleep mode freed 38.29 GiB memory, 22.17 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:27:32 [executor_base.py:208] It took 1.411265 seconds to fall asleep.
+[36m(ActorModelRayActor pid=287374)[0m ele.get("min_pixels" 3136[32m [repeated 248x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m ele.get("max_pixels" 1254400[32m [repeated 248x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00, 27.21it/s, est. speed input: 6062.18 toks/s, output: 1417.53 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:29<00:00,  8.67it/s, est. speed input: 6062.18 toks/s, output: 1417.53 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  89%|████████▉ | 228/256 [00:28<00:00, 94.02it/s, est. speed input: 5813.91 toks/s, output: 1252.55 toks/s] [32m [repeated 14x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:36<00:00,  6.97it/s, est. speed input: 6578.61 toks/s, output: 1134.16 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:  80%|████████  | 205/256 [00:27<00:00, 114.71it/s, est. speed input: 5424.69 toks/s, output: 1102.33 toks/s]
+Processed prompts:  85%|████████▍ | 217/256 [00:28<00:00, 103.89it/s, est. speed input: 5649.35 toks/s, output: 1179.70 toks/s][32m [repeated 8x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:55,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:59,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:04<02:59,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:05<02:58,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:07<02:53,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:08<02:51,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:09<02:53,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:11<02:48,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:12<02:52,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:14<02:48,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:15<02:44,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:17<02:43,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:18<02:43,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:19<02:41,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:21<02:39,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:22<02:37,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:24<02:33,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:25<02:30,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:26<02:26,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:27<02:25,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:29<02:22,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:30<02:19,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:31<02:15,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:33<02:15,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:34<02:16,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:35<02:18,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:37<02:18,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:38<02:18,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:40<02:17,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:41<02:18,  1.41s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:43<02:17,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:44<02:17,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:45<02:02,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:46<01:55,  1.23s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:47<01:46,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:48<01:41,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:49<01:37,  1.07s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:50<01:34,  1.05s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:51<01:31,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:52<01:30,  1.03s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:53<01:39,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  33%|███▎      | 42/128 [00:55<01:45,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▎      | 43/128 [00:56<01:47,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  34%|███▍      | 44/128 [00:58<01:48,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  35%|███▌      | 45/128 [00:59<01:49,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  36%|███▌      | 46/128 [01:00<01:48,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  37%|███▋      | 47/128 [01:02<01:48,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 48/128 [01:03<01:47,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  38%|███▊      | 49/128 [01:04<01:47,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  39%|███▉      | 50/128 [01:06<01:46,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  40%|███▉      | 51/128 [01:07<01:46,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████      | 52/128 [01:09<01:45,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  41%|████▏     | 53/128 [01:10<01:42,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  42%|████▏     | 54/128 [01:11<01:41,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  43%|████▎     | 55/128 [01:13<01:40,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  44%|████▍     | 56/128 [01:14<01:38,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▍     | 57/128 [01:15<01:36,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  45%|████▌     | 58/128 [01:17<01:32,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  46%|████▌     | 59/128 [01:18<01:30,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  47%|████▋     | 60/128 [01:19<01:28,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 61/128 [01:20<01:27,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  48%|████▊     | 62/128 [01:22<01:24,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  49%|████▉     | 63/128 [01:23<01:24,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  50%|█████     | 64/128 [01:24<01:23,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  51%|█████     | 65/128 [01:26<01:24,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 66/128 [01:27<01:21,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  52%|█████▏    | 67/128 [01:28<01:21,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  53%|█████▎    | 68/128 [01:30<01:19,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  54%|█████▍    | 69/128 [01:31<01:18,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▍    | 70/128 [01:32<01:17,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  55%|█████▌    | 71/128 [01:34<01:15,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  56%|█████▋    | 72/128 [01:35<01:14,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  57%|█████▋    | 73/128 [01:36<01:12,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  58%|█████▊    | 74/128 [01:38<01:11,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▊    | 75/128 [01:39<01:10,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  59%|█████▉    | 76/128 [01:40<01:08,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  60%|██████    | 77/128 [01:42<01:07,  1.32s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  61%|██████    | 78/128 [01:43<01:04,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▏   | 79/128 [01:44<01:02,  1.28s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  62%|██████▎   | 80/128 [01:45<01:01,  1.29s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  63%|██████▎   | 81/128 [01:47<01:01,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  64%|██████▍   | 82/128 [01:48<01:01,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  65%|██████▍   | 83/128 [01:49<00:59,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▌   | 84/128 [01:51<00:58,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  66%|██████▋   | 85/128 [01:52<00:58,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  67%|██████▋   | 86/128 [01:54<00:56,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  68%|██████▊   | 87/128 [01:55<00:55,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  69%|██████▉   | 88/128 [01:56<00:54,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|██████▉   | 89/128 [01:58<00:52,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  70%|███████   | 90/128 [01:59<00:52,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  71%|███████   | 91/128 [02:00<00:50,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  72%|███████▏  | 92/128 [02:02<00:51,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 93/128 [02:03<00:49,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  73%|███████▎  | 94/128 [02:05<00:48,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  74%|███████▍  | 95/128 [02:06<00:46,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  75%|███████▌  | 96/128 [02:08<00:45,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  76%|███████▌  | 97/128 [02:09<00:45,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 98/128 [02:11<00:43,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  77%|███████▋  | 99/128 [02:12<00:42,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  78%|███████▊  | 100/128 [02:14<00:40,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  79%|███████▉  | 101/128 [02:15<00:38,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|███████▉  | 102/128 [02:16<00:37,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  80%|████████  | 103/128 [02:18<00:36,  1.47s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  81%|████████▏ | 104/128 [02:19<00:34,  1.45s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  82%|████████▏ | 105/128 [02:21<00:33,  1.44s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  83%|████████▎ | 106/128 [02:22<00:30,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▎ | 107/128 [02:24<00:30,  1.46s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  84%|████████▍ | 108/128 [02:25<00:28,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  85%|████████▌ | 109/128 [02:26<00:27,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  86%|████████▌ | 110/128 [02:28<00:25,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  87%|████████▋ | 111/128 [02:29<00:24,  1.43s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 112/128 [02:31<00:22,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  88%|████████▊ | 113/128 [02:32<00:20,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  89%|████████▉ | 114/128 [02:33<00:19,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  90%|████████▉ | 115/128 [02:35<00:17,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████ | 116/128 [02:36<00:16,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  91%|█████████▏| 117/128 [02:37<00:14,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  92%|█████████▏| 118/128 [02:39<00:13,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  93%|█████████▎| 119/128 [02:40<00:12,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  94%|█████████▍| 120/128 [02:41<00:10,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▍| 121/128 [02:43<00:09,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  95%|█████████▌| 122/128 [02:44<00:08,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  96%|█████████▌| 123/128 [02:46<00:06,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  97%|█████████▋| 124/128 [02:47<00:05,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 125/128 [02:48<00:04,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  98%|█████████▊| 126/128 [02:50<00:02,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  99%|█████████▉| 127/128 [02:51<00:01,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience: 100%|██████████| 128/128 [02:53<00:00,  1.39s/it][A
+make_experience: 100%|██████████| 128/128 [02:53<00:00,  1.35s/it]
+[36m(ActorModelRayActor pid=286523)[0m ['system\nA conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>\nuser\nRate how well the visual matches the prompt: "cinematic areal shot of a fighter jet exploding from the energy wave concept art"\nPlease evaluate how well the image matches each element of provided prompt.\n\n And answer with the final alignment rating.\nRate it from 0 to 5 (float, 2 decimals). A rating of 0 represents very poor alignment level, while 5 represents excellent alignment level.\'\nassistant\n<think> The image depicts a fighter jet in a state of action, with what appears to be a large burst of fire or energy being directed towards it. The image has a strong cinematic feel, with a dynamic and intense scene. However, the concept of an "energy wave" does not align with the visual elements shown in the image. The explosion and the overall action suggest a more realistic and dynamic scenario, rather than a conceptual art piece. The image does not provide clear evidence of "concept art," as it seems to be a more realistic depiction of a scenario that could be part of a movie or a game.</think>\n<answer>3.00</answer>']
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:27:32 [worker.py:133] Sleep mode freed 38.49 GiB memory, 21.88 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:27:32 [executor_base.py:208] It took 1.679020 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m ele.get("min_pixels" 3136[32m [repeated 8x across cluster][0m
+[36m(ActorModelRayActor pid=287374)[0m ele.get("max_pixels" 1254400[32m [repeated 8x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   0%|          | 0/128 [00:03<?, ?it/s, pg=-0.0596, rm=0.938, ret=0.035, glen=172, tlen=924, kl=0.32, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:03<07:06,  3.36s/it, pg=-0.0596, rm=0.938, ret=0.035, glen=172, tlen=924, kl=0.32, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   1%|          | 1/128 [00:05<07:06,  3.36s/it, pg=0.00382, rm=0.875, ret=-0.0322, glen=177, tlen=819, kl=0.353, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:05<05:55,  2.82s/it, pg=0.00382, rm=0.875, ret=-0.0322, glen=177, tlen=819, kl=0.353, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 2/128 [00:07<05:55,  2.82s/it, pg=-0.063, rm=0.938, ret=0.0374, glen=165, tlen=833, kl=0.329, act_lr=9.21e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:07<05:14,  2.51s/it, pg=-0.063, rm=0.938, ret=0.0374, glen=165, tlen=833, kl=0.329, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   2%|▏         | 3/128 [00:10<05:14,  2.51s/it, pg=0.0439, rm=0.812, ret=-0.0688, glen=162, tlen=767, kl=0.329, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:10<04:55,  2.39s/it, pg=0.0439, rm=0.812, ret=-0.0688, glen=162, tlen=767, kl=0.329, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   3%|▎         | 4/128 [00:12<04:55,  2.39s/it, pg=0.072, rm=0.938, ret=-0.0964, glen=171, tlen=1.01e+3, kl=0.316, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:12<04:38,  2.27s/it, pg=0.072, rm=0.938, ret=-0.0964, glen=171, tlen=1.01e+3, kl=0.316, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   4%|▍         | 5/128 [00:14<04:38,  2.27s/it, pg=-0.169, rm=0.875, ret=0.146, glen=141, tlen=798, kl=0.319, act_lr=9.21e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:14<04:19,  2.13s/it, pg=-0.169, rm=0.875, ret=0.146, glen=141, tlen=798, kl=0.319, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▍         | 6/128 [00:16<04:19,  2.13s/it, pg=-0.121, rm=0.875, ret=0.0947, glen=173, tlen=838, kl=0.334, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:16<04:11,  2.08s/it, pg=-0.121, rm=0.875, ret=0.0947, glen=173, tlen=838, kl=0.334, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   5%|▌         | 7/128 [00:26<04:11,  2.08s/it, pg=0.178, rm=0.75, ret=-0.205, glen=167, tlen=874, kl=0.365, act_lr=9.21e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:26<09:17,  4.64s/it, pg=0.178, rm=0.75, ret=-0.205, glen=167, tlen=874, kl=0.365, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   6%|▋         | 8/128 [00:28<09:17,  4.64s/it, pg=-0.341, rm=1.12, ret=0.317, glen=164, tlen=820, kl=0.317, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:28<07:41,  3.88s/it, pg=-0.341, rm=1.12, ret=0.317, glen=164, tlen=820, kl=0.317, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   7%|▋         | 9/128 [00:30<07:41,  3.88s/it, pg=0.0219, rm=0.875, ret=-0.0447, glen=152, tlen=854, kl=0.325, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:30<06:37,  3.37s/it, pg=0.0219, rm=0.875, ret=-0.0447, glen=152, tlen=854, kl=0.325, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   8%|▊         | 10/128 [00:32<06:37,  3.37s/it, pg=0.194, rm=0.75, ret=-0.221, glen=180, tlen=928, kl=0.326, act_lr=9.21e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:32<05:48,  2.98s/it, pg=0.194, rm=0.75, ret=-0.221, glen=180, tlen=928, kl=0.326, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▊         | 11/128 [00:34<05:48,  2.98s/it, pg=0.0758, rm=1, ret=-0.0994, glen=163, tlen=1.05e+3, kl=0.3, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:34<05:14,  2.71s/it, pg=0.0758, rm=1, ret=-0.0994, glen=163, tlen=1.05e+3, kl=0.3, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:   9%|▉         | 12/128 [00:36<05:14,  2.71s/it, pg=0.00982, rm=0.938, ret=-0.0366, glen=175, tlen=952, kl=0.327, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:36<04:48,  2.51s/it, pg=0.00982, rm=0.938, ret=-0.0366, glen=175, tlen=952, kl=0.327, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  10%|█         | 13/128 [00:38<04:48,  2.51s/it, pg=0.0277, rm=0.875, ret=-0.0524, glen=158, tlen=911, kl=0.332, act_lr=9.21e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:38<04:30,  2.37s/it, pg=0.0277, rm=0.875, ret=-0.0524, glen=158, tlen=911, kl=0.332, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  11%|█         | 14/128 [00:40<04:30,  2.37s/it, pg=-0.182, rm=1, ret=0.158, glen=179, tlen=934, kl=0.288, act_lr=9.21e-7]      [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:40<04:17,  2.28s/it, pg=-0.182, rm=1, ret=0.158, glen=179, tlen=934, kl=0.288, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▏        | 15/128 [00:50<04:17,  2.28s/it, pg=0.228, rm=0.75, ret=-0.256, glen=174, tlen=852, kl=0.341, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:50<08:22,  4.49s/it, pg=0.228, rm=0.75, ret=-0.256, glen=174, tlen=852, kl=0.341, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  12%|█▎        | 16/128 [00:52<08:22,  4.49s/it, pg=0.149, rm=0.688, ret=-0.172, glen=151, tlen=954, kl=0.339, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:52<06:57,  3.76s/it, pg=0.149, rm=0.688, ret=-0.172, glen=151, tlen=954, kl=0.339, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  13%|█▎        | 17/128 [00:54<06:57,  3.76s/it, pg=0.0556, rm=0.75, ret=-0.0834, glen=160, tlen=784, kl=0.346, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:54<05:55,  3.23s/it, pg=0.0556, rm=0.75, ret=-0.0834, glen=160, tlen=784, kl=0.346, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  14%|█▍        | 18/128 [00:56<05:55,  3.23s/it, pg=-0.00678, rm=0.875, ret=-0.018, glen=165, tlen=829, kl=0.328, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:56<05:16,  2.90s/it, pg=-0.00678, rm=0.875, ret=-0.018, glen=165, tlen=829, kl=0.328, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  15%|█▍        | 19/128 [00:59<05:16,  2.90s/it, pg=-0.209, rm=1.06, ret=0.185, glen=160, tlen=1e+3, kl=0.326, act_lr=9.21e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [00:59<04:52,  2.71s/it, pg=-0.209, rm=1.06, ret=0.185, glen=160, tlen=1e+3, kl=0.326, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▌        | 20/128 [01:01<04:52,  2.71s/it, pg=-0.215, rm=1.12, ret=0.19, glen=171, tlen=910, kl=0.313, act_lr=9.21e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:01<04:36,  2.58s/it, pg=-0.215, rm=1.12, ret=0.19, glen=171, tlen=910, kl=0.313, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  16%|█▋        | 21/128 [01:03<04:36,  2.58s/it, pg=0.037, rm=0.812, ret=-0.0648, glen=164, tlen=854, kl=0.345, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:03<04:22,  2.48s/it, pg=0.037, rm=0.812, ret=-0.0648, glen=164, tlen=854, kl=0.345, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  17%|█▋        | 22/128 [01:05<04:22,  2.48s/it, pg=0.0594, rm=0.812, ret=-0.0846, glen=170, tlen=906, kl=0.327, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:05<04:01,  2.30s/it, pg=0.0594, rm=0.812, ret=-0.0846, glen=170, tlen=906, kl=0.327, act_lr=9.21e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  18%|█▊        | 23/128 [01:14<04:01,  2.30s/it, pg=0.00923, rm=0.938, ret=-0.0346, glen=170, tlen=948, kl=0.325, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:14<07:38,  4.41s/it, pg=0.00923, rm=0.938, ret=-0.0346, glen=170, tlen=948, kl=0.325, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  19%|█▉        | 24/128 [01:16<07:38,  4.41s/it, pg=0.298, rm=0.75, ret=-0.323, glen=162, tlen=815, kl=0.361, act_lr=9.2e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:16<06:16,  3.66s/it, pg=0.298, rm=0.75, ret=-0.323, glen=162, tlen=815, kl=0.361, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|█▉        | 25/128 [01:18<06:16,  3.66s/it, pg=0.0426, rm=0.75, ret=-0.0666, glen=166, tlen=981, kl=0.312, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:18<05:19,  3.13s/it, pg=0.0426, rm=0.75, ret=-0.0666, glen=166, tlen=981, kl=0.312, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  20%|██        | 26/128 [01:20<05:19,  3.13s/it, pg=0.0278, rm=0.875, ret=-0.0515, glen=158, tlen=912, kl=0.325, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:20<04:51,  2.88s/it, pg=0.0278, rm=0.875, ret=-0.0515, glen=158, tlen=912, kl=0.325, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  21%|██        | 27/128 [01:23<04:51,  2.88s/it, pg=-0.054, rm=1.06, ret=0.034, glen=162, tlen=1.05e+3, kl=0.285, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:23<04:32,  2.73s/it, pg=-0.054, rm=1.06, ret=0.034, glen=162, tlen=1.05e+3, kl=0.285, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  22%|██▏       | 28/128 [01:25<04:32,  2.73s/it, pg=0.169, rm=0.625, ret=-0.192, glen=160, tlen=929, kl=0.314, act_lr=9.2e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:25<04:18,  2.61s/it, pg=0.169, rm=0.625, ret=-0.192, glen=160, tlen=929, kl=0.314, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 29/128 [01:27<04:18,  2.61s/it, pg=0.226, rm=0.875, ret=-0.25, glen=156, tlen=643, kl=0.352, act_lr=9.2e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:27<03:47,  2.32s/it, pg=0.226, rm=0.875, ret=-0.25, glen=156, tlen=643, kl=0.352, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  23%|██▎       | 30/128 [01:29<03:47,  2.32s/it, pg=0.0442, rm=0.812, ret=-0.0691, glen=167, tlen=772, kl=0.32, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:29<03:36,  2.23s/it, pg=0.0442, rm=0.812, ret=-0.0691, glen=167, tlen=772, kl=0.32, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m [2025-05-28 15:32:13,052] [INFO] [logging.py:128:log_dist] [Rank 0] step=1300, skipped=0, lr=[9.202365641111956e-07, 9.202365641111956e-07], mom=[(0.9, 0.95), (0.9, 0.95)]
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  24%|██▍       | 31/128 [01:38<03:36,  2.23s/it, pg=-0.0695, rm=0.938, ret=0.0453, glen=170, tlen=746, kl=0.341, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:38<06:49,  4.27s/it, pg=-0.0695, rm=0.938, ret=0.0453, glen=170, tlen=746, kl=0.341, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  25%|██▌       | 32/128 [01:40<06:49,  4.27s/it, pg=0.00883, rm=0.875, ret=-0.0327, glen=158, tlen=880, kl=0.328, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:40<05:50,  3.69s/it, pg=0.00883, rm=0.875, ret=-0.0327, glen=158, tlen=880, kl=0.328, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  26%|██▌       | 33/128 [01:42<05:50,  3.69s/it, pg=-0.114, rm=0.938, ret=0.0896, glen=156, tlen=895, kl=0.336, act_lr=9.2e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:42<05:05,  3.25s/it, pg=-0.114, rm=0.938, ret=0.0896, glen=156, tlen=895, kl=0.336, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 34/128 [01:44<05:05,  3.25s/it, pg=-0.185, rm=1.06, ret=0.161, glen=159, tlen=962, kl=0.321, act_lr=9.2e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:44<04:27,  2.88s/it, pg=-0.185, rm=1.06, ret=0.161, glen=159, tlen=962, kl=0.321, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  27%|██▋       | 35/128 [01:47<04:27,  2.88s/it, pg=0.165, rm=0.812, ret=-0.19, glen=163, tlen=818, kl=0.33, act_lr=9.2e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:47<04:05,  2.67s/it, pg=0.165, rm=0.812, ret=-0.19, glen=163, tlen=818, kl=0.33, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  28%|██▊       | 36/128 [01:48<04:05,  2.67s/it, pg=-0.127, rm=1, ret=0.103, glen=164, tlen=807, kl=0.344, act_lr=9.2e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:48<03:39,  2.42s/it, pg=-0.127, rm=1, ret=0.103, glen=164, tlen=807, kl=0.344, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  29%|██▉       | 37/128 [01:51<03:39,  2.42s/it, pg=0.0978, rm=0.75, ret=-0.123, glen=170, tlen=989, kl=0.313, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:51<03:32,  2.36s/it, pg=0.0978, rm=0.75, ret=-0.123, glen=170, tlen=989, kl=0.313, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|██▉       | 38/128 [01:53<03:32,  2.36s/it, pg=0.14, rm=0.812, ret=-0.167, glen=173, tlen=946, kl=0.356, act_lr=9.2e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [01:53<03:21,  2.27s/it, pg=0.14, rm=0.812, ret=-0.167, glen=173, tlen=946, kl=0.356, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  30%|███       | 39/128 [02:02<03:21,  2.27s/it, pg=-0.0248, rm=0.75, ret=0.000837, glen=177, tlen=904, kl=0.296, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:02<06:34,  4.49s/it, pg=-0.0248, rm=0.75, ret=0.000837, glen=177, tlen=904, kl=0.296, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  31%|███▏      | 40/128 [02:04<06:34,  4.49s/it, pg=-0.197, rm=1, ret=0.167, glen=172, tlen=874, kl=0.36, act_lr=9.2e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:04<05:29,  3.78s/it, pg=-0.197, rm=1, ret=0.167, glen=172, tlen=874, kl=0.36, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  32%|███▏      | 41/128 [02:06<05:29,  3.78s/it, pg=0.185, rm=0.812, ret=-0.208, glen=163, tlen=915, kl=0.313, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:06<04:39,  3.25s/it, pg=0.185, rm=0.812, ret=-0.208, glen=163, tlen=915, kl=0.313, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  33%|███▎      | 42/128 [02:08<04:39,  3.25s/it, pg=0.115, rm=0.812, ret=-0.135, glen=159, tlen=786, kl=0.322, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:08<04:04,  2.88s/it, pg=0.115, rm=0.812, ret=-0.135, glen=159, tlen=786, kl=0.322, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▎      | 43/128 [02:11<04:04,  2.88s/it, pg=0.112, rm=0.812, ret=-0.135, glen=155, tlen=782, kl=0.33, act_lr=9.2e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:11<03:42,  2.65s/it, pg=0.112, rm=0.812, ret=-0.135, glen=155, tlen=782, kl=0.33, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  34%|███▍      | 44/128 [02:13<03:42,  2.65s/it, pg=-0.00743, rm=0.875, ret=-0.0203, glen=170, tlen=749, kl=0.342, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:13<03:24,  2.46s/it, pg=-0.00743, rm=0.875, ret=-0.0203, glen=170, tlen=749, kl=0.342, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  35%|███▌      | 45/128 [02:15<03:24,  2.46s/it, pg=0.0517, rm=0.812, ret=-0.0768, glen=154, tlen=756, kl=0.351, act_lr=9.2e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:15<03:11,  2.34s/it, pg=0.0517, rm=0.812, ret=-0.0768, glen=154, tlen=756, kl=0.351, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  36%|███▌      | 46/128 [02:17<03:11,  2.34s/it, pg=0.0987, rm=0.75, ret=-0.124, glen=160, tlen=979, kl=0.335, act_lr=9.2e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:17<03:02,  2.25s/it, pg=0.0987, rm=0.75, ret=-0.124, glen=160, tlen=979, kl=0.335, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  37%|███▋      | 47/128 [02:26<03:02,  2.25s/it, pg=-0.016, rm=0.875, ret=-0.00954, glen=161, tlen=871, kl=0.343, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:26<05:39,  4.24s/it, pg=-0.016, rm=0.875, ret=-0.00954, glen=161, tlen=871, kl=0.343, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 48/128 [02:28<05:39,  4.24s/it, pg=0.034, rm=0.938, ret=-0.0586, glen=163, tlen=773, kl=0.331, act_lr=9.2e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:28<04:46,  3.62s/it, pg=0.034, rm=0.938, ret=-0.0586, glen=163, tlen=773, kl=0.331, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  38%|███▊      | 49/128 [02:30<04:46,  3.62s/it, pg=-0.142, rm=0.875, ret=0.113, glen=161, tlen=742, kl=0.334, act_lr=9.2e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:30<04:00,  3.09s/it, pg=-0.142, rm=0.875, ret=0.113, glen=161, tlen=742, kl=0.334, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  39%|███▉      | 50/128 [02:32<04:00,  3.09s/it, pg=-0.0263, rm=0.75, ret=0.00263, glen=162, tlen=889, kl=0.313, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:32<03:36,  2.82s/it, pg=-0.0263, rm=0.75, ret=0.00263, glen=162, tlen=889, kl=0.313, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  40%|███▉      | 51/128 [02:34<03:36,  2.82s/it, pg=-0.0459, rm=0.938, ret=0.0179, glen=163, tlen=676, kl=0.367, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:34<03:14,  2.56s/it, pg=-0.0459, rm=0.938, ret=0.0179, glen=163, tlen=676, kl=0.367, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████      | 52/128 [02:36<03:14,  2.56s/it, pg=0.0504, rm=0.812, ret=-0.0796, glen=179, tlen=784, kl=0.358, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:36<02:59,  2.39s/it, pg=0.0504, rm=0.812, ret=-0.0796, glen=179, tlen=784, kl=0.358, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  41%|████▏     | 53/128 [02:38<02:59,  2.39s/it, pg=-0.0601, rm=0.938, ret=0.037, glen=168, tlen=926, kl=0.306, act_lr=9.2e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:38<02:51,  2.31s/it, pg=-0.0601, rm=0.938, ret=0.037, glen=168, tlen=926, kl=0.306, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  42%|████▏     | 54/128 [02:40<02:51,  2.31s/it, pg=0.149, rm=0.75, ret=-0.174, glen=162, tlen=989, kl=0.322, act_lr=9.2e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:40<02:43,  2.24s/it, pg=0.149, rm=0.75, ret=-0.174, glen=162, tlen=989, kl=0.322, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  43%|████▎     | 55/128 [02:49<02:43,  2.24s/it, pg=0.0499, rm=0.875, ret=-0.0754, glen=174, tlen=850, kl=0.318, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:49<05:13,  4.35s/it, pg=0.0499, rm=0.875, ret=-0.0754, glen=174, tlen=850, kl=0.318, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  44%|████▍     | 56/128 [02:52<05:13,  4.35s/it, pg=0.0165, rm=1.06, ret=-0.0412, glen=169, tlen=836, kl=0.316, act_lr=9.2e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:52<04:30,  3.81s/it, pg=0.0165, rm=1.06, ret=-0.0412, glen=169, tlen=836, kl=0.316, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▍     | 57/128 [02:54<04:30,  3.81s/it, pg=0.0913, rm=0.875, ret=-0.116, glen=166, tlen=1047.0, kl=0.349, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:54<03:50,  3.29s/it, pg=0.0913, rm=0.875, ret=-0.116, glen=166, tlen=1047.0, kl=0.349, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  45%|████▌     | 58/128 [02:56<03:50,  3.29s/it, pg=-0.0246, rm=0.875, ret=0.00142, glen=155, tlen=864, kl=0.362, act_lr=9.2e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:56<03:26,  2.99s/it, pg=-0.0246, rm=0.875, ret=0.00142, glen=155, tlen=864, kl=0.362, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  46%|████▌     | 59/128 [02:58<03:26,  2.99s/it, pg=0.0648, rm=0.938, ret=-0.0912, glen=167, tlen=1.01e+3, kl=0.326, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [02:58<03:08,  2.77s/it, pg=0.0648, rm=0.938, ret=-0.0912, glen=167, tlen=1.01e+3, kl=0.326, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  47%|████▋     | 60/128 [03:00<03:08,  2.77s/it, pg=0.116, rm=0.75, ret=-0.14, glen=158, tlen=740, kl=0.345, act_lr=9.2e-7]        [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:00<02:46,  2.48s/it, pg=0.116, rm=0.75, ret=-0.14, glen=158, tlen=740, kl=0.345, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 61/128 [03:02<02:46,  2.48s/it, pg=0.128, rm=0.875, ret=-0.153, glen=161, tlen=781, kl=0.345, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:02<02:31,  2.29s/it, pg=0.128, rm=0.875, ret=-0.153, glen=161, tlen=781, kl=0.345, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  48%|████▊     | 62/128 [03:04<02:31,  2.29s/it, pg=0.0456, rm=0.75, ret=-0.0726, glen=166, tlen=933, kl=0.343, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:04<02:20,  2.16s/it, pg=0.0456, rm=0.75, ret=-0.0726, glen=166, tlen=933, kl=0.343, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  49%|████▉     | 63/128 [03:13<02:20,  2.16s/it, pg=-0.0811, rm=0.812, ret=0.0569, glen=156, tlen=880, kl=0.334, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:13<04:34,  4.29s/it, pg=-0.0811, rm=0.812, ret=0.0569, glen=156, tlen=880, kl=0.334, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  50%|█████     | 64/128 [03:15<04:34,  4.29s/it, pg=-0.024, rm=0.875, ret=-0.00287, glen=168, tlen=831, kl=0.339, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:16<03:53,  3.70s/it, pg=-0.024, rm=0.875, ret=-0.00287, glen=168, tlen=831, kl=0.339, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  51%|█████     | 65/128 [03:17<03:53,  3.70s/it, pg=-0.136, rm=0.875, ret=0.114, glen=148, tlen=837, kl=0.354, act_lr=9.2e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:17<03:15,  3.15s/it, pg=-0.136, rm=0.875, ret=0.114, glen=148, tlen=837, kl=0.354, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 66/128 [03:19<03:15,  3.15s/it, pg=0.154, rm=0.75, ret=-0.181, glen=172, tlen=999, kl=0.339, act_lr=9.2e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:19<02:52,  2.82s/it, pg=0.154, rm=0.75, ret=-0.181, glen=172, tlen=999, kl=0.339, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  52%|█████▏    | 67/128 [03:21<02:52,  2.82s/it, pg=0.0962, rm=0.812, ret=-0.117, glen=159, tlen=805, kl=0.304, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:21<02:34,  2.58s/it, pg=0.0962, rm=0.812, ret=-0.117, glen=159, tlen=805, kl=0.304, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  53%|█████▎    | 68/128 [03:24<02:34,  2.58s/it, pg=0.00718, rm=0.875, ret=-0.0308, glen=153, tlen=875, kl=0.328, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:24<02:29,  2.53s/it, pg=0.00718, rm=0.875, ret=-0.0308, glen=153, tlen=875, kl=0.328, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  54%|█████▍    | 69/128 [03:26<02:29,  2.53s/it, pg=-0.203, rm=1.06, ret=0.179, glen=155, tlen=883, kl=0.32, act_lr=9.2e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:26<02:14,  2.32s/it, pg=-0.203, rm=1.06, ret=0.179, glen=155, tlen=883, kl=0.32, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▍    | 70/128 [03:28<02:14,  2.32s/it, pg=0.0315, rm=0.875, ret=-0.0576, glen=165, tlen=830, kl=0.349, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:28<02:13,  2.35s/it, pg=0.0315, rm=0.875, ret=-0.0576, glen=165, tlen=830, kl=0.349, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  55%|█████▌    | 71/128 [03:37<02:13,  2.35s/it, pg=0.029, rm=0.812, ret=-0.056, glen=169, tlen=996, kl=0.332, act_lr=9.2e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:37<04:06,  4.40s/it, pg=0.029, rm=0.812, ret=-0.056, glen=169, tlen=996, kl=0.332, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  56%|█████▋    | 72/128 [03:39<04:06,  4.40s/it, pg=0.129, rm=0.812, ret=-0.155, glen=171, tlen=710, kl=0.336, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:39<03:20,  3.65s/it, pg=0.129, rm=0.812, ret=-0.155, glen=171, tlen=710, kl=0.336, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  57%|█████▋    | 73/128 [03:41<03:20,  3.65s/it, pg=0.0285, rm=0.938, ret=-0.0528, glen=167, tlen=913, kl=0.317, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:41<02:51,  3.17s/it, pg=0.0285, rm=0.938, ret=-0.0528, glen=167, tlen=913, kl=0.317, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  58%|█████▊    | 74/128 [03:43<02:51,  3.17s/it, pg=0.123, rm=0.812, ret=-0.149, glen=185, tlen=912, kl=0.336, act_lr=9.2e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:43<02:30,  2.85s/it, pg=0.123, rm=0.812, ret=-0.149, glen=185, tlen=912, kl=0.336, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▊    | 75/128 [03:45<02:30,  2.85s/it, pg=-0.175, rm=0.812, ret=0.149, glen=168, tlen=858, kl=0.328, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:45<02:15,  2.60s/it, pg=-0.175, rm=0.812, ret=0.149, glen=168, tlen=858, kl=0.328, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  59%|█████▉    | 76/128 [03:47<02:15,  2.60s/it, pg=0.0486, rm=0.812, ret=-0.0745, glen=177, tlen=799, kl=0.327, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:47<02:04,  2.44s/it, pg=0.0486, rm=0.812, ret=-0.0745, glen=177, tlen=799, kl=0.327, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  60%|██████    | 77/128 [03:49<02:04,  2.44s/it, pg=0.0997, rm=0.75, ret=-0.125, glen=161, tlen=980, kl=0.34, act_lr=9.2e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:49<01:56,  2.32s/it, pg=0.0997, rm=0.75, ret=-0.125, glen=161, tlen=980, kl=0.34, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  61%|██████    | 78/128 [03:51<01:56,  2.32s/it, pg=-0.0481, rm=0.938, ret=0.0222, glen=171, tlen=684, kl=0.324, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [03:51<01:46,  2.17s/it, pg=-0.0481, rm=0.938, ret=0.0222, glen=171, tlen=684, kl=0.324, act_lr=9.2e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▏   | 79/128 [04:01<01:46,  2.17s/it, pg=-0.043, rm=0.812, ret=0.0178, glen=163, tlen=851, kl=0.346, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:01<03:31,  4.40s/it, pg=-0.043, rm=0.812, ret=0.0178, glen=163, tlen=851, kl=0.346, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  62%|██████▎   | 80/128 [04:03<03:31,  4.40s/it, pg=0.186, rm=0.688, ret=-0.21, glen=163, tlen=787, kl=0.313, act_lr=9.19e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:03<02:59,  3.82s/it, pg=0.186, rm=0.688, ret=-0.21, glen=163, tlen=787, kl=0.313, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  63%|██████▎   | 81/128 [04:05<02:59,  3.82s/it, pg=0.265, rm=0.938, ret=-0.292, glen=168, tlen=835, kl=0.357, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:05<02:31,  3.29s/it, pg=0.265, rm=0.938, ret=-0.292, glen=168, tlen=835, kl=0.357, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  64%|██████▍   | 82/128 [04:08<02:31,  3.29s/it, pg=-0.0126, rm=0.75, ret=-0.0134, glen=165, tlen=955, kl=0.359, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:08<02:15,  3.02s/it, pg=-0.0126, rm=0.75, ret=-0.0134, glen=165, tlen=955, kl=0.359, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  65%|██████▍   | 83/128 [04:10<02:15,  3.02s/it, pg=-0.0366, rm=1.06, ret=0.0105, glen=179, tlen=721, kl=0.329, act_lr=9.19e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:10<01:57,  2.67s/it, pg=-0.0366, rm=1.06, ret=0.0105, glen=179, tlen=721, kl=0.329, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▌   | 84/128 [04:12<01:57,  2.67s/it, pg=0.311, rm=0.812, ret=-0.331, glen=155, tlen=972, kl=0.333, act_lr=9.19e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:12<01:46,  2.48s/it, pg=0.311, rm=0.812, ret=-0.331, glen=155, tlen=972, kl=0.333, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  66%|██████▋   | 85/128 [04:14<01:46,  2.48s/it, pg=0.0618, rm=0.875, ret=-0.0886, glen=177, tlen=845, kl=0.329, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:14<01:41,  2.42s/it, pg=0.0618, rm=0.875, ret=-0.0886, glen=177, tlen=845, kl=0.329, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  67%|██████▋   | 86/128 [04:16<01:41,  2.42s/it, pg=0.311, rm=0.812, ret=-0.335, glen=168, tlen=908, kl=0.355, act_lr=9.19e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:16<01:36,  2.36s/it, pg=0.311, rm=0.812, ret=-0.335, glen=168, tlen=908, kl=0.355, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  68%|██████▊   | 87/128 [04:26<01:36,  2.36s/it, pg=0.0614, rm=0.812, ret=-0.0857, glen=175, tlen=911, kl=0.323, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:26<02:59,  4.50s/it, pg=0.0614, rm=0.812, ret=-0.0857, glen=175, tlen=911, kl=0.323, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  69%|██████▉   | 88/128 [04:28<02:59,  4.50s/it, pg=0.108, rm=0.875, ret=-0.133, glen=156, tlen=745, kl=0.347, act_lr=9.19e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:28<02:24,  3.71s/it, pg=0.108, rm=0.875, ret=-0.133, glen=156, tlen=745, kl=0.347, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|██████▉   | 89/128 [04:29<02:24,  3.71s/it, pg=0.0288, rm=0.688, ret=-0.0524, glen=163, tlen=916, kl=0.321, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:29<01:59,  3.14s/it, pg=0.0288, rm=0.688, ret=-0.0524, glen=163, tlen=916, kl=0.321, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  70%|███████   | 90/128 [04:31<01:59,  3.14s/it, pg=0.111, rm=0.812, ret=-0.135, glen=163, tlen=790, kl=0.318, act_lr=9.19e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:31<01:43,  2.80s/it, pg=0.111, rm=0.812, ret=-0.135, glen=163, tlen=790, kl=0.318, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  71%|███████   | 91/128 [04:34<01:43,  2.80s/it, pg=-0.0909, rm=1, ret=0.0652, glen=160, tlen=906, kl=0.355, act_lr=9.19e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:34<01:34,  2.63s/it, pg=-0.0909, rm=1, ret=0.0652, glen=160, tlen=906, kl=0.355, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  72%|███████▏  | 92/128 [04:35<01:34,  2.63s/it, pg=-0.203, rm=0.875, ret=0.18, glen=154, tlen=927, kl=0.327, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:35<01:24,  2.40s/it, pg=-0.203, rm=0.875, ret=0.18, glen=154, tlen=927, kl=0.327, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 93/128 [04:37<01:24,  2.40s/it, pg=0.0847, rm=0.875, ret=-0.106, glen=156, tlen=859, kl=0.316, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:37<01:17,  2.29s/it, pg=0.0847, rm=0.875, ret=-0.106, glen=156, tlen=859, kl=0.316, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  73%|███████▎  | 94/128 [04:39<01:17,  2.29s/it, pg=0.0229, rm=0.875, ret=-0.0491, glen=162, tlen=718, kl=0.349, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:39<01:11,  2.18s/it, pg=0.0229, rm=0.875, ret=-0.0491, glen=162, tlen=718, kl=0.349, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  74%|███████▍  | 95/128 [04:49<01:11,  2.18s/it, pg=-0.0982, rm=0.938, ret=0.0745, glen=158, tlen=860, kl=0.329, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:49<02:16,  4.27s/it, pg=-0.0982, rm=0.938, ret=0.0745, glen=158, tlen=860, kl=0.329, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  75%|███████▌  | 96/128 [04:51<02:16,  4.27s/it, pg=0.00673, rm=0.875, ret=-0.0326, glen=165, tlen=704, kl=0.344, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:51<01:52,  3.61s/it, pg=0.00673, rm=0.875, ret=-0.0326, glen=165, tlen=704, kl=0.344, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  76%|███████▌  | 97/128 [04:53<01:52,  3.61s/it, pg=-0.148, rm=0.938, ret=0.121, glen=167, tlen=877, kl=0.347, act_lr=9.19e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:53<01:36,  3.22s/it, pg=-0.148, rm=0.938, ret=0.121, glen=167, tlen=877, kl=0.347, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 98/128 [04:55<01:36,  3.22s/it, pg=0.238, rm=0.938, ret=-0.262, glen=176, tlen=718, kl=0.311, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:55<01:21,  2.81s/it, pg=0.238, rm=0.938, ret=-0.262, glen=176, tlen=718, kl=0.311, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  77%|███████▋  | 99/128 [04:57<01:21,  2.81s/it, pg=-0.013, rm=1.06, ret=-0.0115, glen=169, tlen=711, kl=0.334, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:57<01:10,  2.51s/it, pg=-0.013, rm=1.06, ret=-0.0115, glen=169, tlen=711, kl=0.334, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  78%|███████▊  | 100/128 [04:59<01:10,  2.51s/it, pg=0.0182, rm=1, ret=-0.0464, glen=175, tlen=850, kl=0.334, act_lr=9.19e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [04:59<01:04,  2.37s/it, pg=0.0182, rm=1, ret=-0.0464, glen=175, tlen=850, kl=0.334, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  79%|███████▉  | 101/128 [05:01<01:04,  2.37s/it, pg=-0.0802, rm=1, ret=0.0559, glen=158, tlen=979, kl=0.314, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:01<01:01,  2.36s/it, pg=-0.0802, rm=1, ret=0.0559, glen=158, tlen=979, kl=0.314, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|███████▉  | 102/128 [05:03<01:01,  2.36s/it, pg=0.202, rm=0.812, ret=-0.227, glen=159, tlen=994, kl=0.351, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:03<00:56,  2.27s/it, pg=0.202, rm=0.812, ret=-0.227, glen=159, tlen=994, kl=0.351, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  80%|████████  | 103/128 [05:12<00:56,  2.27s/it, pg=-0.114, rm=1, ret=0.0885, glen=157, tlen=750, kl=0.347, act_lr=9.19e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:12<01:46,  4.42s/it, pg=-0.114, rm=1, ret=0.0885, glen=157, tlen=750, kl=0.347, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  81%|████████▏ | 104/128 [05:15<01:46,  4.42s/it, pg=0.0659, rm=0.875, ret=-0.0959, glen=175, tlen=795, kl=0.37, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:15<01:25,  3.72s/it, pg=0.0659, rm=0.875, ret=-0.0959, glen=175, tlen=795, kl=0.37, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  82%|████████▏ | 105/128 [05:17<01:25,  3.72s/it, pg=0.0625, rm=0.875, ret=-0.089, glen=167, tlen=788, kl=0.346, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:17<01:10,  3.21s/it, pg=0.0625, rm=0.875, ret=-0.089, glen=167, tlen=788, kl=0.346, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  83%|████████▎ | 106/128 [05:19<01:10,  3.21s/it, pg=0.0305, rm=0.938, ret=-0.0542, glen=157, tlen=903, kl=0.345, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:19<01:00,  2.87s/it, pg=0.0305, rm=0.938, ret=-0.0542, glen=157, tlen=903, kl=0.345, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▎ | 107/128 [05:21<01:00,  2.87s/it, pg=0.0277, rm=0.938, ret=-0.0512, glen=158, tlen=968, kl=0.349, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:21<00:52,  2.63s/it, pg=0.0277, rm=0.938, ret=-0.0512, glen=158, tlen=968, kl=0.349, act_lr=9.19e-7]
+[36m(ActorModelRayActor pid=286523)[0m [A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  84%|████████▍ | 108/128 [05:23<00:52,  2.63s/it, pg=0.111, rm=0.625, ret=-0.136, glen=174, tlen=930, kl=0.312, act_lr=9.19e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:23<00:46,  2.46s/it, pg=0.111, rm=0.625, ret=-0.136, glen=174, tlen=930, kl=0.312, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  85%|████████▌ | 109/128 [05:25<00:46,  2.46s/it, pg=-0.252, rm=1.25, ret=0.23, glen=170, tlen=766, kl=0.33, act_lr=9.19e-7]   [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:25<00:42,  2.35s/it, pg=-0.252, rm=1.25, ret=0.23, glen=170, tlen=766, kl=0.33, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  86%|████████▌ | 110/128 [05:27<00:42,  2.35s/it, pg=0.185, rm=0.75, ret=-0.213, glen=175, tlen=840, kl=0.347, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:27<00:38,  2.24s/it, pg=0.185, rm=0.75, ret=-0.213, glen=175, tlen=840, kl=0.347, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  87%|████████▋ | 111/128 [05:36<00:38,  2.24s/it, pg=0.229, rm=0.75, ret=-0.258, glen=183, tlen=861, kl=0.333, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:36<01:08,  4.29s/it, pg=0.229, rm=0.75, ret=-0.258, glen=183, tlen=861, kl=0.333, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 112/128 [05:38<01:08,  4.29s/it, pg=0.0853, rm=0.688, ret=-0.11, glen=159, tlen=849, kl=0.329, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:38<00:53,  3.57s/it, pg=0.0853, rm=0.688, ret=-0.11, glen=159, tlen=849, kl=0.329, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  88%|████████▊ | 113/128 [05:40<00:53,  3.57s/it, pg=-0.0925, rm=0.812, ret=0.069, glen=167, tlen=1.02e+3, kl=0.321, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:40<00:42,  3.07s/it, pg=-0.0925, rm=0.812, ret=0.069, glen=167, tlen=1.02e+3, kl=0.321, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  89%|████████▉ | 114/128 [05:42<00:42,  3.07s/it, pg=0.169, rm=0.625, ret=-0.193, glen=158, tlen=927, kl=0.323, act_lr=9.19e-7]     [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:42<00:36,  2.79s/it, pg=0.169, rm=0.625, ret=-0.193, glen=158, tlen=927, kl=0.323, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  90%|████████▉ | 115/128 [05:44<00:36,  2.79s/it, pg=0.0229, rm=1, ret=-0.0437, glen=170, tlen=863, kl=0.331, act_lr=9.19e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:44<00:31,  2.65s/it, pg=0.0229, rm=1, ret=-0.0437, glen=170, tlen=863, kl=0.331, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████ | 116/128 [05:46<00:31,  2.65s/it, pg=0.0411, rm=0.875, ret=-0.0663, glen=166, tlen=952, kl=0.341, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:46<00:26,  2.41s/it, pg=0.0411, rm=0.875, ret=-0.0663, glen=166, tlen=952, kl=0.341, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  91%|█████████▏| 117/128 [05:48<00:26,  2.41s/it, pg=0.0464, rm=0.812, ret=-0.073, glen=168, tlen=774, kl=0.342, act_lr=9.19e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:48<00:22,  2.25s/it, pg=0.0464, rm=0.812, ret=-0.073, glen=168, tlen=774, kl=0.342, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  92%|█████████▏| 118/128 [05:50<00:22,  2.25s/it, pg=0.00906, rm=0.938, ret=-0.0326, glen=155, tlen=869, kl=0.336, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:50<00:19,  2.12s/it, pg=0.00906, rm=0.938, ret=-0.0326, glen=155, tlen=869, kl=0.336, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  93%|█████████▎| 119/128 [05:59<00:19,  2.12s/it, pg=-0.237, rm=0.938, ret=0.212, glen=169, tlen=791, kl=0.34, act_lr=9.19e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [05:59<00:33,  4.17s/it, pg=-0.237, rm=0.938, ret=0.212, glen=169, tlen=791, kl=0.34, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  94%|█████████▍| 120/128 [06:01<00:33,  4.17s/it, pg=0.053, rm=0.812, ret=-0.0753, glen=163, tlen=1.07e+3, kl=0.308, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:01<00:24,  3.56s/it, pg=0.053, rm=0.812, ret=-0.0753, glen=163, tlen=1.07e+3, kl=0.308, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▍| 121/128 [06:03<00:24,  3.56s/it, pg=-0.195, rm=0.812, ret=0.17, glen=159, tlen=1.06e+3, kl=0.319, act_lr=9.19e-7]  [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:03<00:18,  3.11s/it, pg=-0.195, rm=0.812, ret=0.17, glen=159, tlen=1.06e+3, kl=0.319, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  95%|█████████▌| 122/128 [06:05<00:18,  3.11s/it, pg=0.17, rm=0.938, ret=-0.196, glen=172, tlen=910, kl=0.331, act_lr=9.19e-7]    [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:05<00:13,  2.79s/it, pg=0.17, rm=0.938, ret=-0.196, glen=172, tlen=910, kl=0.331, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  96%|█████████▌| 123/128 [06:07<00:13,  2.79s/it, pg=0.0282, rm=0.75, ret=-0.0536, glen=166, tlen=756, kl=0.323, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:07<00:10,  2.57s/it, pg=0.0282, rm=0.75, ret=-0.0536, glen=166, tlen=756, kl=0.323, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  97%|█████████▋| 124/128 [06:09<00:10,  2.57s/it, pg=0.268, rm=0.688, ret=-0.292, glen=167, tlen=903, kl=0.322, act_lr=9.19e-7] [A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:09<00:07,  2.42s/it, pg=0.268, rm=0.688, ret=-0.292, glen=167, tlen=903, kl=0.322, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 125/128 [06:11<00:07,  2.42s/it, pg=0.178, rm=0.812, ret=-0.201, glen=169, tlen=845, kl=0.301, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:11<00:04,  2.40s/it, pg=0.178, rm=0.812, ret=-0.201, glen=169, tlen=845, kl=0.301, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  98%|█████████▊| 126/128 [06:14<00:04,  2.40s/it, pg=0.269, rm=0.812, ret=-0.296, glen=170, tlen=808, kl=0.332, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:14<00:02,  2.39s/it, pg=0.269, rm=0.812, ret=-0.296, glen=170, tlen=808, kl=0.332, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]:  99%|█████████▉| 127/128 [06:23<00:02,  2.39s/it, pg=0.0552, rm=0.812, ret=-0.0806, glen=173, tlen=1.08e+3, kl=0.32, act_lr=9.19e-7][A
+[36m(ActorModelRayActor pid=286523)[0m 
+Train epoch [1/1]: 100%|██████████| 128/128 [06:23<00:00,  4.37s/it, pg=0.0552, rm=0.812, ret=-0.0806, glen=173, tlen=1.08e+3, kl=0.32, act_lr=9.19e-7][A
+Train epoch [1/1]: 100%|██████████| 128/128 [06:23<00:00,  2.99s/it, pg=0.0552, rm=0.812, ret=-0.0806, glen=173, tlen=1.08e+3, kl=0.32, act_lr=9.19e-7]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:36:59 [executor_base.py:219] It took 1.461644 seconds to wake up.
+[36m(LLMRayActor pid=279375)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.0.mlp.down_proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm1.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.norm2.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.weight, dtype: torch.bfloat16, shape: torch.Size([3840, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.qkv.bias, dtype: torch.bfloat16, shape: torch.Size([3840])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.attn.proj.bias, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.gate_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.up_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3420, 1280])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.up_proj.bias, dtype: torch.bfloat16, shape: torch.Size([3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.blocks.1.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3420])
+[36m(LLMRayActor pid=279375)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])
+[36m(LLMRayActor pid=279375)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 15:37:01 [executor_base.py:219] It took 3.233067 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.patch_embed.proj.weight, dtype: torch.bfloat16, shape: torch.Size([1280, 3, 2, 14, 14])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.2.self_attn.o_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 3584])[32m [repeated 3266x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: visual.merger.ln_q.weight, dtype: torch.bfloat16, shape: torch.Size([1280])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: model.embed_tokens.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.11.mlp.down_proj.weight, dtype: torch.bfloat16, shape: torch.Size([3584, 18944])[32m [repeated 937x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.layers.21.mlp.gate_proj.weight, dtype: torch.bfloat16, shape: torch.Size([18944, 3584])[32m [repeated 888x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])
+[36m(LLMRayActor pid=279375)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:37:23 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.46 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:37:23 [executor_base.py:208] It took 1.425052 seconds to fall asleep.
+[36m(LLMRayActor pid=279380)[0m update weight: model.layers.27.post_attention_layernorm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 678x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  17%|█▋        | 21/127 [4:24:05<21:14:34, 721.46s/it, policy_loss=0.0298, actor_lr=9.2e-7, kl=0.332, reward=0.865, response_length=165, total_length=868, acc_rewards=0.365, format_rewards=0.5, return=-0.0548] 
+[36m(ActorModelRayActor pid=286523)[0m 
+Episode [1/2]:  17%|█▋        | 22/127 [4:24:06<20:52:47, 715.88s/it, policy_loss=0.0298, actor_lr=9.2e-7, kl=0.332, reward=0.865, response_length=165, total_length=868, acc_rewards=0.365, format_rewards=0.5, return=-0.0548]
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:37:25 [executor_base.py:219] It took 1.486198 seconds to wake up.
+[36m(LLMRayActor pid=279380)[0m update weight: model.norm.weight, dtype: torch.bfloat16, shape: torch.Size([3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m update weight: lm_head.weight, dtype: torch.bfloat16, shape: torch.Size([152064, 3584])[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s][32m [repeated 6x across cluster][0m
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   0%|          | 1/256 [00:18<1:19:18, 18.66s/it, est. speed input: 27.06 toks/s, output: 5.36 toks/s]
+[36m(LLMRayActor pid=279380)[0m 
+Processed prompts:   0%|          | 0/256 [00:00<?, ?it/s, est. speed input: 0.00 toks/s, output: 0.00 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   1%|          | 2/256 [00:19<33:32,  7.92s/it, est. speed input: 47.00 toks/s, output: 10.96 toks/s] 
+Processed prompts:   1%|          | 3/256 [00:19<18:29,  4.38s/it, est. speed input: 72.82 toks/s, output: 16.74 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   2%|▏         | 5/256 [00:19<08:13,  1.96s/it, est. speed input: 123.90 toks/s, output: 28.42 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   4%|▎         | 9/256 [00:19<03:10,  1.30it/s, est. speed input: 215.37 toks/s, output: 52.63 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   5%|▍         | 12/256 [00:19<01:57,  2.08it/s, est. speed input: 279.09 toks/s, output: 70.99 toks/s]
+Processed prompts:   7%|▋         | 18/256 [00:19<00:56,  4.23it/s, est. speed input: 402.00 toks/s, output: 108.46 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:   9%|▊         | 22/256 [00:20<00:40,  5.84it/s, est. speed input: 483.18 toks/s, output: 133.31 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  11%|█         | 27/256 [00:20<00:26,  8.58it/s, est. speed input: 583.61 toks/s, output: 165.47 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  14%|█▍        | 37/256 [00:20<00:13, 15.91it/s, est. speed input: 779.24 toks/s, output: 230.86 toks/s]
+Processed prompts:  17%|█▋        | 44/256 [00:20<00:10, 21.10it/s, est. speed input: 970.74 toks/s, output: 276.88 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  20%|██        | 52/256 [00:20<00:07, 27.81it/s, est. speed input: 1147.88 toks/s, output: 330.18 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  23%|██▎       | 58/256 [00:20<00:06, 28.31it/s, est. speed input: 1255.11 toks/s, output: 369.09 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  26%|██▌       | 66/256 [00:20<00:05, 35.68it/s, est. speed input: 1623.73 toks/s, output: 424.47 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  29%|██▉       | 74/256 [00:20<00:04, 42.73it/s, est. speed input: 1789.98 toks/s, output: 480.38 toks/s]
+Processed prompts:  34%|███▎      | 86/256 [00:21<00:02, 57.17it/s, est. speed input: 2082.64 toks/s, output: 566.34 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  38%|███▊      | 96/256 [00:21<00:02, 65.90it/s, est. speed input: 2430.72 toks/s, output: 638.33 toks/s]
+Processed prompts:  41%|████      | 105/256 [00:21<00:02, 70.65it/s, est. speed input: 2596.24 toks/s, output: 703.66 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  47%|████▋     | 121/256 [00:21<00:01, 85.90it/s, est. speed input: 2948.12 toks/s, output: 822.62 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  52%|█████▏    | 133/256 [00:21<00:01, 90.13it/s, est. speed input: 3184.35 toks/s, output: 912.40 toks/s]
+Processed prompts:  56%|█████▋    | 144/256 [00:21<00:01, 92.96it/s, est. speed input: 3443.31 toks/s, output: 995.71 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  62%|██████▎   | 160/256 [00:21<00:00, 108.76it/s, est. speed input: 3917.51 toks/s, output: 1120.95 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  67%|██████▋   | 172/256 [00:21<00:00, 98.32it/s, est. speed input: 4169.63 toks/s, output: 1213.18 toks/s] 
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  72%|███████▏  | 184/256 [00:22<00:00, 99.80it/s, est. speed input: 4470.52 toks/s, output: 1309.09 toks/s]
+Processed prompts:  78%|███████▊  | 199/256 [00:22<00:00, 110.11it/s, est. speed input: 4868.95 toks/s, output: 1432.63 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  86%|████████▌ | 220/256 [00:22<00:00, 131.12it/s, est. speed input: 5296.33 toks/s, output: 1612.37 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  91%|█████████▏| 234/256 [00:22<00:00, 123.29it/s, est. speed input: 5589.61 toks/s, output: 1731.27 toks/s]
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts:  96%|█████████▋| 247/256 [00:22<00:00, 90.60it/s, est. speed input: 5809.97 toks/s, output: 1836.67 toks/s] 
+[36m(LLMRayActor pid=279378)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:22<00:00, 11.21it/s, est. speed input: 5988.18 toks/s, output: 1910.81 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   0%|          | 1/256 [00:24<1:42:10, 24.04s/it, est. speed input: 20.59 toks/s, output: 4.28 toks/s][32m [repeated 2x across cluster][0m
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:   4%|▍         | 10/256 [00:24<06:16,  1.53s/it, est. speed input: 498.21 toks/s, output: 44.07 toks/s]
+Processed prompts:   7%|▋         | 18/256 [00:24<02:33,  1.55it/s, est. speed input: 867.41 toks/s, output: 81.33 toks/s]
+[36m(LLMRayActor pid=279381)[0m 
+Processed prompts:   3%|▎         | 8/256 [00:23<05:37,  1.36s/it, est. speed input: 392.12 toks/s, output: 30.01 toks/s]
+Processed prompts:   4%|▍         | 11/256 [00:23<03:22,  1.21it/s, est. speed input: 474.46 toks/s, output: 42.41 toks/s]
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts:  96%|█████████▌| 245/256 [00:27<00:00, 94.61it/s, est. speed input: 6227.34 toks/s, output: 1462.94 toks/s] 
+[36m(LLMRayActor pid=279375)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00, 80.18it/s, est. speed input: 6388.26 toks/s, output: 1543.56 toks/s]
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.18it/s, est. speed input: 6388.26 toks/s, output: 1543.56 toks/s]
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:   8%|▊         | 21/256 [00:26<01:03,  3.70it/s, est. speed input: 1079.80 toks/s, output: 82.11 toks/s][32m [repeated 50x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts:  12%|█▎        | 32/256 [00:27<00:23,  9.53it/s, est. speed input: 1559.35 toks/s, output: 130.74 toks/s]
+Processed prompts:  15%|█▍        | 38/256 [00:27<00:15, 14.21it/s, est. speed input: 1845.41 toks/s, output: 158.70 toks/s][32m [repeated 31x across cluster][0m
+[36m(LLMRayActor pid=279382)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:30<00:00,  8.35it/s, est. speed input: 6490.21 toks/s, output: 1365.29 toks/s] [32m [repeated 11x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  23%|██▎       | 60/256 [00:24<00:05, 33.82it/s, est. speed input: 2358.82 toks/s, output: 280.12 toks/s][32m [repeated 36x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  43%|████▎     | 110/256 [00:25<00:02, 59.49it/s, est. speed input: 3468.38 toks/s, output: 558.09 toks/s]
+Processed prompts:  48%|████▊     | 122/256 [00:25<00:01, 70.31it/s, est. speed input: 3750.62 toks/s, output: 629.94 toks/s][32m [repeated 18x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  86%|████████▌ | 220/256 [00:26<00:00, 132.04it/s, est. speed input: 5700.55 toks/s, output: 1270.85 toks/s]
+Processed prompts:  91%|█████████▏| 234/256 [00:26<00:00, 129.29it/s, est. speed input: 6024.91 toks/s, output: 1369.84 toks/s]
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 15:37:23 [worker.py:133] Sleep mode freed 38.53 GiB memory, 19.41 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 15:37:23 [executor_base.py:208] It took 1.640398 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279374)[0m INFO 05-28 15:37:27 [executor_base.py:219] It took 3.104379 seconds to wake up.[32m [repeated 7x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 1087x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 1087x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=287378)[0m 
+[36m(ActorModelRayActor pid=287378)[0m 1254400
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 719x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 719x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m  
+[36m(ActorModelRayActor pid=286523)[0m 1254400
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 3136
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:39:12 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.99 GiB memory is still in use.
+[36m(LLMRayActor pid=279375)[0m INFO 05-28 15:39:12 [executor_base.py:208] It took 1.387220 seconds to fall asleep.
+[36m(ActorModelRayActor pid=286523)[0m ele.get("min_pixels" 3136[32m [repeated 240x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m ele.get("max_pixels" 1254400[32m [repeated 240x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   0%|          | 0/128 [00:00<?, ?it/s][A
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts: 100%|██████████| 256/256 [00:27<00:00,  9.34it/s, est. speed input: 6291.37 toks/s, output: 1510.62 toks/s] [32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  80%|███████▉  | 204/256 [00:26<00:00, 127.45it/s, est. speed input: 5403.68 toks/s, output: 1160.52 toks/s][32m [repeated 4x across cluster][0m
+[36m(LLMRayActor pid=279379)[0m 
+Processed prompts:  66%|██████▋   | 170/256 [00:26<00:00, 99.39it/s, est. speed input: 4790.32 toks/s, output: 931.35 toks/s]
+Processed prompts:  73%|███████▎  | 187/256 [00:26<00:00, 114.25it/s, est. speed input: 5077.11 toks/s, output: 1044.30 toks/s][32m [repeated 2x across cluster][0m
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   1%|          | 1/128 [00:01<02:22,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 2/128 [00:02<02:16,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   2%|▏         | 3/128 [00:03<02:26,  1.17s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   3%|▎         | 4/128 [00:04<02:33,  1.24s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   4%|▍         | 5/128 [00:05<02:20,  1.14s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▍         | 6/128 [00:06<02:17,  1.13s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   5%|▌         | 7/128 [00:07<02:11,  1.09s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   6%|▋         | 8/128 [00:08<02:07,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   7%|▋         | 9/128 [00:10<02:19,  1.18s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   8%|▊         | 10/128 [00:11<02:28,  1.26s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▊         | 11/128 [00:13<02:32,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:   9%|▉         | 12/128 [00:14<02:40,  1.38s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  10%|█         | 13/128 [00:16<02:40,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  11%|█         | 14/128 [00:17<02:38,  1.39s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▏        | 15/128 [00:18<02:38,  1.40s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  12%|█▎        | 16/128 [00:20<02:38,  1.42s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  13%|█▎        | 17/128 [00:21<02:24,  1.30s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  14%|█▍        | 18/128 [00:22<02:13,  1.22s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  15%|█▍        | 19/128 [00:23<02:05,  1.15s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▌        | 20/128 [00:24<01:58,  1.10s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  16%|█▋        | 21/128 [00:25<01:55,  1.08s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  17%|█▋        | 22/128 [00:26<01:51,  1.06s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  18%|█▊        | 23/128 [00:27<01:49,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  19%|█▉        | 24/128 [00:28<01:47,  1.04s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|█▉        | 25/128 [00:29<01:55,  1.12s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  20%|██        | 26/128 [00:31<02:01,  1.20s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  21%|██        | 27/128 [00:32<02:04,  1.23s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  22%|██▏       | 28/128 [00:33<02:06,  1.27s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 29/128 [00:35<02:09,  1.31s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  23%|██▎       | 30/128 [00:36<02:10,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  24%|██▍       | 31/128 [00:38<02:11,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  25%|██▌       | 32/128 [00:39<02:11,  1.37s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  26%|██▌       | 33/128 [00:40<02:08,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 34/128 [00:42<02:06,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  27%|██▋       | 35/128 [00:43<02:05,  1.35s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  28%|██▊       | 36/128 [00:44<02:02,  1.33s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  29%|██▉       | 37/128 [00:46<02:03,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|██▉       | 38/128 [00:47<02:02,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  30%|███       | 39/128 [00:48<02:00,  1.36s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  31%|███▏      | 40/128 [00:50<01:57,  1.34s/it][A
+[36m(ActorModelRayActor pid=286523)[0m 
+[36m(ActorModelRayActor pid=286523)[0m 
+make_experience:  32%|███▏      | 41/128 [00:51<01:53,  1.31s/it][A
+[33m(raylet)[0m A worker died or was killed while executing a task by an unexpected system error. To troubleshoot the problem, check the logs for the dead worker. RayTask ID: ffffffffffffffff0b5355bbc04b05c54ecd44cf02000000 Worker ID: 5ecb8beb81c369bb2df85e28145299393ec6cdf82691dfe5852ea340 Node ID: ee80288c2b4213a43376e1b649f9d7d82a4ea2771dc7a935722e892c Worker IP address: 10.140.0.151 Worker port: 20135 Worker PID: 287373 Worker exit type: SYSTEM_ERROR Worker exit detail: Worker unexpectedly exits with a connection error code 2. End of file. There are some potential root causes. (1) The process is killed by SIGKILL by OOM killer due to high memory usage. (2) ray stop --force is called. (3) The worker is crashed unexpectedly due to SIGSEGV or other unexpected errors.
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:39:12 [worker.py:133] Sleep mode freed 38.53 GiB memory, 21.41 GiB memory is still in use.[32m [repeated 7x across cluster][0m
+[36m(LLMRayActor pid=279380)[0m INFO 05-28 15:39:12 [executor_base.py:208] It took 1.628398 seconds to fall asleep.[32m [repeated 7x across cluster][0m
+Traceback (most recent call last):
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/urllib3/connection.py", line 198, in _new_conn
+    sock = connection.create_connection(
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/urllib3/util/connection.py", line 85, in create_connection
+    raise err
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/urllib3/util/connection.py", line 73, in create_connection
+    sock.connect(sa)
+ConnectionRefusedError: [Errno 111] Connection refused
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/urllib3/connectionpool.py", line 787, in urlopen
+    response = self._make_request(
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/urllib3/connectionpool.py", line 493, in _make_request
+    conn.request(
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/urllib3/connection.py", line 445, in request
+    self.endheaders()
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/http/client.py", line 1278, in endheaders
+    self._send_output(message_body, encode_chunked=encode_chunked)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/http/client.py", line 1038, in _send_output
+    self.send(msg)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/http/client.py", line 976, in send
+    self.connect()
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/urllib3/connection.py", line 276, in connect
+    self.sock = self._new_conn()
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/urllib3/connection.py", line 213, in _new_conn
+    raise NewConnectionError(
+urllib3.exceptions.NewConnectionError: <urllib3.connection.HTTPConnection object at 0x7f80efaa78e0>: Failed to establish a new connection: [Errno 111] Connection refused
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/requests/adapters.py", line 667, in send
+    resp = conn.urlopen(
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/urllib3/connectionpool.py", line 841, in urlopen
+    retries = retries.increment(
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/urllib3/util/retry.py", line 519, in increment
+    raise MaxRetryError(_pool, url, reason) from reason  # type: ignore[arg-type]
+urllib3.exceptions.MaxRetryError: HTTPConnectionPool(host='127.0.0.1', port=2989): Max retries exceeded with url: /api/jobs/raysubmit_YfLa8tqbvrqPbydr (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7f80efaa78e0>: Failed to establish a new connection: [Errno 111] Connection refused'))
+
+During handling of the above exception, another exception occurred:
+
+Traceback (most recent call last):
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/bin/ray", line 8, in <module>
+    sys.exit(main())
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/ray/scripts/scripts.py", line 2690, in main
+    return cli()
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/click/core.py", line 1161, in __call__
+    return self.main(*args, **kwargs)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/click/core.py", line 1082, in main
+    rv = self.invoke(ctx)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/click/core.py", line 1697, in invoke
+    return _process_result(sub_ctx.command.invoke(sub_ctx))
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/click/core.py", line 1697, in invoke
+    return _process_result(sub_ctx.command.invoke(sub_ctx))
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/click/core.py", line 1443, in invoke
+    return ctx.invoke(self.callback, **ctx.params)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/click/core.py", line 788, in invoke
+    return __callback(*args, **kwargs)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/ray/dashboard/modules/job/cli_utils.py", line 54, in wrapper
+    return func(*args, **kwargs)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/ray/autoscaler/_private/cli_logger.py", line 823, in wrapper
+    return f(*args, **kwargs)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/ray/dashboard/modules/job/cli.py", line 310, in submit
+    job_status = get_or_create_event_loop().run_until_complete(
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/asyncio/base_events.py", line 649, in run_until_complete
+    return future.result()
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/ray/dashboard/modules/job/cli.py", line 99, in _tail_logs
+    return _log_job_status(client, job_id)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/ray/dashboard/modules/job/cli.py", line 78, in _log_job_status
+    info = client.get_job_info(job_id)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/ray/dashboard/modules/job/sdk.py", line 352, in get_job_info
+    r = self._do_request("GET", f"/api/jobs/{job_id}")
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/ray/dashboard/modules/dashboard_sdk.py", line 303, in _do_request
+    return requests.request(
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/requests/api.py", line 59, in request
+    return session.request(method=method, url=url, **kwargs)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/requests/sessions.py", line 589, in request
+    resp = self.send(prep, **send_kwargs)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/requests/sessions.py", line 703, in send
+    r = adapter.send(request, **kwargs)
+  File "/mnt/petrelfs/luyiting/anaconda3/envs/lmmr1/lib/python3.10/site-packages/requests/adapters.py", line 700, in send
+    raise ConnectionError(e, request=request)
+requests.exceptions.ConnectionError: HTTPConnectionPool(host='127.0.0.1', port=2989): Max retries exceeded with url: /api/jobs/raysubmit_YfLa8tqbvrqPbydr (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7f80efaa78e0>: Failed to establish a new connection: [Errno 111] Connection refused'))