Add training metrics

b197963 verified 13 days ago

80.9 kB

	{"step": 0, "dataset_size": 879.0, "train_return": 0.0, "train_length": 879.0, "train_episodes": 1.0}
	{"step": 0, "dataset_size": 1835.0, "train_return": 0.0, "train_length": 956.0, "train_episodes": 2.0}
	{"step": 0, "dataset_size": 2687.0, "train_return": 0.0, "train_length": 852.0, "train_episodes": 3.0}
	{"step": 0, "dataset_size": 3659.0, "train_return": 0.0, "train_length": 972.0, "train_episodes": 4.0}
	{"step": 0, "dataset_size": 4627.0, "train_return": 0.0, "train_length": 968.0, "train_episodes": 5.0}
	{"step": 5000}
	{"step": 5000, "eval_return": 0.0, "eval_length": 863.8, "eval_episodes": 10.0}
	{"step": 5000, "model_loss": 12.036883354187012, "model_grad_norm": Infinity, "vector_loss": 7.218497276306152, "reward_loss": 3.1837317943573, "cont_loss": 0.06498531997203827, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999998, "dyn_loss": 2.616115093231201, "rep_loss": 2.616115093231201, "kl": 2.5864038467407227, "prior_ent": 106.19872283935547, "post_ent": 104.20189666748047, "normed_target_mean": 2.963207350603625e-07, "normed_target_std": 4.609964037172176e-07, "normed_target_min": -1.2152443105151178e-06, "normed_target_max": 1.854390575317666e-06, "EMA_005": -2.55231441315118e-07, "EMA_095": 2.813464448081504e-07, "value_mean": 4.52905490888611e-09, "value_std": 1.3103370122280467e-07, "value_min": -4.0531159584134e-07, "value_max": 4.839897087549616e-07, "target_mean": 4.108927598167611e-08, "target_std": 4.609964037172176e-07, "target_min": -1.4704755812999792e-06, "target_max": 1.5991591908459668e-06, "imag_reward_mean": 7.785001976401418e-09, "imag_reward_std": 1.0952310702805335e-07, "imag_reward_min": -2.6345253445470007e-07, "imag_reward_max": 2.8610230629055877e-07, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 8.83876895904541, "value_grad_norm": Infinity, "update_count": 100.0, "fps": 0}
	{"step": 5399, "dataset_size": 5399.0, "train_return": 0.0, "train_length": 772.0, "train_episodes": 6.0}
	{"step": 5972, "dataset_size": 5972.0, "train_return": 0.0, "train_length": 573.0, "train_episodes": 7.0}
	{"step": 6834, "dataset_size": 6834.0, "train_return": 0.0, "train_length": 862.0, "train_episodes": 8.0}
	{"step": 7813, "dataset_size": 7813.0, "train_return": 0.0, "train_length": 979.0, "train_episodes": 9.0}
	{"step": 8638, "dataset_size": 8638.0, "train_return": 0.0, "train_length": 825.0, "train_episodes": 10.0}
	{"step": 9470, "dataset_size": 9470.0, "train_return": 0.0, "train_length": 832.0, "train_episodes": 11.0}
	{"step": 10298, "dataset_size": 10298.0, "train_return": 0.0, "train_length": 828.0, "train_episodes": 12.0}
	{"step": 11119, "dataset_size": 11119.0, "train_return": 0.0, "train_length": 821.0, "train_episodes": 13.0}
	{"step": 12140, "dataset_size": 12140.0, "train_return": 0.0, "train_length": 1021.0, "train_episodes": 14.0}
	{"step": 13129, "dataset_size": 13129.0, "train_return": 0.0, "train_length": 989.0, "train_episodes": 15.0}
	{"step": 13831, "dataset_size": 13831.0, "train_return": 0.0, "train_length": 702.0, "train_episodes": 16.0}
	{"step": 14691, "dataset_size": 14691.0, "train_return": 0.0, "train_length": 860.0, "train_episodes": 17.0}
	{"step": 15000}
	{"step": 15000, "eval_return": 0.0, "eval_length": 887.7, "eval_episodes": 10.0}
	{"step": 15000, "model_loss": 2.6475181579589844, "model_grad_norm": 10.6986722946167, "vector_loss": 1.7163714170455933, "reward_loss": 0.11708007752895355, "cont_loss": 0.00730444910004735, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3446037769317627, "rep_loss": 1.3446037769317627, "kl": 1.2667367458343506, "prior_ent": 88.53179931640625, "post_ent": 86.61552429199219, "normed_target_mean": 3.066692499942292e-07, "normed_target_std": 1.6810082570373197e-07, "normed_target_min": -6.507009686629317e-08, "normed_target_max": 1.161297859653132e-06, "EMA_005": -2.2202377181201882e-07, "EMA_095": 4.980041126145807e-07, "value_mean": 3.4118830427587454e-08, "value_std": 1.29986375441149e-07, "value_min": -2.4222717343036493e-07, "value_max": 7.944747153487697e-07, "target_mean": 8.4645471076783e-08, "target_std": 1.6810083991458669e-07, "target_min": -2.8709391131087614e-07, "target_max": 9.392741731062415e-07, "imag_reward_mean": 8.523337591270774e-09, "imag_reward_std": 2.1191466359482547e-08, "imag_reward_min": -6.017593534579646e-08, "imag_reward_max": 6.32228207564367e-08, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 3.0801830291748047, "value_grad_norm": 22.102874755859375, "update_count": 413.0, "fps": 57.380966948279905}
	{"step": 15577, "dataset_size": 15577.0, "train_return": 0.0, "train_length": 886.0, "train_episodes": 18.0}
	{"step": 16561, "dataset_size": 16561.0, "train_return": 0.0, "train_length": 984.0, "train_episodes": 19.0}
	{"step": 17515, "dataset_size": 17515.0, "train_return": 0.0, "train_length": 954.0, "train_episodes": 20.0}
	{"step": 18179, "dataset_size": 18179.0, "train_return": 0.0, "train_length": 664.0, "train_episodes": 21.0}
	{"step": 19053, "dataset_size": 19053.0, "train_return": 0.0, "train_length": 874.0, "train_episodes": 22.0}
	{"step": 19942, "dataset_size": 19942.0, "train_return": 0.0, "train_length": 889.0, "train_episodes": 23.0}
	{"step": 20556, "dataset_size": 20556.0, "train_return": 0.0, "train_length": 614.0, "train_episodes": 24.0}
	{"step": 21435, "dataset_size": 21435.0, "train_return": 0.0, "train_length": 879.0, "train_episodes": 25.0}
	{"step": 22309, "dataset_size": 22309.0, "train_return": 0.0, "train_length": 874.0, "train_episodes": 26.0}
	{"step": 23053, "dataset_size": 23053.0, "train_return": 0.0, "train_length": 744.0, "train_episodes": 27.0}
	{"step": 23879, "dataset_size": 23879.0, "train_return": 0.0, "train_length": 826.0, "train_episodes": 28.0}
	{"step": 24997, "dataset_size": 24997.0, "train_return": 0.0, "train_length": 1118.0, "train_episodes": 29.0}
	{"step": 25000}
	{"step": 25000, "eval_return": 0.0, "eval_length": 836.4, "eval_episodes": 10.0}
	{"step": 25000, "model_loss": 1.9251242876052856, "model_grad_norm": 7.644765853881836, "vector_loss": 0.8931188583374023, "reward_loss": 0.013537871651351452, "cont_loss": 0.005268768407404423, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.6886647939682007, "rep_loss": 1.6886647939682007, "kl": 1.6225359439849854, "prior_ent": 69.10659790039062, "post_ent": 66.30590057373047, "normed_target_mean": 8.251839744843892e-08, "normed_target_std": 4.8176982403447255e-08, "normed_target_min": -1.2740834165470005e-07, "normed_target_max": 1.871944448339491e-07, "EMA_005": -7.242498867299219e-08, "EMA_095": 1.2485678269058553e-07, "value_mean": 1.0188446530889905e-08, "value_std": 6.164489008142482e-08, "value_min": -2.166399610814551e-07, "value_max": 1.2035553709210944e-07, "target_mean": 1.0093410551803572e-08, "target_std": 4.8176982403447255e-08, "target_min": -1.9983330901141017e-07, "target_max": 1.1476944905552955e-07, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.34624531865119934, "value_grad_norm": 5.460154056549072, "update_count": 725.0, "fps": 57.5755970519752}
	{"step": 25879, "dataset_size": 25879.0, "train_return": 0.0, "train_length": 882.0, "train_episodes": 30.0}
	{"step": 26716, "dataset_size": 26716.0, "train_return": 0.0, "train_length": 837.0, "train_episodes": 31.0}
	{"step": 27686, "dataset_size": 27686.0, "train_return": 0.0, "train_length": 970.0, "train_episodes": 32.0}
	{"step": 28801, "dataset_size": 28801.0, "train_return": 0.0, "train_length": 1115.0, "train_episodes": 33.0}
	{"step": 29562, "dataset_size": 29562.0, "train_return": 0.0, "train_length": 761.0, "train_episodes": 34.0}
	{"step": 30437, "dataset_size": 30437.0, "train_return": 0.0, "train_length": 875.0, "train_episodes": 35.0}
	{"step": 31307, "dataset_size": 31307.0, "train_return": 0.0, "train_length": 870.0, "train_episodes": 36.0}
	{"step": 32163, "dataset_size": 32163.0, "train_return": 0.0, "train_length": 856.0, "train_episodes": 37.0}
	{"step": 33091, "dataset_size": 33091.0, "train_return": 0.0, "train_length": 928.0, "train_episodes": 38.0}
	{"step": 33976, "dataset_size": 33976.0, "train_return": 0.0, "train_length": 885.0, "train_episodes": 39.0}
	{"step": 34963, "dataset_size": 34963.0, "train_return": 0.0, "train_length": 987.0, "train_episodes": 40.0}
	{"step": 35000}
	{"step": 35000, "eval_return": 0.0, "eval_length": 908.4, "eval_episodes": 10.0}
	{"step": 35000, "model_loss": 1.5030183792114258, "model_grad_norm": 5.564835071563721, "vector_loss": 0.4934086799621582, "reward_loss": 0.005980934482067823, "cont_loss": 0.0006609146948903799, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.6716129779815674, "rep_loss": 1.6716129779815674, "kl": 1.4873073101043701, "prior_ent": 53.677467346191406, "post_ent": 50.4514045715332, "normed_target_mean": 3.067443188342622e-08, "normed_target_std": 1.9235720571941783e-08, "normed_target_min": -2.795959552770455e-08, "normed_target_max": 8.724592248654517e-08, "EMA_005": -2.721920111525833e-08, "EMA_095": 5.3201702598926204e-08, "value_mean": 3.5428571187878788e-09, "value_std": 2.393471021377991e-08, "value_min": -5.827163462868157e-08, "value_max": 7.731465245797153e-08, "target_mean": 3.455230768167894e-09, "target_std": 1.9235720571941783e-08, "target_min": -5.517879486660604e-08, "target_max": 6.002672137128684e-08, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.11749947816133499, "value_grad_norm": 2.015822649002075, "update_count": 1038.0, "fps": 56.57257126918545}
	{"step": 35780, "dataset_size": 35780.0, "train_return": 0.0, "train_length": 817.0, "train_episodes": 41.0}
	{"step": 36657, "dataset_size": 36657.0, "train_return": 0.0, "train_length": 877.0, "train_episodes": 42.0}
	{"step": 37614, "dataset_size": 37614.0, "train_return": 0.0, "train_length": 957.0, "train_episodes": 43.0}
	{"step": 38517, "dataset_size": 38517.0, "train_return": 0.0, "train_length": 903.0, "train_episodes": 44.0}
	{"step": 39397, "dataset_size": 39397.0, "train_return": 0.0, "train_length": 880.0, "train_episodes": 45.0}
	{"step": 40409, "dataset_size": 40409.0, "train_return": 0.0, "train_length": 1012.0, "train_episodes": 46.0}
	{"step": 41086, "dataset_size": 41086.0, "train_return": 0.0, "train_length": 677.0, "train_episodes": 47.0}
	{"step": 41948, "dataset_size": 41948.0, "train_return": 0.0, "train_length": 862.0, "train_episodes": 48.0}
	{"step": 42795, "dataset_size": 42795.0, "train_return": 0.0, "train_length": 847.0, "train_episodes": 49.0}
	{"step": 43879, "dataset_size": 43879.0, "train_return": 0.0, "train_length": 1084.0, "train_episodes": 50.0}
	{"step": 44710, "dataset_size": 44710.0, "train_return": 0.0, "train_length": 831.0, "train_episodes": 51.0}
	{"step": 45000}
	{"step": 45000, "eval_return": 0.0, "eval_length": 891.6, "eval_episodes": 10.0}
	{"step": 45000, "model_loss": 1.3495185375213623, "model_grad_norm": 4.582556247711182, "vector_loss": 0.3670808970928192, "reward_loss": 0.0034169459249824286, "cont_loss": 0.00027657346799969673, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.6312402486801147, "rep_loss": 1.6312402486801147, "kl": 1.4051117897033691, "prior_ent": 46.196144104003906, "post_ent": 43.201908111572266, "normed_target_mean": 2.4976343215854513e-09, "normed_target_std": 7.6515949132272e-10, "normed_target_min": 2.211317795541845e-09, "normed_target_max": 6.8973511346825944e-09, "EMA_005": -2.211317795541845e-09, "EMA_095": 8.098459680638825e-09, "value_mean": 2.9463631534554224e-10, "value_std": 9.708904791239092e-10, "value_min": 0.0, "value_max": 8.787864658188482e-09, "target_mean": 2.8631655379918186e-10, "target_std": 7.6515949132272e-10, "target_min": 0.0, "target_max": 4.686033783229959e-09, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.06088694557547569, "value_grad_norm": 1.0692089796066284, "update_count": 1350.0, "fps": 56.77574860925065}
	{"step": 45691, "dataset_size": 45691.0, "train_return": 0.0, "train_length": 981.0, "train_episodes": 52.0}
	{"step": 46263, "dataset_size": 46263.0, "train_return": 0.0, "train_length": 572.0, "train_episodes": 53.0}
	{"step": 47053, "dataset_size": 47053.0, "train_return": 0.0, "train_length": 790.0, "train_episodes": 54.0}
	{"step": 47838, "dataset_size": 47838.0, "train_return": 0.0, "train_length": 785.0, "train_episodes": 55.0}
	{"step": 48835, "dataset_size": 48835.0, "train_return": 0.0, "train_length": 997.0, "train_episodes": 56.0}
	{"step": 49733, "dataset_size": 49733.0, "train_return": 0.0, "train_length": 898.0, "train_episodes": 57.0}
	{"step": 50538, "dataset_size": 50538.0, "train_return": 0.0, "train_length": 805.0, "train_episodes": 58.0}
	{"step": 51335, "dataset_size": 51335.0, "train_return": 0.0, "train_length": 797.0, "train_episodes": 59.0}
	{"step": 52326, "dataset_size": 52326.0, "train_return": 0.0, "train_length": 991.0, "train_episodes": 60.0}
	{"step": 53325, "dataset_size": 53325.0, "train_return": 0.0, "train_length": 999.0, "train_episodes": 61.0}
	{"step": 54160, "dataset_size": 54160.0, "train_return": 0.0, "train_length": 835.0, "train_episodes": 62.0}
	{"step": 55000}
	{"step": 55000, "eval_return": 0.0, "eval_length": 844.7, "eval_episodes": 10.0}
	{"step": 55000, "model_loss": 1.3192343711853027, "model_grad_norm": 4.862561225891113, "vector_loss": 0.31950095295906067, "reward_loss": 0.002207384677603841, "cont_loss": 9.864200546871871e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.6623789072036743, "rep_loss": 1.6623789072036743, "kl": 1.4447025060653687, "prior_ent": 42.38140869140625, "post_ent": 39.7100715637207, "normed_target_mean": 9.58607151990698e-11, "normed_target_std": 0.0, "normed_target_min": 9.58607082601759e-11, "normed_target_max": 9.58607082601759e-11, "EMA_005": -9.58607082601759e-11, "EMA_095": 3.5946898235827973e-10, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.03748656064271927, "value_grad_norm": 0.6656349301338196, "update_count": 1663.0, "fps": 57.40158050077875}
	{"step": 55068, "dataset_size": 55068.0, "train_return": 0.0, "train_length": 908.0, "train_episodes": 63.0}
	{"step": 55882, "dataset_size": 55882.0, "train_return": 0.0, "train_length": 814.0, "train_episodes": 64.0}
	{"step": 56704, "dataset_size": 56704.0, "train_return": 0.0, "train_length": 822.0, "train_episodes": 65.0}
	{"step": 57586, "dataset_size": 57586.0, "train_return": 0.0, "train_length": 882.0, "train_episodes": 66.0}
	{"step": 58683, "dataset_size": 58683.0, "train_return": 0.0, "train_length": 1097.0, "train_episodes": 67.0}
	{"step": 59651, "dataset_size": 59651.0, "train_return": 0.0, "train_length": 968.0, "train_episodes": 68.0}
	{"step": 60489, "dataset_size": 60489.0, "train_return": 0.0, "train_length": 838.0, "train_episodes": 69.0}
	{"step": 61356, "dataset_size": 61356.0, "train_return": 0.0, "train_length": 867.0, "train_episodes": 70.0}
	{"step": 62039, "dataset_size": 62039.0, "train_return": 0.0, "train_length": 683.0, "train_episodes": 71.0}
	{"step": 62887, "dataset_size": 62887.0, "train_return": 0.0, "train_length": 848.0, "train_episodes": 72.0}
	{"step": 63943, "dataset_size": 63943.0, "train_return": 0.0, "train_length": 1056.0, "train_episodes": 73.0}
	{"step": 64948, "dataset_size": 64948.0, "train_return": 0.0, "train_length": 1005.0, "train_episodes": 74.0}
	{"step": 65000}
	{"step": 65000, "eval_return": 0.0, "eval_length": 903.0, "eval_episodes": 10.0}
	{"step": 65000, "model_loss": 1.1806992292404175, "model_grad_norm": 3.359379291534424, "vector_loss": 0.2475978583097458, "reward_loss": 0.0015315277269110084, "cont_loss": 6.141047197161242e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.5525139570236206, "rep_loss": 1.5525139570236206, "kl": 1.272873044013977, "prior_ent": 39.642120361328125, "post_ent": 37.065608978271484, "normed_target_mean": 4.1366667036246696e-12, "normed_target_std": 0.0, "normed_target_min": 4.136666269943801e-12, "normed_target_max": 4.136666269943801e-12, "EMA_005": -4.136666269943801e-12, "EMA_095": 1.5512128040406914e-11, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.025296518579125404, "value_grad_norm": 0.4521366059780121, "update_count": 1975.0, "fps": 55.652660241726224}
	{"step": 65566, "dataset_size": 65566.0, "train_return": 0.0, "train_length": 618.0, "train_episodes": 75.0}
	{"step": 66389, "dataset_size": 66389.0, "train_return": 0.0, "train_length": 823.0, "train_episodes": 76.0}
	{"step": 67272, "dataset_size": 67272.0, "train_return": 0.0, "train_length": 883.0, "train_episodes": 77.0}
	{"step": 67952, "dataset_size": 67952.0, "train_return": 0.0, "train_length": 680.0, "train_episodes": 78.0}
	{"step": 68678, "dataset_size": 68678.0, "train_return": 0.0, "train_length": 726.0, "train_episodes": 79.0}
	{"step": 69567, "dataset_size": 69567.0, "train_return": 0.0, "train_length": 889.0, "train_episodes": 80.0}
	{"step": 70582, "dataset_size": 70582.0, "train_return": 0.0, "train_length": 1015.0, "train_episodes": 81.0}
	{"step": 71422, "dataset_size": 71422.0, "train_return": 0.0, "train_length": 840.0, "train_episodes": 82.0}
	{"step": 72092, "dataset_size": 72092.0, "train_return": 0.0, "train_length": 670.0, "train_episodes": 83.0}
	{"step": 72906, "dataset_size": 72906.0, "train_return": 0.0, "train_length": 814.0, "train_episodes": 84.0}
	{"step": 73622, "dataset_size": 73622.0, "train_return": 0.0, "train_length": 716.0, "train_episodes": 85.0}
	{"step": 74626, "dataset_size": 74626.0, "train_return": 0.0, "train_length": 1004.0, "train_episodes": 86.0}
	{"step": 75000}
	{"step": 75000, "eval_return": 0.0, "eval_length": 821.1, "eval_episodes": 10.0}
	{"step": 75000, "model_loss": 1.137789249420166, "model_grad_norm": 3.312343120574951, "vector_loss": 0.21910004317760468, "reward_loss": 0.0011148713529109955, "cont_loss": 6.741055403836071e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.529178261756897, "rep_loss": 1.529178261756897, "kl": 1.2413051128387451, "prior_ent": 37.90029525756836, "post_ent": 35.49180603027344, "normed_target_mean": 1.7932466763685012e-13, "normed_target_std": 0.0, "normed_target_min": 1.7932466763685012e-13, "normed_target_max": 1.7932466763685012e-13, "EMA_005": -1.7932466763685012e-13, "EMA_095": 6.724517318847101e-13, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.018082497641444206, "value_grad_norm": 0.3243565261363983, "update_count": 2288.0, "fps": 57.13806589560126}
	{"step": 75564, "dataset_size": 75564.0, "train_return": 0.0, "train_length": 938.0, "train_episodes": 87.0}
	{"step": 76291, "dataset_size": 76291.0, "train_return": 0.0, "train_length": 727.0, "train_episodes": 88.0}
	{"step": 77161, "dataset_size": 77161.0, "train_return": 0.0, "train_length": 870.0, "train_episodes": 89.0}
	{"step": 78175, "dataset_size": 78175.0, "train_return": 0.0, "train_length": 1014.0, "train_episodes": 90.0}
	{"step": 79152, "dataset_size": 79152.0, "train_return": 0.0, "train_length": 977.0, "train_episodes": 91.0}
	{"step": 80349, "dataset_size": 80349.0, "train_return": 0.0, "train_length": 1197.0, "train_episodes": 92.0}
	{"step": 81248, "dataset_size": 81248.0, "train_return": 0.0, "train_length": 899.0, "train_episodes": 93.0}
	{"step": 82076, "dataset_size": 82076.0, "train_return": 0.0, "train_length": 828.0, "train_episodes": 94.0}
	{"step": 82936, "dataset_size": 82936.0, "train_return": 0.0, "train_length": 860.0, "train_episodes": 95.0}
	{"step": 83838, "dataset_size": 83838.0, "train_return": 0.0, "train_length": 902.0, "train_episodes": 96.0}
	{"step": 84710, "dataset_size": 84710.0, "train_return": 0.0, "train_length": 872.0, "train_episodes": 97.0}
	{"step": 85000}
	{"step": 85000, "eval_return": 0.0, "eval_length": 860.8, "eval_episodes": 10.0}
	{"step": 85000, "model_loss": 1.0972232818603516, "model_grad_norm": 3.1423749923706055, "vector_loss": 0.19843247532844543, "reward_loss": 0.0008359475177712739, "cont_loss": 4.4681310100713745e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.4965169429779053, "rep_loss": 1.4965169429779053, "kl": 1.202122688293457, "prior_ent": 36.69581985473633, "post_ent": 34.473899841308594, "normed_target_mean": 7.738368492272042e-15, "normed_target_std": 0.0, "normed_target_min": 7.738367645239094e-15, "normed_target_max": 7.738367645239094e-15, "EMA_005": -7.738367645239094e-15, "EMA_095": 2.901822052504659e-14, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.013432580977678299, "value_grad_norm": 0.2413507103919983, "update_count": 2600.0, "fps": 56.350285919288545}
	{"step": 85703, "dataset_size": 85703.0, "train_return": 0.0, "train_length": 993.0, "train_episodes": 98.0}
	{"step": 86581, "dataset_size": 86581.0, "train_return": 0.0, "train_length": 878.0, "train_episodes": 99.0}
	{"step": 87468, "dataset_size": 87468.0, "train_return": 0.0, "train_length": 887.0, "train_episodes": 100.0}
	{"step": 88362, "dataset_size": 88362.0, "train_return": 0.0, "train_length": 894.0, "train_episodes": 101.0}
	{"step": 89168, "dataset_size": 89168.0, "train_return": 0.0, "train_length": 806.0, "train_episodes": 102.0}
	{"step": 89950, "dataset_size": 89950.0, "train_return": 0.0, "train_length": 782.0, "train_episodes": 103.0}
	{"step": 90781, "dataset_size": 90781.0, "train_return": 0.0, "train_length": 831.0, "train_episodes": 104.0}
	{"step": 91625, "dataset_size": 91625.0, "train_return": 0.0, "train_length": 844.0, "train_episodes": 105.0}
	{"step": 92478, "dataset_size": 92478.0, "train_return": 0.0, "train_length": 853.0, "train_episodes": 106.0}
	{"step": 93302, "dataset_size": 93302.0, "train_return": 0.0, "train_length": 824.0, "train_episodes": 107.0}
	{"step": 94262, "dataset_size": 94262.0, "train_return": 0.0, "train_length": 960.0, "train_episodes": 108.0}
	{"step": 95000}
	{"step": 95000, "eval_return": 0.0, "eval_length": 929.3, "eval_episodes": 10.0}
	{"step": 95000, "model_loss": 1.0641599893569946, "model_grad_norm": 2.9933929443359375, "vector_loss": 0.18091024458408356, "reward_loss": 0.0006483831093646586, "cont_loss": 6.691485032206401e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.4708908796310425, "rep_loss": 1.4708908796310425, "kl": 1.1750426292419434, "prior_ent": 36.019893646240234, "post_ent": 33.93797302246094, "normed_target_mean": 3.354586107932379e-16, "normed_target_std": 0.0, "normed_target_min": 3.354586107932379e-16, "normed_target_max": 3.354586107932379e-16, "EMA_005": -3.354586107932379e-16, "EMA_095": 1.2579412295824518e-15, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.010264544747769833, "value_grad_norm": 0.18463820219039917, "update_count": 2913.0, "fps": 55.655366957174365}
	{"step": 95058, "dataset_size": 95058.0, "train_return": 0.0, "train_length": 796.0, "train_episodes": 109.0}
	{"step": 96065, "dataset_size": 96065.0, "train_return": 0.0, "train_length": 1007.0, "train_episodes": 110.0}
	{"step": 96934, "dataset_size": 96934.0, "train_return": 0.0, "train_length": 869.0, "train_episodes": 111.0}
	{"step": 97656, "dataset_size": 97656.0, "train_return": 0.0, "train_length": 722.0, "train_episodes": 112.0}
	{"step": 98484, "dataset_size": 98484.0, "train_return": 0.0, "train_length": 828.0, "train_episodes": 113.0}
	{"step": 99372, "dataset_size": 99372.0, "train_return": 0.0, "train_length": 888.0, "train_episodes": 114.0}
	{"step": 100324, "dataset_size": 100324.0, "train_return": 0.0, "train_length": 952.0, "train_episodes": 115.0}
	{"step": 100959, "dataset_size": 100959.0, "train_return": 0.0, "train_length": 635.0, "train_episodes": 116.0}
	{"step": 101620, "dataset_size": 101620.0, "train_return": 0.0, "train_length": 661.0, "train_episodes": 117.0}
	{"step": 102588, "dataset_size": 102588.0, "train_return": 0.0, "train_length": 968.0, "train_episodes": 118.0}
	{"step": 103601, "dataset_size": 103601.0, "train_return": 0.0, "train_length": 1013.0, "train_episodes": 119.0}
	{"step": 104202, "dataset_size": 104202.0, "train_return": 0.0, "train_length": 601.0, "train_episodes": 120.0}
	{"step": 105000}
	{"step": 105000, "eval_return": 0.0, "eval_length": 859.7, "eval_episodes": 10.0}
	{"step": 105000, "model_loss": 1.0425773859024048, "model_grad_norm": 2.984226703643799, "vector_loss": 0.16721542179584503, "reward_loss": 0.0005171343218535185, "cont_loss": 4.763464676216245e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.4579955339431763, "rep_loss": 1.4579955339431763, "kl": 1.16079843044281, "prior_ent": 35.66210174560547, "post_ent": 33.669464111328125, "normed_target_mean": 1.4476009789896482e-17, "normed_target_std": 0.0, "normed_target_min": 1.4476008135535257e-17, "normed_target_max": 1.4476008135535257e-17, "EMA_005": -1.4476008135535257e-17, "EMA_095": 5.4283790564518995e-17, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.008007660508155823, "value_grad_norm": 0.1436590850353241, "update_count": 3225.0, "fps": 56.41246918197938}
	{"step": 105032, "dataset_size": 105032.0, "train_return": 0.0, "train_length": 830.0, "train_episodes": 121.0}
	{"step": 106082, "dataset_size": 106082.0, "train_return": 0.0, "train_length": 1050.0, "train_episodes": 122.0}
	{"step": 106918, "dataset_size": 106918.0, "train_return": 0.0, "train_length": 836.0, "train_episodes": 123.0}
	{"step": 107937, "dataset_size": 107937.0, "train_return": 0.0, "train_length": 1019.0, "train_episodes": 124.0}
	{"step": 108523, "dataset_size": 108523.0, "train_return": 0.0, "train_length": 586.0, "train_episodes": 125.0}
	{"step": 109232, "dataset_size": 109232.0, "train_return": 0.0, "train_length": 709.0, "train_episodes": 126.0}
	{"step": 110147, "dataset_size": 110147.0, "train_return": 0.0, "train_length": 915.0, "train_episodes": 127.0}
	{"step": 111052, "dataset_size": 111052.0, "train_return": 0.0, "train_length": 905.0, "train_episodes": 128.0}
	{"step": 111762, "dataset_size": 111762.0, "train_return": 0.0, "train_length": 710.0, "train_episodes": 129.0}
	{"step": 112550, "dataset_size": 112550.0, "train_return": 0.0, "train_length": 788.0, "train_episodes": 130.0}
	{"step": 113426, "dataset_size": 113426.0, "train_return": 0.0, "train_length": 876.0, "train_episodes": 131.0}
	{"step": 114282, "dataset_size": 114282.0, "train_return": 0.0, "train_length": 856.0, "train_episodes": 132.0}
	{"step": 115000}
	{"step": 115000, "eval_return": 0.0, "eval_length": 813.7, "eval_episodes": 10.0}
	{"step": 115000, "model_loss": 1.0271189212799072, "model_grad_norm": 3.013943672180176, "vector_loss": 0.15654070675373077, "reward_loss": 0.00040729428292252123, "cont_loss": 7.062262739054859e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.4501670598983765, "rep_loss": 1.4501670598983765, "kl": 1.1461883783340454, "prior_ent": 35.37978744506836, "post_ent": 33.46574401855469, "normed_target_mean": 6.275358154248323e-19, "normed_target_std": 0.0, "normed_target_min": 6.27535763726044e-19, "normed_target_max": 6.27535763726044e-19, "EMA_005": -6.27535763726044e-19, "EMA_095": 2.3532060063923996e-18, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.006346833426505327, "value_grad_norm": 0.11385774612426758, "update_count": 3538.0, "fps": 56.67477051739388}
	{"step": 115158, "dataset_size": 115158.0, "train_return": 0.0, "train_length": 876.0, "train_episodes": 133.0}
	{"step": 115990, "dataset_size": 115990.0, "train_return": 0.0, "train_length": 832.0, "train_episodes": 134.0}
	{"step": 116819, "dataset_size": 116819.0, "train_return": 0.0, "train_length": 829.0, "train_episodes": 135.0}
	{"step": 117673, "dataset_size": 117673.0, "train_return": 0.0, "train_length": 854.0, "train_episodes": 136.0}
	{"step": 118538, "dataset_size": 118538.0, "train_return": 0.0, "train_length": 865.0, "train_episodes": 137.0}
	{"step": 119597, "dataset_size": 119597.0, "train_return": 0.0, "train_length": 1059.0, "train_episodes": 138.0}
	{"step": 120593, "dataset_size": 120593.0, "train_return": 0.0, "train_length": 996.0, "train_episodes": 139.0}
	{"step": 121418, "dataset_size": 121418.0, "train_return": 0.0, "train_length": 825.0, "train_episodes": 140.0}
	{"step": 122289, "dataset_size": 122289.0, "train_return": 0.0, "train_length": 871.0, "train_episodes": 141.0}
	{"step": 123185, "dataset_size": 123185.0, "train_return": 0.0, "train_length": 896.0, "train_episodes": 142.0}
	{"step": 124010, "dataset_size": 124010.0, "train_return": 0.0, "train_length": 825.0, "train_episodes": 143.0}
	{"step": 125000, "dataset_size": 125000.0, "train_return": 0.0, "train_length": 990.0, "train_episodes": 144.0}
	{"step": 125000}
	{"step": 125000, "eval_return": 0.0, "eval_length": 834.8, "eval_episodes": 10.0}
	{"step": 125000, "model_loss": 1.0149543285369873, "model_grad_norm": 3.0062432289123535, "vector_loss": 0.1495256870985031, "reward_loss": 0.0003160677442792803, "cont_loss": 7.958453352330253e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.4417215585708618, "rep_loss": 1.4417215585708618, "kl": 1.1239365339279175, "prior_ent": 34.99007034301758, "post_ent": 33.20170211791992, "normed_target_mean": 2.7079965859535392e-20, "normed_target_std": 0.0, "normed_target_min": 2.7079965859535392e-20, "normed_target_max": 2.7079965859535392e-20, "EMA_005": -2.7079965859535392e-20, "EMA_095": 1.0154758712915361e-19, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.005094489082694054, "value_grad_norm": 0.09079887717962265, "update_count": 3850.0, "fps": 56.00026304597436}
	{"step": 125838, "dataset_size": 125838.0, "train_return": 0.0, "train_length": 838.0, "train_episodes": 145.0}
	{"step": 126718, "dataset_size": 126718.0, "train_return": 0.0, "train_length": 880.0, "train_episodes": 146.0}
	{"step": 127681, "dataset_size": 127681.0, "train_return": 0.0, "train_length": 963.0, "train_episodes": 147.0}
	{"step": 128416, "dataset_size": 128416.0, "train_return": 0.0, "train_length": 735.0, "train_episodes": 148.0}
	{"step": 129295, "dataset_size": 129295.0, "train_return": 0.0, "train_length": 879.0, "train_episodes": 149.0}
	{"step": 130449, "dataset_size": 130449.0, "train_return": 0.0, "train_length": 1154.0, "train_episodes": 150.0}
	{"step": 131313, "dataset_size": 131313.0, "train_return": 0.0, "train_length": 864.0, "train_episodes": 151.0}
	{"step": 132190, "dataset_size": 132190.0, "train_return": 0.0, "train_length": 877.0, "train_episodes": 152.0}
	{"step": 133063, "dataset_size": 133063.0, "train_return": 0.0, "train_length": 873.0, "train_episodes": 153.0}
	{"step": 133891, "dataset_size": 133891.0, "train_return": 0.0, "train_length": 828.0, "train_episodes": 154.0}
	{"step": 134885, "dataset_size": 134885.0, "train_return": 0.0, "train_length": 994.0, "train_episodes": 155.0}
	{"step": 135000}
	{"step": 135000, "eval_return": 0.0, "eval_length": 886.8, "eval_episodes": 10.0}
	{"step": 135000, "model_loss": 0.9985629320144653, "model_grad_norm": 2.881594181060791, "vector_loss": 0.1409161388874054, "reward_loss": 0.00024944229517132044, "cont_loss": 9.358834358863533e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.4288396835327148, "rep_loss": 1.4288396835327148, "kl": 1.0921545028686523, "prior_ent": 34.744041442871094, "post_ent": 33.05214309692383, "normed_target_mean": 1.1739170144613016e-21, "normed_target_std": 0.0, "normed_target_min": 1.1739169134871057e-21, "normed_target_max": 1.1739169134871057e-21, "EMA_005": -1.1739169134871057e-21, "EMA_095": 4.40209204570669e-21, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.004130505956709385, "value_grad_norm": 0.0728994831442833, "update_count": 4163.0, "fps": 55.61312406423182}
	{"step": 135701, "dataset_size": 135701.0, "train_return": 0.0, "train_length": 816.0, "train_episodes": 156.0}
	{"step": 136517, "dataset_size": 136517.0, "train_return": 0.0, "train_length": 816.0, "train_episodes": 157.0}
	{"step": 137338, "dataset_size": 137338.0, "train_return": 0.0, "train_length": 821.0, "train_episodes": 158.0}
	{"step": 138098, "dataset_size": 138098.0, "train_return": 0.0, "train_length": 760.0, "train_episodes": 159.0}
	{"step": 138974, "dataset_size": 138974.0, "train_return": 0.0, "train_length": 876.0, "train_episodes": 160.0}
	{"step": 140061, "dataset_size": 140061.0, "train_return": 0.0, "train_length": 1087.0, "train_episodes": 161.0}
	{"step": 140894, "dataset_size": 140894.0, "train_return": 0.0, "train_length": 833.0, "train_episodes": 162.0}
	{"step": 141692, "dataset_size": 141692.0, "train_return": 0.0, "train_length": 798.0, "train_episodes": 163.0}
	{"step": 142515, "dataset_size": 142515.0, "train_return": 0.0, "train_length": 823.0, "train_episodes": 164.0}
	{"step": 143595, "dataset_size": 143595.0, "train_return": 0.0, "train_length": 1080.0, "train_episodes": 165.0}
	{"step": 144455, "dataset_size": 144455.0, "train_return": 0.0, "train_length": 860.0, "train_episodes": 166.0}
	{"step": 145000}
	{"step": 145000, "eval_return": 0.0, "eval_length": 903.1, "eval_episodes": 10.0}
	{"step": 145000, "model_loss": 0.9802424311637878, "model_grad_norm": 2.912076950073242, "vector_loss": 0.13103173673152924, "reward_loss": 0.00022347930644173175, "cont_loss": 5.471275289892219e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.4148874282836914, "rep_loss": 1.4148874282836914, "kl": 1.0616739988327026, "prior_ent": 34.65756607055664, "post_ent": 33.05759811401367, "normed_target_mean": 5.065784214391441e-23, "normed_target_std": 0.0, "normed_target_min": 5.065784214391441e-23, "normed_target_max": 5.065784214391441e-23, "EMA_005": -5.065784214391441e-23, "EMA_095": 1.89962805174111e-22, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.003380103036761284, "value_grad_norm": 0.059459686279296875, "update_count": 4475.0, "fps": 55.73741577911487}
	{"step": 145353, "dataset_size": 145353.0, "train_return": 0.0, "train_length": 898.0, "train_episodes": 167.0}
	{"step": 146328, "dataset_size": 146328.0, "train_return": 0.0, "train_length": 975.0, "train_episodes": 168.0}
	{"step": 146998, "dataset_size": 146998.0, "train_return": 0.0, "train_length": 670.0, "train_episodes": 169.0}
	{"step": 148021, "dataset_size": 148021.0, "train_return": 0.0, "train_length": 1023.0, "train_episodes": 170.0}
	{"step": 148875, "dataset_size": 148875.0, "train_return": 0.0, "train_length": 854.0, "train_episodes": 171.0}
	{"step": 149748, "dataset_size": 149748.0, "train_return": 0.0, "train_length": 873.0, "train_episodes": 172.0}
	{"step": 150602, "dataset_size": 150602.0, "train_return": 0.0, "train_length": 854.0, "train_episodes": 173.0}
	{"step": 151462, "dataset_size": 151462.0, "train_return": 0.0, "train_length": 860.0, "train_episodes": 174.0}
	{"step": 152409, "dataset_size": 152409.0, "train_return": 0.0, "train_length": 947.0, "train_episodes": 175.0}
	{"step": 153253, "dataset_size": 153253.0, "train_return": 0.0, "train_length": 844.0, "train_episodes": 176.0}
	{"step": 154118, "dataset_size": 154118.0, "train_return": 0.0, "train_length": 865.0, "train_episodes": 177.0}
	{"step": 154824, "dataset_size": 154824.0, "train_return": 0.0, "train_length": 706.0, "train_episodes": 178.0}
	{"step": 155000}
	{"step": 155000, "eval_return": 0.0, "eval_length": 852.5, "eval_episodes": 10.0}
	{"step": 155000, "model_loss": 0.9743940234184265, "model_grad_norm": 2.9711356163024902, "vector_loss": 0.12714143097400665, "reward_loss": 0.00020178726117592305, "cont_loss": 2.381727972533554e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.411711573600769, "rep_loss": 1.411711573600769, "kl": 1.0514594316482544, "prior_ent": 34.59481430053711, "post_ent": 33.0451545715332, "normed_target_mean": 2.1960207327624848e-24, "normed_target_std": 0.0, "normed_target_min": 2.1960205355472585e-24, "normed_target_max": 2.1960205355472585e-24, "EMA_005": -2.1960205355472585e-24, "EMA_095": 8.234895323774986e-24, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.00278632459230721, "value_grad_norm": 0.04810481145977974, "update_count": 4788.0, "fps": 55.91584421641223}
	{"step": 155303, "dataset_size": 155303.0, "train_return": 0.0, "train_length": 479.0, "train_episodes": 179.0}
	{"step": 156005, "dataset_size": 156005.0, "train_return": 0.0, "train_length": 702.0, "train_episodes": 180.0}
	{"step": 157099, "dataset_size": 157099.0, "train_return": 0.0, "train_length": 1094.0, "train_episodes": 181.0}
	{"step": 158029, "dataset_size": 158029.0, "train_return": 0.0, "train_length": 930.0, "train_episodes": 182.0}
	{"step": 158865, "dataset_size": 158865.0, "train_return": 0.0, "train_length": 836.0, "train_episodes": 183.0}
	{"step": 159876, "dataset_size": 159876.0, "train_return": 0.0, "train_length": 1011.0, "train_episodes": 184.0}
	{"step": 160880, "dataset_size": 160880.0, "train_return": 0.0, "train_length": 1004.0, "train_episodes": 185.0}
	{"step": 161394, "dataset_size": 161394.0, "train_return": 0.0, "train_length": 514.0, "train_episodes": 186.0}
	{"step": 162257, "dataset_size": 162257.0, "train_return": 0.0, "train_length": 863.0, "train_episodes": 187.0}
	{"step": 163144, "dataset_size": 163144.0, "train_return": 0.0, "train_length": 887.0, "train_episodes": 188.0}
	{"step": 163876, "dataset_size": 163876.0, "train_return": 0.0, "train_length": 732.0, "train_episodes": 189.0}
	{"step": 164710, "dataset_size": 164710.0, "train_return": 0.0, "train_length": 834.0, "train_episodes": 190.0}
	{"step": 165000}
	{"step": 165000, "eval_return": 0.0, "eval_length": 904.7, "eval_episodes": 10.0}
	{"step": 165000, "model_loss": 0.9679751992225647, "model_grad_norm": 3.0138843059539795, "vector_loss": 0.12503421306610107, "reward_loss": 0.00018128822557628155, "cont_loss": 4.0443246689392254e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.4045321941375732, "rep_loss": 1.4045321941375732, "kl": 1.0348105430603027, "prior_ent": 34.5814094543457, "post_ent": 33.09873580932617, "normed_target_mean": 9.476456631927752e-26, "normed_target_std": 0.0, "normed_target_min": 9.476456631927752e-26, "normed_target_max": 9.476456631927752e-26, "EMA_005": -9.476456631927752e-26, "EMA_095": 3.553595771333966e-25, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.002309979870915413, "value_grad_norm": 0.03965185582637787, "update_count": 5100.0, "fps": 55.40640752041629}
	{"step": 165730, "dataset_size": 165730.0, "train_return": 0.0, "train_length": 1020.0, "train_episodes": 191.0}
	{"step": 166537, "dataset_size": 166537.0, "train_return": 0.0, "train_length": 807.0, "train_episodes": 192.0}
	{"step": 167391, "dataset_size": 167391.0, "train_return": 0.0, "train_length": 854.0, "train_episodes": 193.0}
	{"step": 168215, "dataset_size": 168215.0, "train_return": 0.0, "train_length": 824.0, "train_episodes": 194.0}
	{"step": 169091, "dataset_size": 169091.0, "train_return": 0.0, "train_length": 876.0, "train_episodes": 195.0}
	{"step": 169977, "dataset_size": 169977.0, "train_return": 0.0, "train_length": 886.0, "train_episodes": 196.0}
	{"step": 170863, "dataset_size": 170863.0, "train_return": 0.0, "train_length": 886.0, "train_episodes": 197.0}
	{"step": 171705, "dataset_size": 171705.0, "train_return": 0.0, "train_length": 842.0, "train_episodes": 198.0}
	{"step": 172619, "dataset_size": 172619.0, "train_return": 0.0, "train_length": 914.0, "train_episodes": 199.0}
	{"step": 173487, "dataset_size": 173487.0, "train_return": 0.0, "train_length": 868.0, "train_episodes": 200.0}
	{"step": 174523, "dataset_size": 174523.0, "train_return": 0.0, "train_length": 1036.0, "train_episodes": 201.0}
	{"step": 175000}
	{"step": 175000, "eval_return": 0.0, "eval_length": 798.4, "eval_episodes": 10.0}
	{"step": 175000, "model_loss": 0.9546065330505371, "model_grad_norm": 2.8373849391937256, "vector_loss": 0.1210390254855156, "reward_loss": 0.00016197378863580525, "cont_loss": 4.145441926084459e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3889398574829102, "rep_loss": 1.3889398574829102, "kl": 1.005885362625122, "prior_ent": 34.61140441894531, "post_ent": 33.167564392089844, "normed_target_mean": 4.108052867766695e-27, "normed_target_std": 0.0, "normed_target_min": 4.108052482580706e-27, "normed_target_max": 4.108052482580706e-27, "EMA_005": -4.108052482580706e-27, "EMA_095": 1.5404858808972408e-26, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.0019275363301858306, "value_grad_norm": 0.03332939371466637, "update_count": 5413.0, "fps": 56.81823585033629}
	{"step": 175660, "dataset_size": 175660.0, "train_return": 0.0, "train_length": 1137.0, "train_episodes": 202.0}
	{"step": 176539, "dataset_size": 176539.0, "train_return": 0.0, "train_length": 879.0, "train_episodes": 203.0}
	{"step": 177543, "dataset_size": 177543.0, "train_return": 0.0, "train_length": 1004.0, "train_episodes": 204.0}
	{"step": 178413, "dataset_size": 178413.0, "train_return": 0.0, "train_length": 870.0, "train_episodes": 205.0}
	{"step": 179281, "dataset_size": 179281.0, "train_return": 0.0, "train_length": 868.0, "train_episodes": 206.0}
	{"step": 180140, "dataset_size": 180140.0, "train_return": 0.0, "train_length": 859.0, "train_episodes": 207.0}
	{"step": 180975, "dataset_size": 180975.0, "train_return": 0.0, "train_length": 835.0, "train_episodes": 208.0}
	{"step": 181978, "dataset_size": 181978.0, "train_return": 0.0, "train_length": 1003.0, "train_episodes": 209.0}
	{"step": 182948, "dataset_size": 182948.0, "train_return": 0.0, "train_length": 970.0, "train_episodes": 210.0}
	{"step": 183829, "dataset_size": 183829.0, "train_return": 0.0, "train_length": 881.0, "train_episodes": 211.0}
	{"step": 184707, "dataset_size": 184707.0, "train_return": 0.0, "train_length": 878.0, "train_episodes": 212.0}
	{"step": 185000}
	{"step": 185000, "eval_return": 0.0, "eval_length": 870.5, "eval_episodes": 10.0}
	{"step": 185000, "model_loss": 0.9511511325836182, "model_grad_norm": 2.821760416030884, "vector_loss": 0.11990855634212494, "reward_loss": 0.0001440502965124324, "cont_loss": 7.221677515190095e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3850438594818115, "rep_loss": 1.3850438594818115, "kl": 0.9956510663032532, "prior_ent": 34.652183532714844, "post_ent": 33.25037384033203, "normed_target_mean": 1.7727424395756473e-28, "normed_target_std": 0.0, "normed_target_min": 1.7727423192050258e-28, "normed_target_max": 1.7727423192050258e-28, "EMA_005": -1.7727423192050258e-28, "EMA_095": 6.647637536991661e-28, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.0016103836242109537, "value_grad_norm": 0.025867905467748642, "update_count": 5725.0, "fps": 55.9941483761067}
	{"step": 185581, "dataset_size": 185581.0, "train_return": 0.0, "train_length": 874.0, "train_episodes": 213.0}
	{"step": 186580, "dataset_size": 186580.0, "train_return": 0.0, "train_length": 999.0, "train_episodes": 214.0}
	{"step": 187450, "dataset_size": 187450.0, "train_return": 0.0, "train_length": 870.0, "train_episodes": 215.0}
	{"step": 188420, "dataset_size": 188420.0, "train_return": 0.0, "train_length": 970.0, "train_episodes": 216.0}
	{"step": 189141, "dataset_size": 189141.0, "train_return": 0.0, "train_length": 721.0, "train_episodes": 217.0}
	{"step": 189726, "dataset_size": 189726.0, "train_return": 0.0, "train_length": 585.0, "train_episodes": 218.0}
	{"step": 190711, "dataset_size": 190711.0, "train_return": 0.0, "train_length": 985.0, "train_episodes": 219.0}
	{"step": 191570, "dataset_size": 191570.0, "train_return": 0.0, "train_length": 859.0, "train_episodes": 220.0}
	{"step": 192319, "dataset_size": 192319.0, "train_return": 0.0, "train_length": 749.0, "train_episodes": 221.0}
	{"step": 193289, "dataset_size": 193289.0, "train_return": 0.0, "train_length": 970.0, "train_episodes": 222.0}
	{"step": 194052, "dataset_size": 194052.0, "train_return": 0.0, "train_length": 763.0, "train_episodes": 223.0}
	{"step": 194911, "dataset_size": 194911.0, "train_return": 0.0, "train_length": 859.0, "train_episodes": 224.0}
	{"step": 195000}
	{"step": 195000, "eval_return": 0.0, "eval_length": 877.7, "eval_episodes": 10.0}
	{"step": 195000, "model_loss": 0.9463114738464355, "model_grad_norm": 2.7984066009521484, "vector_loss": 0.11803100258111954, "reward_loss": 0.00012763084669131786, "cont_loss": 3.3374115446349606e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3801990747451782, "rep_loss": 1.3801990747451782, "kl": 0.9837998747825623, "prior_ent": 34.662513732910156, "post_ent": 33.29682540893555, "normed_target_mean": 7.684847168726718e-30, "normed_target_std": 0.0, "normed_target_min": 7.684847168726718e-30, "normed_target_max": 7.684847168726718e-30, "EMA_005": -7.684847168726718e-30, "EMA_095": 2.8817542303854843e-29, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.001359752961434424, "value_grad_norm": 0.022107111290097237, "update_count": 6038.0, "fps": 56.297652965528755}
	{"step": 196061, "dataset_size": 196061.0, "train_return": 0.0, "train_length": 1150.0, "train_episodes": 225.0}
	{"step": 196819, "dataset_size": 196819.0, "train_return": 0.0, "train_length": 758.0, "train_episodes": 226.0}
	{"step": 197646, "dataset_size": 197646.0, "train_return": 0.0, "train_length": 827.0, "train_episodes": 227.0}
	{"step": 198527, "dataset_size": 198527.0, "train_return": 0.0, "train_length": 881.0, "train_episodes": 228.0}
	{"step": 199235, "dataset_size": 199235.0, "train_return": 0.0, "train_length": 708.0, "train_episodes": 229.0}
	{"step": 200190, "dataset_size": 200190.0, "train_return": 0.0, "train_length": 955.0, "train_episodes": 230.0}
	{"step": 201119, "dataset_size": 201119.0, "train_return": 0.0, "train_length": 929.0, "train_episodes": 231.0}
	{"step": 201875, "dataset_size": 201875.0, "train_return": 0.0, "train_length": 756.0, "train_episodes": 232.0}
	{"step": 202875, "dataset_size": 202875.0, "train_return": 0.0, "train_length": 1000.0, "train_episodes": 233.0}
	{"step": 203836, "dataset_size": 203836.0, "train_return": 0.0, "train_length": 961.0, "train_episodes": 234.0}
	{"step": 204704, "dataset_size": 204704.0, "train_return": 0.0, "train_length": 868.0, "train_episodes": 235.0}
	{"step": 205000}
	{"step": 205000, "eval_return": 0.0, "eval_length": 946.1, "eval_episodes": 10.0}
	{"step": 205000, "model_loss": 0.9396348595619202, "model_grad_norm": 2.8186426162719727, "vector_loss": 0.11518953740596771, "reward_loss": 0.00011262940097367391, "cont_loss": 5.200284795137122e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3738009929656982, "rep_loss": 1.3738009929656982, "kl": 0.9703664779663086, "prior_ent": 34.6658821105957, "post_ent": 33.341434478759766, "normed_target_mean": 3.3162315467912164e-31, "normed_target_std": 0.0, "normed_target_min": 3.3162315467912164e-31, "normed_target_max": 3.3162315467912164e-31, "EMA_005": -3.3162315467912164e-31, "EMA_095": 1.2435601757123012e-30, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.0011480433167889714, "value_grad_norm": 0.017685716971755028, "update_count": 6350.0, "fps": 55.10742318894034}
	{"step": 205578, "dataset_size": 205578.0, "train_return": 0.0, "train_length": 874.0, "train_episodes": 236.0}
	{"step": 206448, "dataset_size": 206448.0, "train_return": 0.0, "train_length": 870.0, "train_episodes": 237.0}
	{"step": 207273, "dataset_size": 207273.0, "train_return": 0.0, "train_length": 825.0, "train_episodes": 238.0}
	{"step": 208116, "dataset_size": 208116.0, "train_return": 0.0, "train_length": 843.0, "train_episodes": 239.0}
	{"step": 209053, "dataset_size": 209053.0, "train_return": 0.0, "train_length": 937.0, "train_episodes": 240.0}
	{"step": 209800, "dataset_size": 209800.0, "train_return": 0.0, "train_length": 747.0, "train_episodes": 241.0}
	{"step": 210434, "dataset_size": 210434.0, "train_return": 0.0, "train_length": 634.0, "train_episodes": 242.0}
	{"step": 211310, "dataset_size": 211310.0, "train_return": 0.0, "train_length": 876.0, "train_episodes": 243.0}
	{"step": 212152, "dataset_size": 212152.0, "train_return": 0.0, "train_length": 842.0, "train_episodes": 244.0}
	{"step": 213034, "dataset_size": 213034.0, "train_return": 0.0, "train_length": 882.0, "train_episodes": 245.0}
	{"step": 214037, "dataset_size": 214037.0, "train_return": 0.0, "train_length": 1003.0, "train_episodes": 246.0}
	{"step": 214854, "dataset_size": 214854.0, "train_return": 0.0, "train_length": 817.0, "train_episodes": 247.0}
	{"step": 215000}
	{"step": 215000, "eval_return": 0.0, "eval_length": 862.2, "eval_episodes": 10.0}
	{"step": 215000, "model_loss": 0.9345760941505432, "model_grad_norm": 2.7050399780273438, "vector_loss": 0.11543534696102142, "reward_loss": 9.913366375258192e-05, "cont_loss": 8.269937097793445e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3649314641952515, "rep_loss": 1.3649314641952515, "kl": 0.9574172496795654, "prior_ent": 34.68543243408203, "post_ent": 33.393253326416016, "normed_target_mean": 1.4375887426269665e-32, "normed_target_std": 0.0, "normed_target_min": 1.4375887426269665e-32, "normed_target_max": 1.4375887426269665e-32, "EMA_005": -1.4375887426269665e-32, "EMA_095": 5.390841190505202e-32, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.000978264375589788, "value_grad_norm": 0.013966959901154041, "update_count": 6663.0, "fps": 56.04979484522463}
	{"step": 215685, "dataset_size": 215685.0, "train_return": 0.0, "train_length": 831.0, "train_episodes": 248.0}
	{"step": 216570, "dataset_size": 216570.0, "train_return": 0.0, "train_length": 885.0, "train_episodes": 249.0}
	{"step": 217579, "dataset_size": 217579.0, "train_return": 0.0, "train_length": 1009.0, "train_episodes": 250.0}
	{"step": 218469, "dataset_size": 218469.0, "train_return": 0.0, "train_length": 890.0, "train_episodes": 251.0}
	{"step": 219298, "dataset_size": 219298.0, "train_return": 0.0, "train_length": 829.0, "train_episodes": 252.0}
	{"step": 220142, "dataset_size": 220142.0, "train_return": 0.0, "train_length": 844.0, "train_episodes": 253.0}
	{"step": 221031, "dataset_size": 221031.0, "train_return": 0.0, "train_length": 889.0, "train_episodes": 254.0}
	{"step": 221894, "dataset_size": 221894.0, "train_return": 0.0, "train_length": 863.0, "train_episodes": 255.0}
	{"step": 222805, "dataset_size": 222805.0, "train_return": 0.0, "train_length": 911.0, "train_episodes": 256.0}
	{"step": 223646, "dataset_size": 223646.0, "train_return": 0.0, "train_length": 841.0, "train_episodes": 257.0}
	{"step": 224494, "dataset_size": 224494.0, "train_return": 0.0, "train_length": 848.0, "train_episodes": 258.0}
	{"step": 225000}
	{"step": 225000, "eval_return": 0.0, "eval_length": 862.0, "eval_episodes": 10.0}
	{"step": 225000, "model_loss": 0.9268773198127747, "model_grad_norm": 2.7489867210388184, "vector_loss": 0.11217281222343445, "reward_loss": 8.704973151907325e-05, "cont_loss": 7.152848411351442e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3575767278671265, "rep_loss": 1.3575767278671265, "kl": 0.9395787119865417, "prior_ent": 34.77090072631836, "post_ent": 33.498008728027344, "normed_target_mean": 6.203606692439831e-34, "normed_target_std": 0.0, "normed_target_min": 6.203606692439831e-34, "normed_target_max": 6.203606692439831e-34, "EMA_005": -6.203606692439831e-34, "EMA_095": 2.3263025855933377e-33, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.0008354784222319722, "value_grad_norm": 0.011712184175848961, "update_count": 6975.0, "fps": 55.976037906563576}
	{"step": 225434, "dataset_size": 225434.0, "train_return": 0.0, "train_length": 940.0, "train_episodes": 259.0}
	{"step": 226314, "dataset_size": 226314.0, "train_return": 0.0, "train_length": 880.0, "train_episodes": 260.0}
	{"step": 227311, "dataset_size": 227311.0, "train_return": 0.0, "train_length": 997.0, "train_episodes": 261.0}
	{"step": 228197, "dataset_size": 228197.0, "train_return": 0.0, "train_length": 886.0, "train_episodes": 262.0}
	{"step": 229047, "dataset_size": 229047.0, "train_return": 0.0, "train_length": 850.0, "train_episodes": 263.0}
	{"step": 229940, "dataset_size": 229940.0, "train_return": 0.0, "train_length": 893.0, "train_episodes": 264.0}
	{"step": 230719, "dataset_size": 230719.0, "train_return": 0.0, "train_length": 779.0, "train_episodes": 265.0}
	{"step": 231595, "dataset_size": 231595.0, "train_return": 0.0, "train_length": 876.0, "train_episodes": 266.0}
	{"step": 232190, "dataset_size": 232190.0, "train_return": 0.0, "train_length": 595.0, "train_episodes": 267.0}
	{"step": 233182, "dataset_size": 233182.0, "train_return": 0.0, "train_length": 992.0, "train_episodes": 268.0}
	{"step": 234041, "dataset_size": 234041.0, "train_return": 0.0, "train_length": 859.0, "train_episodes": 269.0}
	{"step": 234947, "dataset_size": 234947.0, "train_return": 0.0, "train_length": 906.0, "train_episodes": 270.0}
	{"step": 235000}
	{"step": 235000, "eval_return": 0.0, "eval_length": 886.3, "eval_episodes": 10.0}
	{"step": 235000, "model_loss": 0.9239190220832825, "model_grad_norm": 2.81354022026062, "vector_loss": 0.10894936323165894, "reward_loss": 7.625077705597505e-05, "cont_loss": 3.570329863578081e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3580962419509888, "rep_loss": 1.3580962419509888, "kl": 0.9414197206497192, "prior_ent": 34.762516021728516, "post_ent": 33.509552001953125, "normed_target_mean": 2.689266186672163e-35, "normed_target_std": 0.0, "normed_target_min": 2.689266186672163e-35, "normed_target_max": 2.689266186672163e-35, "EMA_005": -2.689266186672163e-35, "EMA_095": 1.008453389328075e-34, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.0007104842225089669, "value_grad_norm": 0.01169703807681799, "update_count": 7288.0, "fps": 55.72444865544659}
	{"step": 235948, "dataset_size": 235948.0, "train_return": 0.0, "train_length": 1001.0, "train_episodes": 271.0}
	{"step": 236770, "dataset_size": 236770.0, "train_return": 0.0, "train_length": 822.0, "train_episodes": 272.0}
	{"step": 237599, "dataset_size": 237599.0, "train_return": 0.0, "train_length": 829.0, "train_episodes": 273.0}
	{"step": 238604, "dataset_size": 238604.0, "train_return": 0.0, "train_length": 1005.0, "train_episodes": 274.0}
	{"step": 239481, "dataset_size": 239481.0, "train_return": 0.0, "train_length": 877.0, "train_episodes": 275.0}
	{"step": 240083, "dataset_size": 240083.0, "train_return": 0.0, "train_length": 602.0, "train_episodes": 276.0}
	{"step": 240946, "dataset_size": 240946.0, "train_return": 0.0, "train_length": 863.0, "train_episodes": 277.0}
	{"step": 241457, "dataset_size": 241457.0, "train_return": 0.0, "train_length": 511.0, "train_episodes": 278.0}
	{"step": 242069, "dataset_size": 242069.0, "train_return": 0.0, "train_length": 612.0, "train_episodes": 279.0}
	{"step": 242961, "dataset_size": 242961.0, "train_return": 0.0, "train_length": 892.0, "train_episodes": 280.0}
	{"step": 243960, "dataset_size": 243960.0, "train_return": 0.0, "train_length": 999.0, "train_episodes": 281.0}
	{"step": 244881, "dataset_size": 244881.0, "train_return": 0.0, "train_length": 921.0, "train_episodes": 282.0}
	{"step": 245000}
	{"step": 245000, "eval_return": 0.0, "eval_length": 852.6, "eval_episodes": 10.0}
	{"step": 245000, "model_loss": 0.9167699813842773, "model_grad_norm": 2.468961477279663, "vector_loss": 0.10821447521448135, "reward_loss": 6.668370770057663e-05, "cont_loss": 7.004679355304688e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3473645448684692, "rep_loss": 1.3473645448684692, "kl": 0.9218661785125732, "prior_ent": 34.86484909057617, "post_ent": 33.641231536865234, "normed_target_mean": 1.160496017940477e-36, "normed_target_std": 0.0, "normed_target_min": 1.160496017940477e-36, "normed_target_max": 1.160496017940477e-36, "EMA_005": -1.160496017940477e-36, "EMA_095": 4.3517656085499055e-36, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.0006025475449860096, "value_grad_norm": 0.008492245338857174, "update_count": 7600.0, "fps": 56.13582167883759}
	{"step": 245632, "dataset_size": 245632.0, "train_return": 0.0, "train_length": 751.0, "train_episodes": 283.0}
	{"step": 246464, "dataset_size": 246464.0, "train_return": 0.0, "train_length": 832.0, "train_episodes": 284.0}
	{"step": 247342, "dataset_size": 247342.0, "train_return": 0.0, "train_length": 878.0, "train_episodes": 285.0}
	{"step": 248137, "dataset_size": 248137.0, "train_return": 0.0, "train_length": 795.0, "train_episodes": 286.0}
	{"step": 248967, "dataset_size": 248967.0, "train_return": 0.0, "train_length": 830.0, "train_episodes": 287.0}
	{"step": 249908, "dataset_size": 249908.0, "train_return": 0.0, "train_length": 941.0, "train_episodes": 288.0}
	{"step": 250515, "dataset_size": 250515.0, "train_return": 0.0, "train_length": 607.0, "train_episodes": 289.0}
	{"step": 251168, "dataset_size": 251168.0, "train_return": 0.0, "train_length": 653.0, "train_episodes": 290.0}
	{"step": 252033, "dataset_size": 252033.0, "train_return": 0.0, "train_length": 865.0, "train_episodes": 291.0}
	{"step": 252846, "dataset_size": 252846.0, "train_return": 0.0, "train_length": 813.0, "train_episodes": 292.0}
	{"step": 253675, "dataset_size": 253675.0, "train_return": 0.0, "train_length": 829.0, "train_episodes": 293.0}
	{"step": 254510, "dataset_size": 254510.0, "train_return": 0.0, "train_length": 835.0, "train_episodes": 294.0}
	{"step": 255000}
	{"step": 255000, "eval_return": 0.0, "eval_length": 873.5, "eval_episodes": 10.0}
	{"step": 255000, "model_loss": 0.9124311208724976, "model_grad_norm": 2.6807010173797607, "vector_loss": 0.1053599864244461, "reward_loss": 5.849909211974591e-05, "cont_loss": 3.322192787891254e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3449655771255493, "rep_loss": 1.3449655771255493, "kl": 0.9174701571464539, "prior_ent": 34.84749221801758, "post_ent": 33.638057708740234, "normed_target_mean": 5.030757335741053e-38, "normed_target_std": 0.0, "normed_target_min": 5.030756775221667e-38, "normed_target_max": 5.030756775221667e-38, "EMA_005": -5.030756775221667e-38, "EMA_095": 1.886491891884042e-37, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.0005219176528044045, "value_grad_norm": 0.005036189220845699, "update_count": 7913.0, "fps": 55.61932388271267}
	{"step": 255461, "dataset_size": 255461.0, "train_return": 0.0, "train_length": 951.0, "train_episodes": 295.0}
	{"step": 256092, "dataset_size": 256092.0, "train_return": 0.0, "train_length": 631.0, "train_episodes": 296.0}
	{"step": 257084, "dataset_size": 257084.0, "train_return": 0.0, "train_length": 992.0, "train_episodes": 297.0}
	{"step": 257961, "dataset_size": 257961.0, "train_return": 0.0, "train_length": 877.0, "train_episodes": 298.0}
	{"step": 258952, "dataset_size": 258952.0, "train_return": 0.0, "train_length": 991.0, "train_episodes": 299.0}
	{"step": 259825, "dataset_size": 259825.0, "train_return": 0.0, "train_length": 873.0, "train_episodes": 300.0}
	{"step": 260691, "dataset_size": 260691.0, "train_return": 0.0, "train_length": 866.0, "train_episodes": 301.0}
	{"step": 261558, "dataset_size": 261558.0, "train_return": 0.0, "train_length": 867.0, "train_episodes": 302.0}
	{"step": 262433, "dataset_size": 262433.0, "train_return": 0.0, "train_length": 875.0, "train_episodes": 303.0}
	{"step": 263229, "dataset_size": 263229.0, "train_return": 0.0, "train_length": 796.0, "train_episodes": 304.0}
	{"step": 264149, "dataset_size": 264149.0, "train_return": 0.0, "train_length": 920.0, "train_episodes": 305.0}
	{"step": 264918, "dataset_size": 264918.0, "train_return": 0.0, "train_length": 769.0, "train_episodes": 306.0}
	{"step": 265000}
	{"step": 265000, "eval_return": 0.0, "eval_length": 863.3, "eval_episodes": 10.0}
	{"step": 265000, "model_loss": 0.912844717502594, "model_grad_norm": 2.6297481060028076, "vector_loss": 0.10562311112880707, "reward_loss": 5.1156737754354253e-05, "cont_loss": 3.725704664248042e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3452218770980835, "rep_loss": 1.3452218770980835, "kl": 0.9249064326286316, "prior_ent": 34.88400650024414, "post_ent": 33.69179916381836, "normed_target_mean": 2.1709140017074358e-39, "normed_target_std": 0.0, "normed_target_min": 2.1709140017074358e-39, "normed_target_max": 2.1709140017074358e-39, "EMA_005": -2.1709140017074358e-39, "EMA_095": 8.140752344094844e-39, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.00046432038652710617, "value_grad_norm": 0.002468247665092349, "update_count": 8225.0, "fps": 56.36456790832156}
	{"step": 265789, "dataset_size": 265789.0, "train_return": 0.0, "train_length": 871.0, "train_episodes": 307.0}
	{"step": 266552, "dataset_size": 266552.0, "train_return": 0.0, "train_length": 763.0, "train_episodes": 308.0}
	{"step": 267532, "dataset_size": 267532.0, "train_return": 0.0, "train_length": 980.0, "train_episodes": 309.0}
	{"step": 268732, "dataset_size": 268732.0, "train_return": 0.0, "train_length": 1200.0, "train_episodes": 310.0}
	{"step": 269670, "dataset_size": 269670.0, "train_return": 0.0, "train_length": 938.0, "train_episodes": 311.0}
	{"step": 270322, "dataset_size": 270322.0, "train_return": 0.0, "train_length": 652.0, "train_episodes": 312.0}
	{"step": 271226, "dataset_size": 271226.0, "train_return": 0.0, "train_length": 904.0, "train_episodes": 313.0}
	{"step": 272224, "dataset_size": 272224.0, "train_return": 0.0, "train_length": 998.0, "train_episodes": 314.0}
	{"step": 273215, "dataset_size": 273215.0, "train_return": 0.0, "train_length": 991.0, "train_episodes": 315.0}
	{"step": 274089, "dataset_size": 274089.0, "train_return": 0.0, "train_length": 874.0, "train_episodes": 316.0}
	{"step": 275000}
	{"step": 275000, "eval_return": 0.0, "eval_length": 801.4, "eval_episodes": 10.0}
	{"step": 275000, "model_loss": 0.9111374020576477, "model_grad_norm": 2.4603075981140137, "vector_loss": 0.10421672463417053, "reward_loss": 4.483370139496401e-05, "cont_loss": 2.0685278286691755e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3447585105895996, "rep_loss": 1.3447585105895996, "kl": 0.9191161394119263, "prior_ent": 34.89590072631836, "post_ent": 33.70983123779297, "normed_target_mean": 9.410700096866174e-41, "normed_target_std": 0.0, "normed_target_min": 9.410700096866174e-41, "normed_target_max": 9.410700096866174e-41, "EMA_005": -9.410700096866174e-41, "EMA_095": 3.5290300525556193e-40, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.00041382599738426507, "value_grad_norm": 0.002456000307574868, "update_count": 8538.0, "fps": 56.47444940163989}
	{"step": 275015, "dataset_size": 275015.0, "train_return": 0.0, "train_length": 926.0, "train_episodes": 317.0}
	{"step": 275841, "dataset_size": 275841.0, "train_return": 0.0, "train_length": 826.0, "train_episodes": 318.0}
	{"step": 276767, "dataset_size": 276767.0, "train_return": 0.0, "train_length": 926.0, "train_episodes": 319.0}
	{"step": 277483, "dataset_size": 277483.0, "train_return": 0.0, "train_length": 716.0, "train_episodes": 320.0}
	{"step": 278324, "dataset_size": 278324.0, "train_return": 0.0, "train_length": 841.0, "train_episodes": 321.0}
	{"step": 279317, "dataset_size": 279317.0, "train_return": 0.0, "train_length": 993.0, "train_episodes": 322.0}
	{"step": 280184, "dataset_size": 280184.0, "train_return": 0.0, "train_length": 867.0, "train_episodes": 323.0}
	{"step": 280821, "dataset_size": 280821.0, "train_return": 0.0, "train_length": 637.0, "train_episodes": 324.0}
	{"step": 281752, "dataset_size": 281752.0, "train_return": 0.0, "train_length": 931.0, "train_episodes": 325.0}
	{"step": 282578, "dataset_size": 282578.0, "train_return": 0.0, "train_length": 826.0, "train_episodes": 326.0}
	{"step": 283656, "dataset_size": 283656.0, "train_return": 0.0, "train_length": 1078.0, "train_episodes": 327.0}
	{"step": 284568, "dataset_size": 284568.0, "train_return": 0.0, "train_length": 912.0, "train_episodes": 328.0}
	{"step": 285000}
	{"step": 285000, "eval_return": 0.0, "eval_length": 820.7, "eval_episodes": 10.0}
	{"step": 285000, "model_loss": 0.9043921232223511, "model_grad_norm": 2.3860762119293213, "vector_loss": 0.10150696337223053, "reward_loss": 3.934995038434863e-05, "cont_loss": 6.654740718659014e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.337965488433838, "rep_loss": 1.337965488433838, "kl": 0.9102914333343506, "prior_ent": 34.931190490722656, "post_ent": 33.779571533203125, "normed_target_mean": 4.062364248077645e-42, "normed_target_std": 0.0, "normed_target_min": 4.062364248077645e-42, "normed_target_max": 4.062364248077645e-42, "EMA_005": -4.062364248077645e-42, "EMA_095": 1.5230713008746437e-41, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.00036664173239842057, "value_grad_norm": 0.002447943901643157, "update_count": 8850.0, "fps": 56.15759028830628}
	{"step": 285433, "dataset_size": 285433.0, "train_return": 0.0, "train_length": 865.0, "train_episodes": 329.0}
	{"step": 286258, "dataset_size": 286258.0, "train_return": 0.0, "train_length": 825.0, "train_episodes": 330.0}
	{"step": 286817, "dataset_size": 286817.0, "train_return": 0.0, "train_length": 559.0, "train_episodes": 331.0}
	{"step": 287677, "dataset_size": 287677.0, "train_return": 0.0, "train_length": 860.0, "train_episodes": 332.0}
	{"step": 288649, "dataset_size": 288649.0, "train_return": 0.0, "train_length": 972.0, "train_episodes": 333.0}
	{"step": 289496, "dataset_size": 289496.0, "train_return": 0.0, "train_length": 847.0, "train_episodes": 334.0}
	{"step": 290204, "dataset_size": 290204.0, "train_return": 0.0, "train_length": 708.0, "train_episodes": 335.0}
	{"step": 291313, "dataset_size": 291313.0, "train_return": 0.0, "train_length": 1109.0, "train_episodes": 336.0}
	{"step": 292142, "dataset_size": 292142.0, "train_return": 0.0, "train_length": 829.0, "train_episodes": 337.0}
	{"step": 293131, "dataset_size": 293131.0, "train_return": 0.0, "train_length": 989.0, "train_episodes": 338.0}
	{"step": 294248, "dataset_size": 294248.0, "train_return": 0.0, "train_length": 1117.0, "train_episodes": 339.0}
	{"step": 295000}
	{"step": 295000, "eval_return": 0.0, "eval_length": 865.7, "eval_episodes": 10.0}
	{"step": 295000, "model_loss": 0.9070005416870117, "model_grad_norm": Infinity, "vector_loss": 0.10186760872602463, "reward_loss": 3.469977673375979e-05, "cont_loss": 4.517891284194775e-05, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3417550325393677, "rep_loss": 1.3417550325393677, "kl": 0.9181187748908997, "prior_ent": 34.89797592163086, "post_ent": 33.72105026245117, "normed_target_mean": 1.877739942195255e-43, "normed_target_std": 0.0, "normed_target_min": 1.877739942195255e-43, "normed_target_max": 1.877739942195255e-43, "EMA_005": -1.877739942195255e-43, "EMA_095": 6.628141736256385e-43, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.0003225722466595471, "value_grad_norm": 0.0024339351803064346, "update_count": 9163.0, "fps": 55.66833785442103}
	{"step": 295123, "dataset_size": 295123.0, "train_return": 0.0, "train_length": 875.0, "train_episodes": 340.0}
	{"step": 295993, "dataset_size": 295993.0, "train_return": 0.0, "train_length": 870.0, "train_episodes": 341.0}
	{"step": 296793, "dataset_size": 296793.0, "train_return": 0.0, "train_length": 800.0, "train_episodes": 342.0}
	{"step": 297832, "dataset_size": 297832.0, "train_return": 0.0, "train_length": 1039.0, "train_episodes": 343.0}
	{"step": 298831, "dataset_size": 298831.0, "train_return": 0.0, "train_length": 999.0, "train_episodes": 344.0}
	{"step": 299708, "dataset_size": 299708.0, "train_return": 0.0, "train_length": 877.0, "train_episodes": 345.0}
	{"step": 300387, "dataset_size": 300387.0, "train_return": 0.0, "train_length": 679.0, "train_episodes": 346.0}
	{"step": 301204, "dataset_size": 301204.0, "train_return": 0.0, "train_length": 817.0, "train_episodes": 347.0}
	{"step": 302066, "dataset_size": 302066.0, "train_return": 0.0, "train_length": 862.0, "train_episodes": 348.0}
	{"step": 302939, "dataset_size": 302939.0, "train_return": 0.0, "train_length": 873.0, "train_episodes": 349.0}
	{"step": 303838, "dataset_size": 303838.0, "train_return": 0.0, "train_length": 899.0, "train_episodes": 350.0}
	{"step": 304716, "dataset_size": 304716.0, "train_return": 0.0, "train_length": 878.0, "train_episodes": 351.0}
	{"step": 305000}
	{"step": 305000, "eval_return": 0.0, "eval_length": 890.7, "eval_episodes": 10.0}
	{"step": 305000, "model_loss": 0.8987634181976318, "model_grad_norm": 2.308845281600952, "vector_loss": 0.0994890034198761, "reward_loss": 3.0653805879410356e-05, "cont_loss": 1.878126909105049e-06, "kl_free": 1.0, "dyn_scale": 0.5, "rep_scale": 0.09999999999999999, "dyn_loss": 1.3320696353912354, "rep_loss": 1.3320696353912354, "kl": 0.9032484889030457, "prior_ent": 34.91147232055664, "post_ent": 33.781455993652344, "normed_target_mean": 7.006492321624085e-44, "normed_target_std": 0.0, "normed_target_min": 7.006492321624085e-44, "normed_target_max": 7.006492321624085e-44, "EMA_005": -7.006492321624085e-44, "EMA_095": 7.006492321624085e-44, "value_mean": 0.0, "value_std": 0.0, "value_min": 0.0, "value_max": 0.0, "target_mean": 0.0, "target_std": 0.0, "target_min": 0.0, "target_max": 0.0, "imag_reward_mean": 0.0, "imag_reward_std": 0.0, "imag_reward_min": 0.0, "imag_reward_max": 0.0, "imag_action_mean": 0.0, "imag_action_std": 0.0, "imag_action_min": 0.0, "imag_action_max": 0.0, "actor_entropy": 0.0, "actor_loss": 0.0, "actor_grad_norm": 0.0, "value_loss": 0.0002825407718773931, "value_grad_norm": 0.002426270628347993, "update_count": 9475.0, "fps": 55.37095127681466}
	{"step": 305575, "dataset_size": 305575.0, "train_return": 0.0, "train_length": 859.0, "train_episodes": 352.0}
	{"step": 306208, "dataset_size": 306208.0, "train_return": 0.0, "train_length": 633.0, "train_episodes": 353.0}
	{"step": 307334, "dataset_size": 307334.0, "train_return": 0.0, "train_length": 1126.0, "train_episodes": 354.0}
	{"step": 308317, "dataset_size": 308317.0, "train_return": 0.0, "train_length": 983.0, "train_episodes": 355.0}
	{"step": 309289, "dataset_size": 309289.0, "train_return": 0.0, "train_length": 972.0, "train_episodes": 356.0}
	{"step": 310163, "dataset_size": 310163.0, "train_return": 0.0, "train_length": 874.0, "train_episodes": 357.0}
	{"step": 311121, "dataset_size": 311121.0, "train_return": 0.0, "train_length": 958.0, "train_episodes": 358.0}
	{"step": 311856, "dataset_size": 311856.0, "train_return": 0.0, "train_length": 735.0, "train_episodes": 359.0}
	{"step": 312931, "dataset_size": 312931.0, "train_return": 0.0, "train_length": 1075.0, "train_episodes": 360.0}
	{"step": 313637, "dataset_size": 313637.0, "train_return": 0.0, "train_length": 706.0, "train_episodes": 361.0}
	{"step": 314462, "dataset_size": 314462.0, "train_return": 0.0, "train_length": 825.0, "train_episodes": 362.0}