| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 1.0666666666666667, | |
| "eval_steps": 500, | |
| "global_step": 1000, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "completion_length": 311.2473958333333, | |
| "epoch": 0.0021333333333333334, | |
| "grad_norm": 0.4415327328667637, | |
| "kl": 0.0, | |
| "learning_rate": 5.555555555555555e-09, | |
| "loss": -0.0, | |
| "reward": 0.11588541666666667, | |
| "reward_std": 0.17868895766635737, | |
| "rewards/equation_reward_func": 0.11328125, | |
| "rewards/format_reward_func": 0.0026041666666666665, | |
| "step": 2 | |
| }, | |
| { | |
| "completion_length": 305.4205729166667, | |
| "epoch": 0.004266666666666667, | |
| "grad_norm": 0.5086207071419532, | |
| "kl": 0.00027751922607421875, | |
| "learning_rate": 1.111111111111111e-08, | |
| "loss": 0.0, | |
| "reward": 0.13802083333333334, | |
| "reward_std": 0.2132336019227902, | |
| "rewards/equation_reward_func": 0.1328125, | |
| "rewards/format_reward_func": 0.005208333333333333, | |
| "step": 4 | |
| }, | |
| { | |
| "completion_length": 311.3541666666667, | |
| "epoch": 0.0064, | |
| "grad_norm": 0.5547527222630642, | |
| "kl": 0.00030914942423502606, | |
| "learning_rate": 1.6666666666666667e-08, | |
| "loss": 0.0, | |
| "reward": 0.15234375, | |
| "reward_std": 0.24547630610565344, | |
| "rewards/equation_reward_func": 0.14453125, | |
| "rewards/format_reward_func": 0.0078125, | |
| "step": 6 | |
| }, | |
| { | |
| "completion_length": 308.9010416666667, | |
| "epoch": 0.008533333333333334, | |
| "grad_norm": 0.5495887586499225, | |
| "kl": 0.00030922889709472656, | |
| "learning_rate": 2.222222222222222e-08, | |
| "loss": 0.0, | |
| "reward": 0.13802083333333334, | |
| "reward_std": 0.22159898156921068, | |
| "rewards/equation_reward_func": 0.1328125, | |
| "rewards/format_reward_func": 0.005208333333333333, | |
| "step": 8 | |
| }, | |
| { | |
| "completion_length": 305.328125, | |
| "epoch": 0.010666666666666666, | |
| "grad_norm": 0.41522294394779197, | |
| "kl": 0.00031765302022298175, | |
| "learning_rate": 2.7777777777777774e-08, | |
| "loss": 0.0, | |
| "reward": 0.1171875, | |
| "reward_std": 0.18873751908540726, | |
| "rewards/equation_reward_func": 0.11067708333333333, | |
| "rewards/format_reward_func": 0.006510416666666667, | |
| "step": 10 | |
| }, | |
| { | |
| "completion_length": 301.7005208333333, | |
| "epoch": 0.0128, | |
| "grad_norm": 0.48798574132060596, | |
| "kl": 0.0003203550974527995, | |
| "learning_rate": 3.3333333333333334e-08, | |
| "loss": 0.0, | |
| "reward": 0.13671875, | |
| "reward_std": 0.21041353978216648, | |
| "rewards/equation_reward_func": 0.13151041666666666, | |
| "rewards/format_reward_func": 0.005208333333333333, | |
| "step": 12 | |
| }, | |
| { | |
| "completion_length": 311.7877604166667, | |
| "epoch": 0.014933333333333333, | |
| "grad_norm": 0.5313334259813167, | |
| "kl": 0.00030485788981119793, | |
| "learning_rate": 3.888888888888889e-08, | |
| "loss": 0.0, | |
| "reward": 0.13411458333333334, | |
| "reward_std": 0.2181890836606423, | |
| "rewards/equation_reward_func": 0.13020833333333334, | |
| "rewards/format_reward_func": 0.00390625, | |
| "step": 14 | |
| }, | |
| { | |
| "completion_length": 305.7669270833333, | |
| "epoch": 0.017066666666666667, | |
| "grad_norm": 0.3972636810533672, | |
| "kl": 0.00031177202860514325, | |
| "learning_rate": 4.444444444444444e-08, | |
| "loss": 0.0, | |
| "reward": 0.12630208333333334, | |
| "reward_std": 0.1951544483502706, | |
| "rewards/equation_reward_func": 0.12239583333333333, | |
| "rewards/format_reward_func": 0.00390625, | |
| "step": 16 | |
| }, | |
| { | |
| "completion_length": 299.44921875, | |
| "epoch": 0.0192, | |
| "grad_norm": 0.505545889011047, | |
| "kl": 0.0003170967102050781, | |
| "learning_rate": 5e-08, | |
| "loss": 0.0, | |
| "reward": 0.14453125, | |
| "reward_std": 0.22896801494061947, | |
| "rewards/equation_reward_func": 0.13932291666666666, | |
| "rewards/format_reward_func": 0.005208333333333333, | |
| "step": 18 | |
| }, | |
| { | |
| "completion_length": 301.9479166666667, | |
| "epoch": 0.021333333333333333, | |
| "grad_norm": 0.43688702868931345, | |
| "kl": 0.0003114938735961914, | |
| "learning_rate": 5.555555555555555e-08, | |
| "loss": 0.0, | |
| "reward": 0.14453125, | |
| "reward_std": 0.21943463757634163, | |
| "rewards/equation_reward_func": 0.13932291666666666, | |
| "rewards/format_reward_func": 0.005208333333333333, | |
| "step": 20 | |
| }, | |
| { | |
| "completion_length": 321.2161458333333, | |
| "epoch": 0.023466666666666667, | |
| "grad_norm": 0.45400125452091455, | |
| "kl": 0.0003143151601155599, | |
| "learning_rate": 6.111111111111111e-08, | |
| "loss": 0.0, | |
| "reward": 0.11067708333333333, | |
| "reward_std": 0.183716157451272, | |
| "rewards/equation_reward_func": 0.10677083333333333, | |
| "rewards/format_reward_func": 0.00390625, | |
| "step": 22 | |
| }, | |
| { | |
| "completion_length": 307.8489583333333, | |
| "epoch": 0.0256, | |
| "grad_norm": 0.5223979522322955, | |
| "kl": 0.0003089110056559245, | |
| "learning_rate": 6.666666666666667e-08, | |
| "loss": 0.0, | |
| "reward": 0.14583333333333334, | |
| "reward_std": 0.2252269685268402, | |
| "rewards/equation_reward_func": 0.13932291666666666, | |
| "rewards/format_reward_func": 0.006510416666666667, | |
| "step": 24 | |
| }, | |
| { | |
| "completion_length": 308.1106770833333, | |
| "epoch": 0.027733333333333332, | |
| "grad_norm": 0.46494836050182115, | |
| "kl": 0.00032631556193033856, | |
| "learning_rate": 7.222222222222221e-08, | |
| "loss": 0.0, | |
| "reward": 0.13932291666666666, | |
| "reward_std": 0.2211961162587007, | |
| "rewards/equation_reward_func": 0.13411458333333334, | |
| "rewards/format_reward_func": 0.005208333333333333, | |
| "step": 26 | |
| }, | |
| { | |
| "completion_length": 310.7122395833333, | |
| "epoch": 0.029866666666666666, | |
| "grad_norm": 0.4981567816895699, | |
| "kl": 0.0003178914388020833, | |
| "learning_rate": 7.777777777777778e-08, | |
| "loss": 0.0, | |
| "reward": 0.15494791666666666, | |
| "reward_std": 0.22581461258232594, | |
| "rewards/equation_reward_func": 0.14973958333333334, | |
| "rewards/format_reward_func": 0.005208333333333333, | |
| "step": 28 | |
| }, | |
| { | |
| "completion_length": 312.7330729166667, | |
| "epoch": 0.032, | |
| "grad_norm": 0.45730041446656333, | |
| "kl": 0.0003050963083902995, | |
| "learning_rate": 8.333333333333333e-08, | |
| "loss": 0.0, | |
| "reward": 0.15755208333333334, | |
| "reward_std": 0.24741891399025917, | |
| "rewards/equation_reward_func": 0.15234375, | |
| "rewards/format_reward_func": 0.005208333333333333, | |
| "step": 30 | |
| }, | |
| { | |
| "completion_length": 320.09765625, | |
| "epoch": 0.034133333333333335, | |
| "grad_norm": 0.5739127476638481, | |
| "kl": 0.0003147125244140625, | |
| "learning_rate": 8.888888888888888e-08, | |
| "loss": 0.0, | |
| "reward": 0.12890625, | |
| "reward_std": 0.19574428784350553, | |
| "rewards/equation_reward_func": 0.12109375, | |
| "rewards/format_reward_func": 0.0078125, | |
| "step": 32 | |
| }, | |
| { | |
| "completion_length": 311.3802083333333, | |
| "epoch": 0.03626666666666667, | |
| "grad_norm": 0.5096053663882774, | |
| "kl": 0.0007611910502115885, | |
| "learning_rate": 9.444444444444444e-08, | |
| "loss": 0.0, | |
| "reward": 0.14583333333333334, | |
| "reward_std": 0.21998751784364382, | |
| "rewards/equation_reward_func": 0.14192708333333334, | |
| "rewards/format_reward_func": 0.00390625, | |
| "step": 34 | |
| }, | |
| { | |
| "completion_length": 308.2083333333333, | |
| "epoch": 0.0384, | |
| "grad_norm": 0.48786550762299297, | |
| "kl": 0.0003284613291422526, | |
| "learning_rate": 1e-07, | |
| "loss": 0.0, | |
| "reward": 0.12239583333333333, | |
| "reward_std": 0.18891865077118078, | |
| "rewards/equation_reward_func": 0.11979166666666667, | |
| "rewards/format_reward_func": 0.0026041666666666665, | |
| "step": 36 | |
| }, | |
| { | |
| "completion_length": 310.9283854166667, | |
| "epoch": 0.04053333333333333, | |
| "grad_norm": 0.5120511339306856, | |
| "kl": 0.0003306070963541667, | |
| "learning_rate": 1.0555555555555555e-07, | |
| "loss": 0.0, | |
| "reward": 0.17057291666666666, | |
| "reward_std": 0.25423871104915935, | |
| "rewards/equation_reward_func": 0.16015625, | |
| "rewards/format_reward_func": 0.010416666666666666, | |
| "step": 38 | |
| }, | |
| { | |
| "completion_length": 315.6875, | |
| "epoch": 0.042666666666666665, | |
| "grad_norm": 0.45183692091942756, | |
| "kl": 0.00033664703369140625, | |
| "learning_rate": 1.111111111111111e-07, | |
| "loss": 0.0, | |
| "reward": 0.11848958333333333, | |
| "reward_std": 0.1949385553598404, | |
| "rewards/equation_reward_func": 0.11458333333333333, | |
| "rewards/format_reward_func": 0.00390625, | |
| "step": 40 | |
| }, | |
| { | |
| "completion_length": 308.5703125, | |
| "epoch": 0.0448, | |
| "grad_norm": 0.4295702856663613, | |
| "kl": 0.00034085909525553387, | |
| "learning_rate": 1.1666666666666667e-07, | |
| "loss": 0.0, | |
| "reward": 0.12760416666666666, | |
| "reward_std": 0.1895084890226523, | |
| "rewards/equation_reward_func": 0.11979166666666667, | |
| "rewards/format_reward_func": 0.0078125, | |
| "step": 42 | |
| }, | |
| { | |
| "completion_length": 309.12890625, | |
| "epoch": 0.046933333333333334, | |
| "grad_norm": 0.6565711033262587, | |
| "kl": 0.0003753503163655599, | |
| "learning_rate": 1.2222222222222222e-07, | |
| "loss": 0.0, | |
| "reward": 0.15494791666666666, | |
| "reward_std": 0.23637764900922775, | |
| "rewards/equation_reward_func": 0.14453125, | |
| "rewards/format_reward_func": 0.010416666666666666, | |
| "step": 44 | |
| }, | |
| { | |
| "completion_length": 312.38671875, | |
| "epoch": 0.04906666666666667, | |
| "grad_norm": 0.501097592576752, | |
| "kl": 0.00037558873494466144, | |
| "learning_rate": 1.2777777777777777e-07, | |
| "loss": 0.0, | |
| "reward": 0.12760416666666666, | |
| "reward_std": 0.19834845326840878, | |
| "rewards/equation_reward_func": 0.11979166666666667, | |
| "rewards/format_reward_func": 0.0078125, | |
| "step": 46 | |
| }, | |
| { | |
| "completion_length": 316.0924479166667, | |
| "epoch": 0.0512, | |
| "grad_norm": 0.4447204356473162, | |
| "kl": 0.000406344731648763, | |
| "learning_rate": 1.3333333333333334e-07, | |
| "loss": 0.0, | |
| "reward": 0.13932291666666666, | |
| "reward_std": 0.2093838813404242, | |
| "rewards/equation_reward_func": 0.13671875, | |
| "rewards/format_reward_func": 0.0026041666666666665, | |
| "step": 48 | |
| }, | |
| { | |
| "completion_length": 327.6979166666667, | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 0.46791713227117093, | |
| "kl": 0.0004221598307291667, | |
| "learning_rate": 1.3888888888888888e-07, | |
| "loss": 0.0, | |
| "reward": 0.13671875, | |
| "reward_std": 0.23220261993507543, | |
| "rewards/equation_reward_func": 0.13151041666666666, | |
| "rewards/format_reward_func": 0.005208333333333333, | |
| "step": 50 | |
| }, | |
| { | |
| "completion_length": 307.3333333333333, | |
| "epoch": 0.055466666666666664, | |
| "grad_norm": 0.5027729473107166, | |
| "kl": 0.000476837158203125, | |
| "learning_rate": 1.4444444444444442e-07, | |
| "loss": 0.0, | |
| "reward": 0.13411458333333334, | |
| "reward_std": 0.20494651732345423, | |
| "rewards/equation_reward_func": 0.13020833333333334, | |
| "rewards/format_reward_func": 0.00390625, | |
| "step": 52 | |
| }, | |
| { | |
| "completion_length": 299.9739583333333, | |
| "epoch": 0.0576, | |
| "grad_norm": 0.5230041150932776, | |
| "kl": 0.0004863739013671875, | |
| "learning_rate": 1.5e-07, | |
| "loss": 0.0, | |
| "reward": 0.15494791666666666, | |
| "reward_std": 0.22640445083379745, | |
| "rewards/equation_reward_func": 0.1484375, | |
| "rewards/format_reward_func": 0.006510416666666667, | |
| "step": 54 | |
| }, | |
| { | |
| "completion_length": 302.1510416666667, | |
| "epoch": 0.05973333333333333, | |
| "grad_norm": 0.4575422136030652, | |
| "kl": 0.0005837281545003256, | |
| "learning_rate": 1.5555555555555556e-07, | |
| "loss": 0.0, | |
| "reward": 0.13411458333333334, | |
| "reward_std": 0.2039596519122521, | |
| "rewards/equation_reward_func": 0.12239583333333333, | |
| "rewards/format_reward_func": 0.01171875, | |
| "step": 56 | |
| }, | |
| { | |
| "completion_length": 325.6393229166667, | |
| "epoch": 0.06186666666666667, | |
| "grad_norm": 0.4279116185222134, | |
| "kl": 0.0006354649861653646, | |
| "learning_rate": 1.611111111111111e-07, | |
| "loss": 0.0, | |
| "reward": 0.12760416666666666, | |
| "reward_std": 0.19078880300124487, | |
| "rewards/equation_reward_func": 0.12630208333333334, | |
| "rewards/format_reward_func": 0.0013020833333333333, | |
| "step": 58 | |
| }, | |
| { | |
| "completion_length": 308.94140625, | |
| "epoch": 0.064, | |
| "grad_norm": 0.42255382860831625, | |
| "kl": 0.0008252461751302084, | |
| "learning_rate": 1.6666666666666665e-07, | |
| "loss": 0.0, | |
| "reward": 0.1171875, | |
| "reward_std": 0.19233438993493715, | |
| "rewards/equation_reward_func": 0.109375, | |
| "rewards/format_reward_func": 0.0078125, | |
| "step": 60 | |
| }, | |
| { | |
| "completion_length": 304.2513020833333, | |
| "epoch": 0.06613333333333334, | |
| "grad_norm": 0.6405427259205604, | |
| "kl": 0.0009608268737792969, | |
| "learning_rate": 1.7222222222222222e-07, | |
| "loss": 0.0, | |
| "reward": 0.13541666666666666, | |
| "reward_std": 0.21397345326840878, | |
| "rewards/equation_reward_func": 0.12369791666666667, | |
| "rewards/format_reward_func": 0.01171875, | |
| "step": 62 | |
| }, | |
| { | |
| "completion_length": 320.4153645833333, | |
| "epoch": 0.06826666666666667, | |
| "grad_norm": 0.45856311736219924, | |
| "kl": 0.0012358029683430989, | |
| "learning_rate": 1.7777777777777776e-07, | |
| "loss": 0.0, | |
| "reward": 0.15625, | |
| "reward_std": 0.2370392040659984, | |
| "rewards/equation_reward_func": 0.14583333333333334, | |
| "rewards/format_reward_func": 0.010416666666666666, | |
| "step": 64 | |
| }, | |
| { | |
| "completion_length": 309.3111979166667, | |
| "epoch": 0.0704, | |
| "grad_norm": 0.437219224949751, | |
| "kl": 0.0015001296997070312, | |
| "learning_rate": 1.833333333333333e-07, | |
| "loss": 0.0, | |
| "reward": 0.14453125, | |
| "reward_std": 0.21283073723316193, | |
| "rewards/equation_reward_func": 0.14192708333333334, | |
| "rewards/format_reward_func": 0.0026041666666666665, | |
| "step": 66 | |
| }, | |
| { | |
| "completion_length": 318.2200520833333, | |
| "epoch": 0.07253333333333334, | |
| "grad_norm": 0.43796787296918394, | |
| "kl": 0.0018056233723958333, | |
| "learning_rate": 1.8888888888888888e-07, | |
| "loss": 0.0, | |
| "reward": 0.14973958333333334, | |
| "reward_std": 0.23200981132686138, | |
| "rewards/equation_reward_func": 0.13932291666666666, | |
| "rewards/format_reward_func": 0.010416666666666666, | |
| "step": 68 | |
| }, | |
| { | |
| "completion_length": 315.8541666666667, | |
| "epoch": 0.07466666666666667, | |
| "grad_norm": 0.3872845566750352, | |
| "kl": 0.00201416015625, | |
| "learning_rate": 1.9444444444444445e-07, | |
| "loss": 0.0, | |
| "reward": 0.15234375, | |
| "reward_std": 0.22479298648734888, | |
| "rewards/equation_reward_func": 0.14583333333333334, | |
| "rewards/format_reward_func": 0.006510416666666667, | |
| "step": 70 | |
| }, | |
| { | |
| "completion_length": 303.8919270833333, | |
| "epoch": 0.0768, | |
| "grad_norm": 0.5310838690389933, | |
| "kl": 0.002712249755859375, | |
| "learning_rate": 2e-07, | |
| "loss": 0.0, | |
| "reward": 0.16276041666666666, | |
| "reward_std": 0.25024481614430744, | |
| "rewards/equation_reward_func": 0.15885416666666666, | |
| "rewards/format_reward_func": 0.00390625, | |
| "step": 72 | |
| }, | |
| { | |
| "completion_length": 301.75390625, | |
| "epoch": 0.07893333333333333, | |
| "grad_norm": 0.47338649229638796, | |
| "kl": 0.0026286443074544272, | |
| "learning_rate": 2.0555555555555553e-07, | |
| "loss": 0.0, | |
| "reward": 0.15625, | |
| "reward_std": 0.23663414580126604, | |
| "rewards/equation_reward_func": 0.14973958333333334, | |
| "rewards/format_reward_func": 0.006510416666666667, | |
| "step": 74 | |
| }, | |
| { | |
| "completion_length": 301.4049479166667, | |
| "epoch": 0.08106666666666666, | |
| "grad_norm": 0.6800302480043012, | |
| "kl": 0.0028934478759765625, | |
| "learning_rate": 2.111111111111111e-07, | |
| "loss": 0.0, | |
| "reward": 0.17057291666666666, | |
| "reward_std": 0.27066944167017937, | |
| "rewards/equation_reward_func": 0.16145833333333334, | |
| "rewards/format_reward_func": 0.009114583333333334, | |
| "step": 76 | |
| }, | |
| { | |
| "completion_length": 307.91015625, | |
| "epoch": 0.0832, | |
| "grad_norm": 0.48774585483120203, | |
| "kl": 0.003108342488606771, | |
| "learning_rate": 2.1666666666666667e-07, | |
| "loss": 0.0, | |
| "reward": 0.17317708333333334, | |
| "reward_std": 0.25346774235367775, | |
| "rewards/equation_reward_func": 0.16666666666666666, | |
| "rewards/format_reward_func": 0.006510416666666667, | |
| "step": 78 | |
| }, | |
| { | |
| "completion_length": 306.453125, | |
| "epoch": 0.08533333333333333, | |
| "grad_norm": 0.6071937340228676, | |
| "kl": 0.0042082468668619795, | |
| "learning_rate": 2.222222222222222e-07, | |
| "loss": 0.0, | |
| "reward": 0.1796875, | |
| "reward_std": 0.2616077462832133, | |
| "rewards/equation_reward_func": 0.16927083333333334, | |
| "rewards/format_reward_func": 0.010416666666666666, | |
| "step": 80 | |
| }, | |
| { | |
| "completion_length": 311.3033854166667, | |
| "epoch": 0.08746666666666666, | |
| "grad_norm": 0.5579105641567412, | |
| "kl": 0.004697163899739583, | |
| "learning_rate": 2.2777777777777776e-07, | |
| "loss": 0.0, | |
| "reward": 0.16145833333333334, | |
| "reward_std": 0.2576486114412546, | |
| "rewards/equation_reward_func": 0.15364583333333334, | |
| "rewards/format_reward_func": 0.0078125, | |
| "step": 82 | |
| }, | |
| { | |
| "completion_length": 296.0703125, | |
| "epoch": 0.0896, | |
| "grad_norm": 0.49407099658439535, | |
| "kl": 0.0062414805094401045, | |
| "learning_rate": 2.3333333333333333e-07, | |
| "loss": 0.0, | |
| "reward": 0.18880208333333334, | |
| "reward_std": 0.2865842506289482, | |
| "rewards/equation_reward_func": 0.17578125, | |
| "rewards/format_reward_func": 0.013020833333333334, | |
| "step": 84 | |
| }, | |
| { | |
| "completion_length": 296.2838541666667, | |
| "epoch": 0.09173333333333333, | |
| "grad_norm": 0.49798200229450956, | |
| "kl": 0.007803599039713542, | |
| "learning_rate": 2.388888888888889e-07, | |
| "loss": 0.0, | |
| "reward": 0.18359375, | |
| "reward_std": 0.28486046753823757, | |
| "rewards/equation_reward_func": 0.17057291666666666, | |
| "rewards/format_reward_func": 0.013020833333333334, | |
| "step": 86 | |
| }, | |
| { | |
| "completion_length": 306.8828125, | |
| "epoch": 0.09386666666666667, | |
| "grad_norm": 0.48211291480416396, | |
| "kl": 0.0098724365234375, | |
| "learning_rate": 2.4444444444444445e-07, | |
| "loss": 0.0, | |
| "reward": 0.20833333333333334, | |
| "reward_std": 0.28654729574918747, | |
| "rewards/equation_reward_func": 0.19140625, | |
| "rewards/format_reward_func": 0.016927083333333332, | |
| "step": 88 | |
| }, | |
| { | |
| "completion_length": 303.23828125, | |
| "epoch": 0.096, | |
| "grad_norm": 0.5475544727562284, | |
| "kl": 0.012597401936848959, | |
| "learning_rate": 2.5e-07, | |
| "loss": 0.0, | |
| "reward": 0.21223958333333334, | |
| "reward_std": 0.3129607041676839, | |
| "rewards/equation_reward_func": 0.19270833333333334, | |
| "rewards/format_reward_func": 0.01953125, | |
| "step": 90 | |
| }, | |
| { | |
| "completion_length": 296.2721354166667, | |
| "epoch": 0.09813333333333334, | |
| "grad_norm": 0.5100052235345294, | |
| "kl": 0.01421356201171875, | |
| "learning_rate": 2.5555555555555553e-07, | |
| "loss": 0.0, | |
| "reward": 0.19791666666666666, | |
| "reward_std": 0.28387140731016797, | |
| "rewards/equation_reward_func": 0.18359375, | |
| "rewards/format_reward_func": 0.014322916666666666, | |
| "step": 92 | |
| }, | |
| { | |
| "completion_length": 314.5065104166667, | |
| "epoch": 0.10026666666666667, | |
| "grad_norm": 0.526024947099546, | |
| "kl": 0.01816558837890625, | |
| "learning_rate": 2.6111111111111113e-07, | |
| "loss": 0.0, | |
| "reward": 0.20833333333333334, | |
| "reward_std": 0.3099478390067816, | |
| "rewards/equation_reward_func": 0.19010416666666666, | |
| "rewards/format_reward_func": 0.018229166666666668, | |
| "step": 94 | |
| }, | |
| { | |
| "completion_length": 305.828125, | |
| "epoch": 0.1024, | |
| "grad_norm": 0.5480734896155021, | |
| "kl": 0.022038777669270832, | |
| "learning_rate": 2.6666666666666667e-07, | |
| "loss": 0.0, | |
| "reward": 0.21614583333333334, | |
| "reward_std": 0.31053767539560795, | |
| "rewards/equation_reward_func": 0.20182291666666666, | |
| "rewards/format_reward_func": 0.014322916666666666, | |
| "step": 96 | |
| }, | |
| { | |
| "completion_length": 325.13671875, | |
| "epoch": 0.10453333333333334, | |
| "grad_norm": 0.5167200674597692, | |
| "kl": 0.020960489908854168, | |
| "learning_rate": 2.7222222222222216e-07, | |
| "loss": 0.0, | |
| "reward": 0.28125, | |
| "reward_std": 0.3472741370399793, | |
| "rewards/equation_reward_func": 0.2591145833333333, | |
| "rewards/format_reward_func": 0.022135416666666668, | |
| "step": 98 | |
| }, | |
| { | |
| "completion_length": 307.5169270833333, | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 0.5609231113853087, | |
| "kl": 0.036115010579427086, | |
| "learning_rate": 2.7777777777777776e-07, | |
| "loss": 0.0, | |
| "reward": 0.24739583333333334, | |
| "reward_std": 0.31771609373390675, | |
| "rewards/equation_reward_func": 0.22526041666666666, | |
| "rewards/format_reward_func": 0.022135416666666668, | |
| "step": 100 | |
| }, | |
| { | |
| "completion_length": 303.19140625, | |
| "epoch": 0.1088, | |
| "grad_norm": 0.5100702071591596, | |
| "kl": 0.06834920247395833, | |
| "learning_rate": 2.833333333333333e-07, | |
| "loss": 0.0001, | |
| "reward": 0.296875, | |
| "reward_std": 0.3370038438588381, | |
| "rewards/equation_reward_func": 0.2708333333333333, | |
| "rewards/format_reward_func": 0.026041666666666668, | |
| "step": 102 | |
| }, | |
| { | |
| "completion_length": 304.3190104166667, | |
| "epoch": 0.11093333333333333, | |
| "grad_norm": 0.5749967670185352, | |
| "kl": 0.039723714192708336, | |
| "learning_rate": 2.8888888888888885e-07, | |
| "loss": 0.0, | |
| "reward": 0.2942708333333333, | |
| "reward_std": 0.3552736062556505, | |
| "rewards/equation_reward_func": 0.26953125, | |
| "rewards/format_reward_func": 0.024739583333333332, | |
| "step": 104 | |
| }, | |
| { | |
| "completion_length": 305.0377604166667, | |
| "epoch": 0.11306666666666666, | |
| "grad_norm": 0.5774626258868023, | |
| "kl": 0.044108072916666664, | |
| "learning_rate": 2.9444444444444444e-07, | |
| "loss": 0.0, | |
| "reward": 0.3072916666666667, | |
| "reward_std": 0.3269995264708996, | |
| "rewards/equation_reward_func": 0.2799479166666667, | |
| "rewards/format_reward_func": 0.02734375, | |
| "step": 106 | |
| }, | |
| { | |
| "completion_length": 303.3151041666667, | |
| "epoch": 0.1152, | |
| "grad_norm": 0.6157808555480688, | |
| "kl": 0.07562255859375, | |
| "learning_rate": 3e-07, | |
| "loss": 0.0001, | |
| "reward": 0.3059895833333333, | |
| "reward_std": 0.34921893912057084, | |
| "rewards/equation_reward_func": 0.265625, | |
| "rewards/format_reward_func": 0.040364583333333336, | |
| "step": 108 | |
| }, | |
| { | |
| "completion_length": 308.6822916666667, | |
| "epoch": 0.11733333333333333, | |
| "grad_norm": 0.517668305636808, | |
| "kl": 0.07672627766927083, | |
| "learning_rate": 3.055555555555556e-07, | |
| "loss": 0.0001, | |
| "reward": 0.29296875, | |
| "reward_std": 0.3735650113473336, | |
| "rewards/equation_reward_func": 0.26171875, | |
| "rewards/format_reward_func": 0.03125, | |
| "step": 110 | |
| }, | |
| { | |
| "completion_length": 292.8203125, | |
| "epoch": 0.11946666666666667, | |
| "grad_norm": 0.6718169749607034, | |
| "kl": 0.08472696940104167, | |
| "learning_rate": 3.111111111111111e-07, | |
| "loss": 0.0001, | |
| "reward": 0.35546875, | |
| "reward_std": 0.39032395618657273, | |
| "rewards/equation_reward_func": 0.30859375, | |
| "rewards/format_reward_func": 0.046875, | |
| "step": 112 | |
| }, | |
| { | |
| "completion_length": 293.4752604166667, | |
| "epoch": 0.1216, | |
| "grad_norm": 0.6888025797529753, | |
| "kl": 0.18288167317708334, | |
| "learning_rate": 3.166666666666666e-07, | |
| "loss": 0.0002, | |
| "reward": 0.3372395833333333, | |
| "reward_std": 0.41200364877780277, | |
| "rewards/equation_reward_func": 0.2903645833333333, | |
| "rewards/format_reward_func": 0.046875, | |
| "step": 114 | |
| }, | |
| { | |
| "completion_length": 304.28125, | |
| "epoch": 0.12373333333333333, | |
| "grad_norm": 0.5749264004966205, | |
| "kl": 0.0893707275390625, | |
| "learning_rate": 3.222222222222222e-07, | |
| "loss": 0.0001, | |
| "reward": 0.3697916666666667, | |
| "reward_std": 0.39827041948835057, | |
| "rewards/equation_reward_func": 0.3125, | |
| "rewards/format_reward_func": 0.057291666666666664, | |
| "step": 116 | |
| }, | |
| { | |
| "completion_length": 310.1171875, | |
| "epoch": 0.12586666666666665, | |
| "grad_norm": 0.5630508218895838, | |
| "kl": 0.1839599609375, | |
| "learning_rate": 3.2777777777777776e-07, | |
| "loss": 0.0002, | |
| "reward": 0.3828125, | |
| "reward_std": 0.41853290299574536, | |
| "rewards/equation_reward_func": 0.3216145833333333, | |
| "rewards/format_reward_func": 0.061197916666666664, | |
| "step": 118 | |
| }, | |
| { | |
| "completion_length": 301.2526041666667, | |
| "epoch": 0.128, | |
| "grad_norm": 5.2283212926638996, | |
| "kl": 0.9999796549479166, | |
| "learning_rate": 3.333333333333333e-07, | |
| "loss": 0.001, | |
| "reward": 0.39453125, | |
| "reward_std": 0.4259330555796623, | |
| "rewards/equation_reward_func": 0.3294270833333333, | |
| "rewards/format_reward_func": 0.06510416666666667, | |
| "step": 120 | |
| }, | |
| { | |
| "completion_length": 294.1979166666667, | |
| "epoch": 0.13013333333333332, | |
| "grad_norm": 1.10750899228101, | |
| "kl": 0.4684244791666667, | |
| "learning_rate": 3.388888888888889e-07, | |
| "loss": 0.0005, | |
| "reward": 0.4166666666666667, | |
| "reward_std": 0.4223006808509429, | |
| "rewards/equation_reward_func": 0.3359375, | |
| "rewards/format_reward_func": 0.08072916666666667, | |
| "step": 122 | |
| }, | |
| { | |
| "completion_length": 297.9557291666667, | |
| "epoch": 0.13226666666666667, | |
| "grad_norm": 0.615270950393823, | |
| "kl": 0.291839599609375, | |
| "learning_rate": 3.4444444444444444e-07, | |
| "loss": 0.0003, | |
| "reward": 0.4440104166666667, | |
| "reward_std": 0.4323507013420264, | |
| "rewards/equation_reward_func": 0.3567708333333333, | |
| "rewards/format_reward_func": 0.08723958333333333, | |
| "step": 124 | |
| }, | |
| { | |
| "completion_length": 291.6080729166667, | |
| "epoch": 0.1344, | |
| "grad_norm": 0.6919625491697983, | |
| "kl": 0.24787394205729166, | |
| "learning_rate": 3.5e-07, | |
| "loss": 0.0002, | |
| "reward": 0.4401041666666667, | |
| "reward_std": 0.4683213233947754, | |
| "rewards/equation_reward_func": 0.3424479166666667, | |
| "rewards/format_reward_func": 0.09765625, | |
| "step": 126 | |
| }, | |
| { | |
| "completion_length": 284.203125, | |
| "epoch": 0.13653333333333334, | |
| "grad_norm": 0.6665697775274662, | |
| "kl": 0.13033040364583334, | |
| "learning_rate": 3.5555555555555553e-07, | |
| "loss": 0.0001, | |
| "reward": 0.47265625, | |
| "reward_std": 0.45334619904557866, | |
| "rewards/equation_reward_func": 0.3606770833333333, | |
| "rewards/format_reward_func": 0.11197916666666667, | |
| "step": 128 | |
| }, | |
| { | |
| "completion_length": 291.4934895833333, | |
| "epoch": 0.13866666666666666, | |
| "grad_norm": 0.9595565536956405, | |
| "kl": 0.4045817057291667, | |
| "learning_rate": 3.6111111111111107e-07, | |
| "loss": 0.0004, | |
| "reward": 0.4895833333333333, | |
| "reward_std": 0.49288257335623104, | |
| "rewards/equation_reward_func": 0.3580729166666667, | |
| "rewards/format_reward_func": 0.13151041666666666, | |
| "step": 130 | |
| }, | |
| { | |
| "completion_length": 278.5833333333333, | |
| "epoch": 0.1408, | |
| "grad_norm": 1.1153936953928414, | |
| "kl": 0.5784505208333334, | |
| "learning_rate": 3.666666666666666e-07, | |
| "loss": 0.0006, | |
| "reward": 0.4973958333333333, | |
| "reward_std": 0.4726346880197525, | |
| "rewards/equation_reward_func": 0.36328125, | |
| "rewards/format_reward_func": 0.13411458333333334, | |
| "step": 132 | |
| }, | |
| { | |
| "completion_length": 286.7786458333333, | |
| "epoch": 0.14293333333333333, | |
| "grad_norm": 1.047849419285119, | |
| "kl": 0.9443359375, | |
| "learning_rate": 3.722222222222222e-07, | |
| "loss": 0.0009, | |
| "reward": 0.5299479166666666, | |
| "reward_std": 0.48004503548145294, | |
| "rewards/equation_reward_func": 0.3684895833333333, | |
| "rewards/format_reward_func": 0.16145833333333334, | |
| "step": 134 | |
| }, | |
| { | |
| "completion_length": 273.8606770833333, | |
| "epoch": 0.14506666666666668, | |
| "grad_norm": 0.7853122892562024, | |
| "kl": 1.5025227864583333, | |
| "learning_rate": 3.7777777777777775e-07, | |
| "loss": 0.0015, | |
| "reward": 0.5638020833333334, | |
| "reward_std": 0.49455846349398297, | |
| "rewards/equation_reward_func": 0.4114583333333333, | |
| "rewards/format_reward_func": 0.15234375, | |
| "step": 136 | |
| }, | |
| { | |
| "completion_length": 296.9140625, | |
| "epoch": 0.1472, | |
| "grad_norm": 0.689313012147368, | |
| "kl": 0.4770304361979167, | |
| "learning_rate": 3.8333333333333335e-07, | |
| "loss": 0.0005, | |
| "reward": 0.5416666666666666, | |
| "reward_std": 0.47400059426824254, | |
| "rewards/equation_reward_func": 0.375, | |
| "rewards/format_reward_func": 0.16666666666666666, | |
| "step": 138 | |
| }, | |
| { | |
| "completion_length": 270.8984375, | |
| "epoch": 0.14933333333333335, | |
| "grad_norm": 0.9682569482630566, | |
| "kl": 0.565673828125, | |
| "learning_rate": 3.888888888888889e-07, | |
| "loss": 0.0006, | |
| "reward": 0.5481770833333334, | |
| "reward_std": 0.5179597126940886, | |
| "rewards/equation_reward_func": 0.3541666666666667, | |
| "rewards/format_reward_func": 0.19401041666666666, | |
| "step": 140 | |
| }, | |
| { | |
| "completion_length": 279.4114583333333, | |
| "epoch": 0.15146666666666667, | |
| "grad_norm": 0.8302773093140077, | |
| "kl": 0.5698649088541666, | |
| "learning_rate": 3.9444444444444444e-07, | |
| "loss": 0.0006, | |
| "reward": 0.6497395833333334, | |
| "reward_std": 0.4915623640020688, | |
| "rewards/equation_reward_func": 0.43359375, | |
| "rewards/format_reward_func": 0.21614583333333334, | |
| "step": 142 | |
| }, | |
| { | |
| "completion_length": 269.1966145833333, | |
| "epoch": 0.1536, | |
| "grad_norm": 0.9297676106298164, | |
| "kl": 1.3462320963541667, | |
| "learning_rate": 4e-07, | |
| "loss": 0.0013, | |
| "reward": 0.70703125, | |
| "reward_std": 0.5434456045428911, | |
| "rewards/equation_reward_func": 0.4440104166666667, | |
| "rewards/format_reward_func": 0.2630208333333333, | |
| "step": 144 | |
| }, | |
| { | |
| "completion_length": 256.3190104166667, | |
| "epoch": 0.15573333333333333, | |
| "grad_norm": 13.191096992701524, | |
| "kl": 2.7274169921875, | |
| "learning_rate": 4.055555555555555e-07, | |
| "loss": 0.0027, | |
| "reward": 0.7135416666666666, | |
| "reward_std": 0.5629752663274606, | |
| "rewards/equation_reward_func": 0.3984375, | |
| "rewards/format_reward_func": 0.3151041666666667, | |
| "step": 146 | |
| }, | |
| { | |
| "completion_length": 240.98958333333334, | |
| "epoch": 0.15786666666666666, | |
| "grad_norm": 2.6923517975197675, | |
| "kl": 1.9044596354166667, | |
| "learning_rate": 4.1111111111111107e-07, | |
| "loss": 0.0019, | |
| "reward": 0.7955729166666666, | |
| "reward_std": 0.6285357810556889, | |
| "rewards/equation_reward_func": 0.4348958333333333, | |
| "rewards/format_reward_func": 0.3606770833333333, | |
| "step": 148 | |
| }, | |
| { | |
| "completion_length": 243.48177083333334, | |
| "epoch": 0.16, | |
| "grad_norm": 0.9242139526339149, | |
| "kl": 2.3465983072916665, | |
| "learning_rate": 4.1666666666666667e-07, | |
| "loss": 0.0023, | |
| "reward": 0.8255208333333334, | |
| "reward_std": 0.5858474647005399, | |
| "rewards/equation_reward_func": 0.4544270833333333, | |
| "rewards/format_reward_func": 0.37109375, | |
| "step": 150 | |
| }, | |
| { | |
| "completion_length": 231.2265625, | |
| "epoch": 0.16213333333333332, | |
| "grad_norm": 9.949384368289673, | |
| "kl": 5.401285807291667, | |
| "learning_rate": 4.222222222222222e-07, | |
| "loss": 0.0054, | |
| "reward": 0.8307291666666666, | |
| "reward_std": 0.6044882734616598, | |
| "rewards/equation_reward_func": 0.4388020833333333, | |
| "rewards/format_reward_func": 0.3919270833333333, | |
| "step": 152 | |
| }, | |
| { | |
| "completion_length": 250.37369791666666, | |
| "epoch": 0.16426666666666667, | |
| "grad_norm": 5.161010194433084, | |
| "kl": 3.2445068359375, | |
| "learning_rate": 4.2777777777777775e-07, | |
| "loss": 0.0032, | |
| "reward": 0.7760416666666666, | |
| "reward_std": 0.535188919554154, | |
| "rewards/equation_reward_func": 0.4192708333333333, | |
| "rewards/format_reward_func": 0.3567708333333333, | |
| "step": 154 | |
| }, | |
| { | |
| "completion_length": 254.93489583333334, | |
| "epoch": 0.1664, | |
| "grad_norm": 1.0002640755601948, | |
| "kl": 0.6531982421875, | |
| "learning_rate": 4.3333333333333335e-07, | |
| "loss": 0.0007, | |
| "reward": 0.7421875, | |
| "reward_std": 0.5701001932223638, | |
| "rewards/equation_reward_func": 0.41015625, | |
| "rewards/format_reward_func": 0.33203125, | |
| "step": 156 | |
| }, | |
| { | |
| "completion_length": 259.5690104166667, | |
| "epoch": 0.16853333333333334, | |
| "grad_norm": 1.097274288452666, | |
| "kl": 1.966552734375, | |
| "learning_rate": 4.3888888888888884e-07, | |
| "loss": 0.002, | |
| "reward": 0.7018229166666666, | |
| "reward_std": 0.5485328423480192, | |
| "rewards/equation_reward_func": 0.4075520833333333, | |
| "rewards/format_reward_func": 0.2942708333333333, | |
| "step": 158 | |
| }, | |
| { | |
| "completion_length": 258.1015625, | |
| "epoch": 0.17066666666666666, | |
| "grad_norm": 0.9519756329925796, | |
| "kl": 0.7391357421875, | |
| "learning_rate": 4.444444444444444e-07, | |
| "loss": 0.0007, | |
| "reward": 0.7005208333333334, | |
| "reward_std": 0.5527832334240278, | |
| "rewards/equation_reward_func": 0.3815104166666667, | |
| "rewards/format_reward_func": 0.3190104166666667, | |
| "step": 160 | |
| }, | |
| { | |
| "completion_length": 262.7434895833333, | |
| "epoch": 0.1728, | |
| "grad_norm": 0.9591794964382775, | |
| "kl": 0.6593831380208334, | |
| "learning_rate": 4.5e-07, | |
| "loss": 0.0007, | |
| "reward": 0.7330729166666666, | |
| "reward_std": 0.5479850607613722, | |
| "rewards/equation_reward_func": 0.4205729166666667, | |
| "rewards/format_reward_func": 0.3125, | |
| "step": 162 | |
| }, | |
| { | |
| "completion_length": 249.73828125, | |
| "epoch": 0.17493333333333333, | |
| "grad_norm": 1.1551554314479973, | |
| "kl": 1.16845703125, | |
| "learning_rate": 4.555555555555555e-07, | |
| "loss": 0.0012, | |
| "reward": 0.8567708333333334, | |
| "reward_std": 0.6066061779856682, | |
| "rewards/equation_reward_func": 0.4661458333333333, | |
| "rewards/format_reward_func": 0.390625, | |
| "step": 164 | |
| }, | |
| { | |
| "completion_length": 241.34765625, | |
| "epoch": 0.17706666666666668, | |
| "grad_norm": 1.136563345844868, | |
| "kl": 1.6453450520833333, | |
| "learning_rate": 4.611111111111111e-07, | |
| "loss": 0.0016, | |
| "reward": 0.9049479166666666, | |
| "reward_std": 0.6060953537623087, | |
| "rewards/equation_reward_func": 0.4674479166666667, | |
| "rewards/format_reward_func": 0.4375, | |
| "step": 166 | |
| }, | |
| { | |
| "completion_length": 222.53125, | |
| "epoch": 0.1792, | |
| "grad_norm": 15.03906840654502, | |
| "kl": 7.114583333333333, | |
| "learning_rate": 4.6666666666666666e-07, | |
| "loss": 0.0071, | |
| "reward": 0.9466145833333334, | |
| "reward_std": 0.5902928560972214, | |
| "rewards/equation_reward_func": 0.4401041666666667, | |
| "rewards/format_reward_func": 0.5065104166666666, | |
| "step": 168 | |
| }, | |
| { | |
| "completion_length": 212.83463541666666, | |
| "epoch": 0.18133333333333335, | |
| "grad_norm": 14.22461182273305, | |
| "kl": 7.138020833333333, | |
| "learning_rate": 4.722222222222222e-07, | |
| "loss": 0.0071, | |
| "reward": 0.9388020833333334, | |
| "reward_std": 0.6038099154829979, | |
| "rewards/equation_reward_func": 0.4231770833333333, | |
| "rewards/format_reward_func": 0.515625, | |
| "step": 170 | |
| }, | |
| { | |
| "completion_length": 217.02213541666666, | |
| "epoch": 0.18346666666666667, | |
| "grad_norm": 1.035103721049245, | |
| "kl": 1.7672526041666667, | |
| "learning_rate": 4.777777777777778e-07, | |
| "loss": 0.0018, | |
| "reward": 1.0, | |
| "reward_std": 0.5838151797652245, | |
| "rewards/equation_reward_func": 0.5182291666666666, | |
| "rewards/format_reward_func": 0.4817708333333333, | |
| "step": 172 | |
| }, | |
| { | |
| "completion_length": 209.76041666666666, | |
| "epoch": 0.1856, | |
| "grad_norm": 1.062128854052587, | |
| "kl": 6.16357421875, | |
| "learning_rate": 4.833333333333333e-07, | |
| "loss": 0.0062, | |
| "reward": 0.9713541666666666, | |
| "reward_std": 0.6406667605042458, | |
| "rewards/equation_reward_func": 0.4596354166666667, | |
| "rewards/format_reward_func": 0.51171875, | |
| "step": 174 | |
| }, | |
| { | |
| "completion_length": 222.86979166666666, | |
| "epoch": 0.18773333333333334, | |
| "grad_norm": 1.0433166889326757, | |
| "kl": 99.47233072916667, | |
| "learning_rate": 4.888888888888889e-07, | |
| "loss": 0.0995, | |
| "reward": 0.96484375, | |
| "reward_std": 0.5752873420715332, | |
| "rewards/equation_reward_func": 0.4440104166666667, | |
| "rewards/format_reward_func": 0.5208333333333334, | |
| "step": 176 | |
| }, | |
| { | |
| "completion_length": 201.68489583333334, | |
| "epoch": 0.18986666666666666, | |
| "grad_norm": 1.2351107958626848, | |
| "kl": 2.5226236979166665, | |
| "learning_rate": 4.944444444444445e-07, | |
| "loss": 0.0025, | |
| "reward": 1.0325520833333333, | |
| "reward_std": 0.5681675101319948, | |
| "rewards/equation_reward_func": 0.47265625, | |
| "rewards/format_reward_func": 0.5598958333333334, | |
| "step": 178 | |
| }, | |
| { | |
| "completion_length": 195.61197916666666, | |
| "epoch": 0.192, | |
| "grad_norm": 11.627137706288314, | |
| "kl": 3.5594075520833335, | |
| "learning_rate": 5e-07, | |
| "loss": 0.0036, | |
| "reward": 1.0481770833333333, | |
| "reward_std": 0.639482689400514, | |
| "rewards/equation_reward_func": 0.4661458333333333, | |
| "rewards/format_reward_func": 0.58203125, | |
| "step": 180 | |
| }, | |
| { | |
| "completion_length": 201.04427083333334, | |
| "epoch": 0.19413333333333332, | |
| "grad_norm": 2.3761295186560973, | |
| "kl": 2.4593098958333335, | |
| "learning_rate": 4.999998543120144e-07, | |
| "loss": 0.0025, | |
| "reward": 1.0924479166666667, | |
| "reward_std": 0.5605833331743876, | |
| "rewards/equation_reward_func": 0.43359375, | |
| "rewards/format_reward_func": 0.6588541666666666, | |
| "step": 182 | |
| }, | |
| { | |
| "completion_length": 204.70963541666666, | |
| "epoch": 0.19626666666666667, | |
| "grad_norm": 19.15447042687315, | |
| "kl": 5.9189453125, | |
| "learning_rate": 4.999994172482276e-07, | |
| "loss": 0.0059, | |
| "reward": 1.0598958333333333, | |
| "reward_std": 0.5525274835526943, | |
| "rewards/equation_reward_func": 0.4322916666666667, | |
| "rewards/format_reward_func": 0.6276041666666666, | |
| "step": 184 | |
| }, | |
| { | |
| "completion_length": 200.78515625, | |
| "epoch": 0.1984, | |
| "grad_norm": 1.1411042149150106, | |
| "kl": 1.8561197916666667, | |
| "learning_rate": 4.99998688809149e-07, | |
| "loss": 0.0019, | |
| "reward": 1.0651041666666667, | |
| "reward_std": 0.556961198647817, | |
| "rewards/equation_reward_func": 0.4479166666666667, | |
| "rewards/format_reward_func": 0.6171875, | |
| "step": 186 | |
| }, | |
| { | |
| "completion_length": 200.1171875, | |
| "epoch": 0.20053333333333334, | |
| "grad_norm": 1.0584324543928774, | |
| "kl": 2.3194986979166665, | |
| "learning_rate": 4.999976689956274e-07, | |
| "loss": 0.0023, | |
| "reward": 1.0833333333333333, | |
| "reward_std": 0.5601175352931023, | |
| "rewards/equation_reward_func": 0.44140625, | |
| "rewards/format_reward_func": 0.6419270833333334, | |
| "step": 188 | |
| }, | |
| { | |
| "completion_length": 185.48567708333334, | |
| "epoch": 0.20266666666666666, | |
| "grad_norm": 1.1295258732694669, | |
| "kl": 3.38671875, | |
| "learning_rate": 4.999963578088516e-07, | |
| "loss": 0.0034, | |
| "reward": 1.0950520833333333, | |
| "reward_std": 0.5504275386532148, | |
| "rewards/equation_reward_func": 0.4322916666666667, | |
| "rewards/format_reward_func": 0.6627604166666666, | |
| "step": 190 | |
| }, | |
| { | |
| "completion_length": 194.33333333333334, | |
| "epoch": 0.2048, | |
| "grad_norm": 1.2128036885549578, | |
| "kl": 2.1873372395833335, | |
| "learning_rate": 4.999947552503497e-07, | |
| "loss": 0.0022, | |
| "reward": 1.1028645833333333, | |
| "reward_std": 0.559706615904967, | |
| "rewards/equation_reward_func": 0.4518229166666667, | |
| "rewards/format_reward_func": 0.6510416666666666, | |
| "step": 192 | |
| }, | |
| { | |
| "completion_length": 190.27604166666666, | |
| "epoch": 0.20693333333333333, | |
| "grad_norm": 2.3227207445333518, | |
| "kl": 2.27685546875, | |
| "learning_rate": 4.999928613219894e-07, | |
| "loss": 0.0023, | |
| "reward": 1.19140625, | |
| "reward_std": 0.5113137662410736, | |
| "rewards/equation_reward_func": 0.4778645833333333, | |
| "rewards/format_reward_func": 0.7135416666666666, | |
| "step": 194 | |
| }, | |
| { | |
| "completion_length": 193.97526041666666, | |
| "epoch": 0.20906666666666668, | |
| "grad_norm": 0.9931969673939934, | |
| "kl": 1.3095703125, | |
| "learning_rate": 4.999906760259783e-07, | |
| "loss": 0.0013, | |
| "reward": 1.1783854166666667, | |
| "reward_std": 0.550837729126215, | |
| "rewards/equation_reward_func": 0.4869791666666667, | |
| "rewards/format_reward_func": 0.69140625, | |
| "step": 196 | |
| }, | |
| { | |
| "completion_length": 180.828125, | |
| "epoch": 0.2112, | |
| "grad_norm": 1.1699816978790611, | |
| "kl": 2.6818033854166665, | |
| "learning_rate": 4.999881993648632e-07, | |
| "loss": 0.0027, | |
| "reward": 1.1796875, | |
| "reward_std": 0.5287719629704952, | |
| "rewards/equation_reward_func": 0.4700520833333333, | |
| "rewards/format_reward_func": 0.7096354166666666, | |
| "step": 198 | |
| }, | |
| { | |
| "completion_length": 177.2109375, | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 1.1046652489048718, | |
| "kl": 1.8024088541666667, | |
| "learning_rate": 4.999854313415308e-07, | |
| "loss": 0.0018, | |
| "reward": 1.2239583333333333, | |
| "reward_std": 0.5304639202853044, | |
| "rewards/equation_reward_func": 0.4635416666666667, | |
| "rewards/format_reward_func": 0.7604166666666666, | |
| "step": 200 | |
| }, | |
| { | |
| "completion_length": 187.02734375, | |
| "epoch": 0.21546666666666667, | |
| "grad_norm": 4.326441355219364, | |
| "kl": 3.2083333333333335, | |
| "learning_rate": 4.999823719592071e-07, | |
| "loss": 0.0032, | |
| "reward": 1.15625, | |
| "reward_std": 0.5145041197538376, | |
| "rewards/equation_reward_func": 0.4153645833333333, | |
| "rewards/format_reward_func": 0.7408854166666666, | |
| "step": 202 | |
| }, | |
| { | |
| "completion_length": 193.31770833333334, | |
| "epoch": 0.2176, | |
| "grad_norm": 2.528880737168287, | |
| "kl": 2.4415690104166665, | |
| "learning_rate": 4.999790212214579e-07, | |
| "loss": 0.0024, | |
| "reward": 1.25, | |
| "reward_std": 0.5058178131779035, | |
| "rewards/equation_reward_func": 0.4869791666666667, | |
| "rewards/format_reward_func": 0.7630208333333334, | |
| "step": 204 | |
| }, | |
| { | |
| "completion_length": 168.56770833333334, | |
| "epoch": 0.21973333333333334, | |
| "grad_norm": 1.1279270891785158, | |
| "kl": 1.9371744791666667, | |
| "learning_rate": 4.999753791321885e-07, | |
| "loss": 0.0019, | |
| "reward": 1.2317708333333333, | |
| "reward_std": 0.50295057396094, | |
| "rewards/equation_reward_func": 0.453125, | |
| "rewards/format_reward_func": 0.7786458333333334, | |
| "step": 206 | |
| }, | |
| { | |
| "completion_length": 166.27864583333334, | |
| "epoch": 0.22186666666666666, | |
| "grad_norm": 9.104680217201903, | |
| "kl": 11.263753255208334, | |
| "learning_rate": 4.999714456956438e-07, | |
| "loss": 0.0113, | |
| "reward": 1.2330729166666667, | |
| "reward_std": 0.4753416987756888, | |
| "rewards/equation_reward_func": 0.4375, | |
| "rewards/format_reward_func": 0.7955729166666666, | |
| "step": 208 | |
| }, | |
| { | |
| "completion_length": 180.4140625, | |
| "epoch": 0.224, | |
| "grad_norm": 2.416423818765659, | |
| "kl": 3.7718912760416665, | |
| "learning_rate": 4.99967220916408e-07, | |
| "loss": 0.0038, | |
| "reward": 1.2526041666666667, | |
| "reward_std": 0.5077879019081593, | |
| "rewards/equation_reward_func": 0.5013020833333334, | |
| "rewards/format_reward_func": 0.7513020833333334, | |
| "step": 210 | |
| }, | |
| { | |
| "completion_length": 181.14713541666666, | |
| "epoch": 0.22613333333333333, | |
| "grad_norm": 2.6632080745354734, | |
| "kl": 4.432861328125, | |
| "learning_rate": 4.999627047994053e-07, | |
| "loss": 0.0044, | |
| "reward": 1.2252604166666667, | |
| "reward_std": 0.5330267424384753, | |
| "rewards/equation_reward_func": 0.4856770833333333, | |
| "rewards/format_reward_func": 0.7395833333333334, | |
| "step": 212 | |
| }, | |
| { | |
| "completion_length": 186.21614583333334, | |
| "epoch": 0.22826666666666667, | |
| "grad_norm": 1.2804909363223782, | |
| "kl": 2.6925455729166665, | |
| "learning_rate": 4.999578973498994e-07, | |
| "loss": 0.0027, | |
| "reward": 1.1901041666666667, | |
| "reward_std": 0.5430716599027315, | |
| "rewards/equation_reward_func": 0.46484375, | |
| "rewards/format_reward_func": 0.7252604166666666, | |
| "step": 214 | |
| }, | |
| { | |
| "completion_length": 175.50911458333334, | |
| "epoch": 0.2304, | |
| "grad_norm": 1.2055626639645687, | |
| "kl": 1.9495442708333333, | |
| "learning_rate": 4.999527985734931e-07, | |
| "loss": 0.0019, | |
| "reward": 1.2604166666666667, | |
| "reward_std": 0.5137759521603584, | |
| "rewards/equation_reward_func": 0.5130208333333334, | |
| "rewards/format_reward_func": 0.7473958333333334, | |
| "step": 216 | |
| }, | |
| { | |
| "completion_length": 166.99479166666666, | |
| "epoch": 0.23253333333333334, | |
| "grad_norm": 1.168705645191161, | |
| "kl": 2.0302734375, | |
| "learning_rate": 4.999474084761293e-07, | |
| "loss": 0.002, | |
| "reward": 1.2903645833333333, | |
| "reward_std": 0.4996943349639575, | |
| "rewards/equation_reward_func": 0.5143229166666666, | |
| "rewards/format_reward_func": 0.7760416666666666, | |
| "step": 218 | |
| }, | |
| { | |
| "completion_length": 170.44140625, | |
| "epoch": 0.23466666666666666, | |
| "grad_norm": 0.9834885138417234, | |
| "kl": 1.9099934895833333, | |
| "learning_rate": 4.999417270640898e-07, | |
| "loss": 0.0019, | |
| "reward": 1.2669270833333333, | |
| "reward_std": 0.4850236301620801, | |
| "rewards/equation_reward_func": 0.4934895833333333, | |
| "rewards/format_reward_func": 0.7734375, | |
| "step": 220 | |
| }, | |
| { | |
| "completion_length": 166.546875, | |
| "epoch": 0.2368, | |
| "grad_norm": 1.0233093557102102, | |
| "kl": 4.828125, | |
| "learning_rate": 4.999357543439968e-07, | |
| "loss": 0.0049, | |
| "reward": 1.29296875, | |
| "reward_std": 0.44626551556090516, | |
| "rewards/equation_reward_func": 0.4778645833333333, | |
| "rewards/format_reward_func": 0.8151041666666666, | |
| "step": 222 | |
| }, | |
| { | |
| "completion_length": 152.25911458333334, | |
| "epoch": 0.23893333333333333, | |
| "grad_norm": 0.930674460121437, | |
| "kl": 2.28759765625, | |
| "learning_rate": 4.999294903228113e-07, | |
| "loss": 0.0023, | |
| "reward": 1.2916666666666667, | |
| "reward_std": 0.48016831651329994, | |
| "rewards/equation_reward_func": 0.4752604166666667, | |
| "rewards/format_reward_func": 0.81640625, | |
| "step": 224 | |
| }, | |
| { | |
| "completion_length": 163.56119791666666, | |
| "epoch": 0.24106666666666668, | |
| "grad_norm": 338.4140024542439, | |
| "kl": 49.606770833333336, | |
| "learning_rate": 4.999229350078339e-07, | |
| "loss": 0.0496, | |
| "reward": 1.3359375, | |
| "reward_std": 0.4479827595253785, | |
| "rewards/equation_reward_func": 0.4947916666666667, | |
| "rewards/format_reward_func": 0.8411458333333334, | |
| "step": 226 | |
| }, | |
| { | |
| "completion_length": 143.97395833333334, | |
| "epoch": 0.2432, | |
| "grad_norm": 1.8938831484071759, | |
| "kl": 2.3465169270833335, | |
| "learning_rate": 4.99916088406705e-07, | |
| "loss": 0.0023, | |
| "reward": 1.3450520833333333, | |
| "reward_std": 0.4198652400324742, | |
| "rewards/equation_reward_func": 0.4947916666666667, | |
| "rewards/format_reward_func": 0.8502604166666666, | |
| "step": 228 | |
| }, | |
| { | |
| "completion_length": 147.57552083333334, | |
| "epoch": 0.24533333333333332, | |
| "grad_norm": 1.1312980122891056, | |
| "kl": 2.0494791666666665, | |
| "learning_rate": 4.999089505274044e-07, | |
| "loss": 0.002, | |
| "reward": 1.3489583333333333, | |
| "reward_std": 0.43956900388002396, | |
| "rewards/equation_reward_func": 0.4973958333333333, | |
| "rewards/format_reward_func": 0.8515625, | |
| "step": 230 | |
| }, | |
| { | |
| "completion_length": 145.55859375, | |
| "epoch": 0.24746666666666667, | |
| "grad_norm": 1.2526828326540607, | |
| "kl": 2.8424479166666665, | |
| "learning_rate": 4.999015213782511e-07, | |
| "loss": 0.0028, | |
| "reward": 1.4088541666666667, | |
| "reward_std": 0.39962247883280116, | |
| "rewards/equation_reward_func": 0.53515625, | |
| "rewards/format_reward_func": 0.8736979166666666, | |
| "step": 232 | |
| }, | |
| { | |
| "completion_length": 146.65364583333334, | |
| "epoch": 0.2496, | |
| "grad_norm": 1.385608010130897, | |
| "kl": 7.672119140625, | |
| "learning_rate": 4.998938009679042e-07, | |
| "loss": 0.0077, | |
| "reward": 1.3802083333333333, | |
| "reward_std": 0.4127179595331351, | |
| "rewards/equation_reward_func": 0.5182291666666666, | |
| "rewards/format_reward_func": 0.8619791666666666, | |
| "step": 234 | |
| }, | |
| { | |
| "completion_length": 148.32291666666666, | |
| "epoch": 0.2517333333333333, | |
| "grad_norm": 4.657514911271875, | |
| "kl": 4.054280598958333, | |
| "learning_rate": 4.998857893053613e-07, | |
| "loss": 0.0041, | |
| "reward": 1.3606770833333333, | |
| "reward_std": 0.3983081355690956, | |
| "rewards/equation_reward_func": 0.4895833333333333, | |
| "rewards/format_reward_func": 0.87109375, | |
| "step": 236 | |
| }, | |
| { | |
| "completion_length": 165.42317708333334, | |
| "epoch": 0.2538666666666667, | |
| "grad_norm": 15.37370152503601, | |
| "kl": 3.7224934895833335, | |
| "learning_rate": 4.998774863999605e-07, | |
| "loss": 0.0037, | |
| "reward": 1.3333333333333333, | |
| "reward_std": 0.3957822372515996, | |
| "rewards/equation_reward_func": 0.4856770833333333, | |
| "rewards/format_reward_func": 0.84765625, | |
| "step": 238 | |
| }, | |
| { | |
| "completion_length": 160.47526041666666, | |
| "epoch": 0.256, | |
| "grad_norm": 2.2401370014890625, | |
| "kl": 3.3633626302083335, | |
| "learning_rate": 4.998688922613787e-07, | |
| "loss": 0.0034, | |
| "reward": 1.3294270833333333, | |
| "reward_std": 0.4413594137877226, | |
| "rewards/equation_reward_func": 0.4947916666666667, | |
| "rewards/format_reward_func": 0.8346354166666666, | |
| "step": 240 | |
| }, | |
| { | |
| "completion_length": 147.13671875, | |
| "epoch": 0.2581333333333333, | |
| "grad_norm": 1.1783778185079703, | |
| "kl": 2.1555989583333335, | |
| "learning_rate": 4.998600068996324e-07, | |
| "loss": 0.0022, | |
| "reward": 1.3359375, | |
| "reward_std": 0.405298105130593, | |
| "rewards/equation_reward_func": 0.4674479166666667, | |
| "rewards/format_reward_func": 0.8684895833333334, | |
| "step": 242 | |
| }, | |
| { | |
| "completion_length": 149.70963541666666, | |
| "epoch": 0.26026666666666665, | |
| "grad_norm": 0.9505264865648189, | |
| "kl": 1.3589680989583333, | |
| "learning_rate": 4.998508303250775e-07, | |
| "loss": 0.0014, | |
| "reward": 1.3125, | |
| "reward_std": 0.39988845959305763, | |
| "rewards/equation_reward_func": 0.4596354166666667, | |
| "rewards/format_reward_func": 0.8528645833333334, | |
| "step": 244 | |
| }, | |
| { | |
| "completion_length": 156.95182291666666, | |
| "epoch": 0.2624, | |
| "grad_norm": 1.0970031548231278, | |
| "kl": 1.8590494791666667, | |
| "learning_rate": 4.998413625484094e-07, | |
| "loss": 0.0019, | |
| "reward": 1.3684895833333333, | |
| "reward_std": 0.4291856500009696, | |
| "rewards/equation_reward_func": 0.5286458333333334, | |
| "rewards/format_reward_func": 0.83984375, | |
| "step": 246 | |
| }, | |
| { | |
| "completion_length": 158.27604166666666, | |
| "epoch": 0.26453333333333334, | |
| "grad_norm": 1.172846738622476, | |
| "kl": 2.772216796875, | |
| "learning_rate": 4.998316035806628e-07, | |
| "loss": 0.0028, | |
| "reward": 1.3463541666666667, | |
| "reward_std": 0.41433671365181607, | |
| "rewards/equation_reward_func": 0.4908854166666667, | |
| "rewards/format_reward_func": 0.85546875, | |
| "step": 248 | |
| }, | |
| { | |
| "completion_length": 156.32291666666666, | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 1.164488890111355, | |
| "kl": 2.6150716145833335, | |
| "learning_rate": 4.998215534332118e-07, | |
| "loss": 0.0026, | |
| "reward": 1.3333333333333333, | |
| "reward_std": 0.4136569102605184, | |
| "rewards/equation_reward_func": 0.4739583333333333, | |
| "rewards/format_reward_func": 0.859375, | |
| "step": 250 | |
| }, | |
| { | |
| "completion_length": 154.20963541666666, | |
| "epoch": 0.2688, | |
| "grad_norm": 1.029006111694433, | |
| "kl": 1.8280436197916667, | |
| "learning_rate": 4.998112121177698e-07, | |
| "loss": 0.0018, | |
| "reward": 1.4192708333333333, | |
| "reward_std": 0.3548974816997846, | |
| "rewards/equation_reward_func": 0.5364583333333334, | |
| "rewards/format_reward_func": 0.8828125, | |
| "step": 252 | |
| }, | |
| { | |
| "completion_length": 158.8984375, | |
| "epoch": 0.27093333333333336, | |
| "grad_norm": 3.70399988115464, | |
| "kl": 3.21728515625, | |
| "learning_rate": 4.9980057964639e-07, | |
| "loss": 0.0032, | |
| "reward": 1.3515625, | |
| "reward_std": 0.3518520401169856, | |
| "rewards/equation_reward_func": 0.4752604166666667, | |
| "rewards/format_reward_func": 0.8763020833333334, | |
| "step": 254 | |
| }, | |
| { | |
| "completion_length": 142.91796875, | |
| "epoch": 0.2730666666666667, | |
| "grad_norm": 10.573729639346004, | |
| "kl": 5.243977864583333, | |
| "learning_rate": 4.99789656031464e-07, | |
| "loss": 0.0052, | |
| "reward": 1.3385416666666667, | |
| "reward_std": 0.36321422768135864, | |
| "rewards/equation_reward_func": 0.4622395833333333, | |
| "rewards/format_reward_func": 0.8763020833333334, | |
| "step": 256 | |
| }, | |
| { | |
| "completion_length": 168.27864583333334, | |
| "epoch": 0.2752, | |
| "grad_norm": 1.7991522108608322, | |
| "kl": 19.999674479166668, | |
| "learning_rate": 4.997784412857239e-07, | |
| "loss": 0.02, | |
| "reward": 1.3658854166666667, | |
| "reward_std": 0.4025266710668802, | |
| "rewards/equation_reward_func": 0.5026041666666666, | |
| "rewards/format_reward_func": 0.86328125, | |
| "step": 258 | |
| }, | |
| { | |
| "completion_length": 155.0703125, | |
| "epoch": 0.2773333333333333, | |
| "grad_norm": 10.67133851091962, | |
| "kl": 6.747884114583333, | |
| "learning_rate": 4.997669354222401e-07, | |
| "loss": 0.0068, | |
| "reward": 1.4140625, | |
| "reward_std": 0.40690618256727856, | |
| "rewards/equation_reward_func": 0.5455729166666666, | |
| "rewards/format_reward_func": 0.8684895833333334, | |
| "step": 260 | |
| }, | |
| { | |
| "completion_length": 152.71223958333334, | |
| "epoch": 0.27946666666666664, | |
| "grad_norm": 1.0187931367905247, | |
| "kl": 2.809326171875, | |
| "learning_rate": 4.99755138454423e-07, | |
| "loss": 0.0028, | |
| "reward": 1.3658854166666667, | |
| "reward_std": 0.3314252154280742, | |
| "rewards/equation_reward_func": 0.4635416666666667, | |
| "rewards/format_reward_func": 0.90234375, | |
| "step": 262 | |
| }, | |
| { | |
| "completion_length": 144.68489583333334, | |
| "epoch": 0.2816, | |
| "grad_norm": 11.35020875218538, | |
| "kl": 5.034993489583333, | |
| "learning_rate": 4.997430503960219e-07, | |
| "loss": 0.005, | |
| "reward": 1.4322916666666667, | |
| "reward_std": 0.36501340257624787, | |
| "rewards/equation_reward_func": 0.54296875, | |
| "rewards/format_reward_func": 0.8893229166666666, | |
| "step": 264 | |
| }, | |
| { | |
| "completion_length": 167.67838541666666, | |
| "epoch": 0.28373333333333334, | |
| "grad_norm": 2.753668709754689, | |
| "kl": 3.296875, | |
| "learning_rate": 4.997306712611255e-07, | |
| "loss": 0.0033, | |
| "reward": 1.3567708333333333, | |
| "reward_std": 0.38773926223317784, | |
| "rewards/equation_reward_func": 0.50390625, | |
| "rewards/format_reward_func": 0.8528645833333334, | |
| "step": 266 | |
| }, | |
| { | |
| "completion_length": 153.69270833333334, | |
| "epoch": 0.28586666666666666, | |
| "grad_norm": 1.2934585156561604, | |
| "kl": 2.91650390625, | |
| "learning_rate": 4.997180010641617e-07, | |
| "loss": 0.0029, | |
| "reward": 1.3684895833333333, | |
| "reward_std": 0.3994043904046218, | |
| "rewards/equation_reward_func": 0.50390625, | |
| "rewards/format_reward_func": 0.8645833333333334, | |
| "step": 268 | |
| }, | |
| { | |
| "completion_length": 179.24088541666666, | |
| "epoch": 0.288, | |
| "grad_norm": 2.1142624120320885, | |
| "kl": 3.9395345052083335, | |
| "learning_rate": 4.997050398198976e-07, | |
| "loss": 0.0039, | |
| "reward": 1.3294270833333333, | |
| "reward_std": 0.41462432655195397, | |
| "rewards/equation_reward_func": 0.4986979166666667, | |
| "rewards/format_reward_func": 0.8307291666666666, | |
| "step": 270 | |
| }, | |
| { | |
| "completion_length": 173.00651041666666, | |
| "epoch": 0.29013333333333335, | |
| "grad_norm": 1.919579346043975, | |
| "kl": 2.6097819010416665, | |
| "learning_rate": 4.996917875434397e-07, | |
| "loss": 0.0026, | |
| "reward": 1.375, | |
| "reward_std": 0.39890523503224057, | |
| "rewards/equation_reward_func": 0.5390625, | |
| "rewards/format_reward_func": 0.8359375, | |
| "step": 272 | |
| }, | |
| { | |
| "completion_length": 187.50911458333334, | |
| "epoch": 0.2922666666666667, | |
| "grad_norm": 1.2568329559700449, | |
| "kl": 3.2888997395833335, | |
| "learning_rate": 4.996782442502337e-07, | |
| "loss": 0.0033, | |
| "reward": 1.3307291666666667, | |
| "reward_std": 0.3993341239790122, | |
| "rewards/equation_reward_func": 0.5065104166666666, | |
| "rewards/format_reward_func": 0.82421875, | |
| "step": 274 | |
| }, | |
| { | |
| "completion_length": 175.77864583333334, | |
| "epoch": 0.2944, | |
| "grad_norm": 2.28170428078346, | |
| "kl": 4.681803385416667, | |
| "learning_rate": 4.996644099560641e-07, | |
| "loss": 0.0047, | |
| "reward": 1.3919270833333333, | |
| "reward_std": 0.37952167727053165, | |
| "rewards/equation_reward_func": 0.5338541666666666, | |
| "rewards/format_reward_func": 0.8580729166666666, | |
| "step": 276 | |
| }, | |
| { | |
| "completion_length": 167.59765625, | |
| "epoch": 0.2965333333333333, | |
| "grad_norm": 1.7515218901636054, | |
| "kl": 2.6555989583333335, | |
| "learning_rate": 4.996502846770549e-07, | |
| "loss": 0.0027, | |
| "reward": 1.3541666666666667, | |
| "reward_std": 0.3857589593778054, | |
| "rewards/equation_reward_func": 0.4986979166666667, | |
| "rewards/format_reward_func": 0.85546875, | |
| "step": 278 | |
| }, | |
| { | |
| "completion_length": 161.62109375, | |
| "epoch": 0.2986666666666667, | |
| "grad_norm": 1.7738551165441407, | |
| "kl": 2.814453125, | |
| "learning_rate": 4.996358684296693e-07, | |
| "loss": 0.0028, | |
| "reward": 1.4127604166666667, | |
| "reward_std": 0.35575039125978947, | |
| "rewards/equation_reward_func": 0.546875, | |
| "rewards/format_reward_func": 0.8658854166666666, | |
| "step": 280 | |
| }, | |
| { | |
| "completion_length": 168.1015625, | |
| "epoch": 0.3008, | |
| "grad_norm": 6.176404503733315, | |
| "kl": 4.261393229166667, | |
| "learning_rate": 4.996211612307092e-07, | |
| "loss": 0.0043, | |
| "reward": 1.3684895833333333, | |
| "reward_std": 0.3725346190234025, | |
| "rewards/equation_reward_func": 0.5, | |
| "rewards/format_reward_func": 0.8684895833333334, | |
| "step": 282 | |
| }, | |
| { | |
| "completion_length": 173.60026041666666, | |
| "epoch": 0.30293333333333333, | |
| "grad_norm": 1.6282899345986805, | |
| "kl": 2.560546875, | |
| "learning_rate": 4.996061630973162e-07, | |
| "loss": 0.0026, | |
| "reward": 1.38671875, | |
| "reward_std": 0.3625526738663514, | |
| "rewards/equation_reward_func": 0.4973958333333333, | |
| "rewards/format_reward_func": 0.8893229166666666, | |
| "step": 284 | |
| }, | |
| { | |
| "completion_length": 185.00130208333334, | |
| "epoch": 0.30506666666666665, | |
| "grad_norm": 1.2282590578520074, | |
| "kl": 2.8416341145833335, | |
| "learning_rate": 4.995908740469706e-07, | |
| "loss": 0.0028, | |
| "reward": 1.3815104166666667, | |
| "reward_std": 0.38635170459747314, | |
| "rewards/equation_reward_func": 0.5143229166666666, | |
| "rewards/format_reward_func": 0.8671875, | |
| "step": 286 | |
| }, | |
| { | |
| "completion_length": 186.93229166666666, | |
| "epoch": 0.3072, | |
| "grad_norm": 2.2867428307337008, | |
| "kl": 5.429361979166667, | |
| "learning_rate": 4.995752940974918e-07, | |
| "loss": 0.0054, | |
| "reward": 1.4466145833333333, | |
| "reward_std": 0.38114700963099796, | |
| "rewards/equation_reward_func": 0.5872395833333334, | |
| "rewards/format_reward_func": 0.859375, | |
| "step": 288 | |
| }, | |
| { | |
| "completion_length": 166.58723958333334, | |
| "epoch": 0.30933333333333335, | |
| "grad_norm": 25.018020936679427, | |
| "kl": 21.289713541666668, | |
| "learning_rate": 4.995594232670383e-07, | |
| "loss": 0.0213, | |
| "reward": 1.4140625, | |
| "reward_std": 0.35276499142249423, | |
| "rewards/equation_reward_func": 0.5247395833333334, | |
| "rewards/format_reward_func": 0.8893229166666666, | |
| "step": 290 | |
| }, | |
| { | |
| "completion_length": 181.54166666666666, | |
| "epoch": 0.31146666666666667, | |
| "grad_norm": 1.0454613275772764, | |
| "kl": 3.7913411458333335, | |
| "learning_rate": 4.995432615741076e-07, | |
| "loss": 0.0038, | |
| "reward": 1.4270833333333333, | |
| "reward_std": 0.3370052979638179, | |
| "rewards/equation_reward_func": 0.5403645833333334, | |
| "rewards/format_reward_func": 0.88671875, | |
| "step": 292 | |
| }, | |
| { | |
| "completion_length": 162.26432291666666, | |
| "epoch": 0.3136, | |
| "grad_norm": 1.259806221185807, | |
| "kl": 1.6464029947916667, | |
| "learning_rate": 4.995268090375362e-07, | |
| "loss": 0.0016, | |
| "reward": 1.4661458333333333, | |
| "reward_std": 0.35614595996836823, | |
| "rewards/equation_reward_func": 0.5625, | |
| "rewards/format_reward_func": 0.9036458333333334, | |
| "step": 294 | |
| }, | |
| { | |
| "completion_length": 181.81770833333334, | |
| "epoch": 0.3157333333333333, | |
| "grad_norm": 3.6624985164753627, | |
| "kl": 17.105061848958332, | |
| "learning_rate": 4.995100656764996e-07, | |
| "loss": 0.0172, | |
| "reward": 1.421875, | |
| "reward_std": 0.33182443616290885, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.9010416666666666, | |
| "step": 296 | |
| }, | |
| { | |
| "completion_length": 162.8984375, | |
| "epoch": 0.3178666666666667, | |
| "grad_norm": 1.759355714873928, | |
| "kl": 3.4754231770833335, | |
| "learning_rate": 4.994930315105124e-07, | |
| "loss": 0.0035, | |
| "reward": 1.4192708333333333, | |
| "reward_std": 0.35781454170743626, | |
| "rewards/equation_reward_func": 0.515625, | |
| "rewards/format_reward_func": 0.9036458333333334, | |
| "step": 298 | |
| }, | |
| { | |
| "completion_length": 163.81510416666666, | |
| "epoch": 0.32, | |
| "grad_norm": 1.3903946934025209, | |
| "kl": 1.645263671875, | |
| "learning_rate": 4.994757065594279e-07, | |
| "loss": 0.0016, | |
| "reward": 1.4739583333333333, | |
| "reward_std": 0.3436816558241844, | |
| "rewards/equation_reward_func": 0.5611979166666666, | |
| "rewards/format_reward_func": 0.9127604166666666, | |
| "step": 300 | |
| }, | |
| { | |
| "completion_length": 156.77734375, | |
| "epoch": 0.3221333333333333, | |
| "grad_norm": 3.4308143887259797, | |
| "kl": 4.659993489583333, | |
| "learning_rate": 4.994580908434383e-07, | |
| "loss": 0.0047, | |
| "reward": 1.4401041666666667, | |
| "reward_std": 0.3360082097351551, | |
| "rewards/equation_reward_func": 0.5260416666666666, | |
| "rewards/format_reward_func": 0.9140625, | |
| "step": 302 | |
| }, | |
| { | |
| "completion_length": 179.78776041666666, | |
| "epoch": 0.32426666666666665, | |
| "grad_norm": 2.3844350695102956, | |
| "kl": 2.32177734375, | |
| "learning_rate": 4.994401843830749e-07, | |
| "loss": 0.0023, | |
| "reward": 1.4739583333333333, | |
| "reward_std": 0.2987093844761451, | |
| "rewards/equation_reward_func": 0.5846354166666666, | |
| "rewards/format_reward_func": 0.8893229166666666, | |
| "step": 304 | |
| }, | |
| { | |
| "completion_length": 169.66666666666666, | |
| "epoch": 0.3264, | |
| "grad_norm": 0.961985609846353, | |
| "kl": 14.213460286458334, | |
| "learning_rate": 4.994219871992076e-07, | |
| "loss": 0.0142, | |
| "reward": 1.4596354166666667, | |
| "reward_std": 0.3210810037950675, | |
| "rewards/equation_reward_func": 0.5559895833333334, | |
| "rewards/format_reward_func": 0.9036458333333334, | |
| "step": 306 | |
| }, | |
| { | |
| "completion_length": 167.90625, | |
| "epoch": 0.32853333333333334, | |
| "grad_norm": 0.9405082061021316, | |
| "kl": 2.02587890625, | |
| "learning_rate": 4.994034993130455e-07, | |
| "loss": 0.002, | |
| "reward": 1.4713541666666667, | |
| "reward_std": 0.2983833607286215, | |
| "rewards/equation_reward_func": 0.5598958333333334, | |
| "rewards/format_reward_func": 0.9114583333333334, | |
| "step": 308 | |
| }, | |
| { | |
| "completion_length": 175.98307291666666, | |
| "epoch": 0.33066666666666666, | |
| "grad_norm": 1.334779202207167, | |
| "kl": 2.4913736979166665, | |
| "learning_rate": 4.993847207461362e-07, | |
| "loss": 0.0025, | |
| "reward": 1.4322916666666667, | |
| "reward_std": 0.3716484221319358, | |
| "rewards/equation_reward_func": 0.54296875, | |
| "rewards/format_reward_func": 0.8893229166666666, | |
| "step": 310 | |
| }, | |
| { | |
| "completion_length": 185.77083333333334, | |
| "epoch": 0.3328, | |
| "grad_norm": 8.16460336647939, | |
| "kl": 5.974527994791667, | |
| "learning_rate": 4.993656515203662e-07, | |
| "loss": 0.006, | |
| "reward": 1.41796875, | |
| "reward_std": 0.34235416414837044, | |
| "rewards/equation_reward_func": 0.5286458333333334, | |
| "rewards/format_reward_func": 0.8893229166666666, | |
| "step": 312 | |
| }, | |
| { | |
| "completion_length": 179.86979166666666, | |
| "epoch": 0.33493333333333336, | |
| "grad_norm": 1.3677683322980885, | |
| "kl": 1.9765625, | |
| "learning_rate": 4.993462916579606e-07, | |
| "loss": 0.002, | |
| "reward": 1.4322916666666667, | |
| "reward_std": 0.32863991893827915, | |
| "rewards/equation_reward_func": 0.5325520833333334, | |
| "rewards/format_reward_func": 0.8997395833333334, | |
| "step": 314 | |
| }, | |
| { | |
| "completion_length": 186.25, | |
| "epoch": 0.3370666666666667, | |
| "grad_norm": 2.36642776700962, | |
| "kl": 2.8055013020833335, | |
| "learning_rate": 4.993266411814837e-07, | |
| "loss": 0.0028, | |
| "reward": 1.4466145833333333, | |
| "reward_std": 0.3383240445206563, | |
| "rewards/equation_reward_func": 0.546875, | |
| "rewards/format_reward_func": 0.8997395833333334, | |
| "step": 316 | |
| }, | |
| { | |
| "completion_length": 174.16927083333334, | |
| "epoch": 0.3392, | |
| "grad_norm": 2.422619188168394, | |
| "kl": 6.440755208333333, | |
| "learning_rate": 4.993067001138379e-07, | |
| "loss": 0.0064, | |
| "reward": 1.46875, | |
| "reward_std": 0.32740093643466633, | |
| "rewards/equation_reward_func": 0.5638020833333334, | |
| "rewards/format_reward_func": 0.9049479166666666, | |
| "step": 318 | |
| }, | |
| { | |
| "completion_length": 177.12630208333334, | |
| "epoch": 0.3413333333333333, | |
| "grad_norm": 27.361091060409933, | |
| "kl": 12.603841145833334, | |
| "learning_rate": 4.992864684782648e-07, | |
| "loss": 0.0126, | |
| "reward": 1.4947916666666667, | |
| "reward_std": 0.2787187360227108, | |
| "rewards/equation_reward_func": 0.578125, | |
| "rewards/format_reward_func": 0.9166666666666666, | |
| "step": 320 | |
| }, | |
| { | |
| "completion_length": 181.08984375, | |
| "epoch": 0.34346666666666664, | |
| "grad_norm": 3.079707993595026, | |
| "kl": 7.2373046875, | |
| "learning_rate": 4.992659462983445e-07, | |
| "loss": 0.0072, | |
| "reward": 1.4466145833333333, | |
| "reward_std": 0.2937923073768616, | |
| "rewards/equation_reward_func": 0.5364583333333334, | |
| "rewards/format_reward_func": 0.91015625, | |
| "step": 322 | |
| }, | |
| { | |
| "completion_length": 190.73046875, | |
| "epoch": 0.3456, | |
| "grad_norm": 3.1740226002247693, | |
| "kl": 18.130859375, | |
| "learning_rate": 4.992451335979955e-07, | |
| "loss": 0.0181, | |
| "reward": 1.4153645833333333, | |
| "reward_std": 0.3466429685552915, | |
| "rewards/equation_reward_func": 0.546875, | |
| "rewards/format_reward_func": 0.8684895833333334, | |
| "step": 324 | |
| }, | |
| { | |
| "completion_length": 194.1640625, | |
| "epoch": 0.34773333333333334, | |
| "grad_norm": 2.476111508976118, | |
| "kl": 9.517740885416666, | |
| "learning_rate": 4.992240304014751e-07, | |
| "loss": 0.0095, | |
| "reward": 1.3828125, | |
| "reward_std": 0.318850784872969, | |
| "rewards/equation_reward_func": 0.5078125, | |
| "rewards/format_reward_func": 0.875, | |
| "step": 326 | |
| }, | |
| { | |
| "completion_length": 196.67838541666666, | |
| "epoch": 0.34986666666666666, | |
| "grad_norm": 2.7671878066071685, | |
| "kl": 6.502604166666667, | |
| "learning_rate": 4.992026367333793e-07, | |
| "loss": 0.0065, | |
| "reward": 1.3333333333333333, | |
| "reward_std": 0.3232365877677997, | |
| "rewards/equation_reward_func": 0.4661458333333333, | |
| "rewards/format_reward_func": 0.8671875, | |
| "step": 328 | |
| }, | |
| { | |
| "completion_length": 209.34375, | |
| "epoch": 0.352, | |
| "grad_norm": 34.65839245150725, | |
| "kl": 15.095377604166666, | |
| "learning_rate": 4.991809526186423e-07, | |
| "loss": 0.0151, | |
| "reward": 1.4036458333333333, | |
| "reward_std": 0.3847830345233281, | |
| "rewards/equation_reward_func": 0.5546875, | |
| "rewards/format_reward_func": 0.8489583333333334, | |
| "step": 330 | |
| }, | |
| { | |
| "completion_length": 223.88802083333334, | |
| "epoch": 0.35413333333333336, | |
| "grad_norm": 2.7092227251507883, | |
| "kl": 8.806640625, | |
| "learning_rate": 4.991589780825373e-07, | |
| "loss": 0.0088, | |
| "reward": 1.3919270833333333, | |
| "reward_std": 0.35144259097675484, | |
| "rewards/equation_reward_func": 0.5403645833333334, | |
| "rewards/format_reward_func": 0.8515625, | |
| "step": 332 | |
| }, | |
| { | |
| "completion_length": 217.796875, | |
| "epoch": 0.3562666666666667, | |
| "grad_norm": 24.649025619210704, | |
| "kl": 20.08837890625, | |
| "learning_rate": 4.991367131506753e-07, | |
| "loss": 0.0201, | |
| "reward": 1.3854166666666667, | |
| "reward_std": 0.3253343341251214, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.8645833333333334, | |
| "step": 334 | |
| }, | |
| { | |
| "completion_length": 221.26041666666666, | |
| "epoch": 0.3584, | |
| "grad_norm": 2.4750640595456246, | |
| "kl": 4.589029947916667, | |
| "learning_rate": 4.991141578490066e-07, | |
| "loss": 0.0046, | |
| "reward": 1.3697916666666667, | |
| "reward_std": 0.3542692357053359, | |
| "rewards/equation_reward_func": 0.5078125, | |
| "rewards/format_reward_func": 0.8619791666666666, | |
| "step": 336 | |
| }, | |
| { | |
| "completion_length": 200.51302083333334, | |
| "epoch": 0.3605333333333333, | |
| "grad_norm": 1.3895199332178516, | |
| "kl": 2.9763997395833335, | |
| "learning_rate": 4.990913122038193e-07, | |
| "loss": 0.003, | |
| "reward": 1.4270833333333333, | |
| "reward_std": 0.30102448041240376, | |
| "rewards/equation_reward_func": 0.5390625, | |
| "rewards/format_reward_func": 0.8880208333333334, | |
| "step": 338 | |
| }, | |
| { | |
| "completion_length": 207.65494791666666, | |
| "epoch": 0.3626666666666667, | |
| "grad_norm": 2.30390121060217, | |
| "kl": 8.023274739583334, | |
| "learning_rate": 4.9906817624174e-07, | |
| "loss": 0.008, | |
| "reward": 1.421875, | |
| "reward_std": 0.3164581290135781, | |
| "rewards/equation_reward_func": 0.5403645833333334, | |
| "rewards/format_reward_func": 0.8815104166666666, | |
| "step": 340 | |
| }, | |
| { | |
| "completion_length": 208.8984375, | |
| "epoch": 0.3648, | |
| "grad_norm": 8.4846885644004, | |
| "kl": 9.577799479166666, | |
| "learning_rate": 4.990447499897339e-07, | |
| "loss": 0.0096, | |
| "reward": 1.3958333333333333, | |
| "reward_std": 0.356906708329916, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.875, | |
| "step": 342 | |
| }, | |
| { | |
| "completion_length": 191.11848958333334, | |
| "epoch": 0.36693333333333333, | |
| "grad_norm": 2.192986756128093, | |
| "kl": 3.1759440104166665, | |
| "learning_rate": 4.990210334751042e-07, | |
| "loss": 0.0032, | |
| "reward": 1.4375, | |
| "reward_std": 0.3219584555675586, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.9166666666666666, | |
| "step": 344 | |
| }, | |
| { | |
| "completion_length": 224.04036458333334, | |
| "epoch": 0.36906666666666665, | |
| "grad_norm": 2.0284306419082787, | |
| "kl": 6.519205729166667, | |
| "learning_rate": 4.989970267254928e-07, | |
| "loss": 0.0065, | |
| "reward": 1.453125, | |
| "reward_std": 0.32661245949566364, | |
| "rewards/equation_reward_func": 0.5651041666666666, | |
| "rewards/format_reward_func": 0.8880208333333334, | |
| "step": 346 | |
| }, | |
| { | |
| "completion_length": 209.0625, | |
| "epoch": 0.3712, | |
| "grad_norm": 1.8087618251157778, | |
| "kl": 6.83349609375, | |
| "learning_rate": 4.989727297688796e-07, | |
| "loss": 0.0068, | |
| "reward": 1.4713541666666667, | |
| "reward_std": 0.3229844719171524, | |
| "rewards/equation_reward_func": 0.5729166666666666, | |
| "rewards/format_reward_func": 0.8984375, | |
| "step": 348 | |
| }, | |
| { | |
| "completion_length": 213.18880208333334, | |
| "epoch": 0.37333333333333335, | |
| "grad_norm": 5.753461021884828, | |
| "kl": 314.1551106770833, | |
| "learning_rate": 4.989481426335828e-07, | |
| "loss": 0.3138, | |
| "reward": 1.4088541666666667, | |
| "reward_std": 0.2891847702364127, | |
| "rewards/equation_reward_func": 0.5091145833333334, | |
| "rewards/format_reward_func": 0.8997395833333334, | |
| "step": 350 | |
| }, | |
| { | |
| "completion_length": 224.02734375, | |
| "epoch": 0.37546666666666667, | |
| "grad_norm": 6.130407698426027, | |
| "kl": 17.840983072916668, | |
| "learning_rate": 4.989232653482587e-07, | |
| "loss": 0.0178, | |
| "reward": 1.4049479166666667, | |
| "reward_std": 0.32193317636847496, | |
| "rewards/equation_reward_func": 0.5182291666666666, | |
| "rewards/format_reward_func": 0.88671875, | |
| "step": 352 | |
| }, | |
| { | |
| "completion_length": 222.06770833333334, | |
| "epoch": 0.3776, | |
| "grad_norm": 4.539040177416362, | |
| "kl": 11.097493489583334, | |
| "learning_rate": 4.98898097941902e-07, | |
| "loss": 0.0111, | |
| "reward": 1.4453125, | |
| "reward_std": 0.3116636195530494, | |
| "rewards/equation_reward_func": 0.5546875, | |
| "rewards/format_reward_func": 0.890625, | |
| "step": 354 | |
| }, | |
| { | |
| "completion_length": 208.3515625, | |
| "epoch": 0.3797333333333333, | |
| "grad_norm": 3.20012302106274, | |
| "kl": 10.180501302083334, | |
| "learning_rate": 4.988726404438453e-07, | |
| "loss": 0.0102, | |
| "reward": 1.4752604166666667, | |
| "reward_std": 0.3321237297107776, | |
| "rewards/equation_reward_func": 0.5611979166666666, | |
| "rewards/format_reward_func": 0.9140625, | |
| "step": 356 | |
| }, | |
| { | |
| "completion_length": 218.25390625, | |
| "epoch": 0.3818666666666667, | |
| "grad_norm": 11.577733347139032, | |
| "kl": 11.480143229166666, | |
| "learning_rate": 4.988468928837595e-07, | |
| "loss": 0.0115, | |
| "reward": 1.4205729166666667, | |
| "reward_std": 0.30202082730829716, | |
| "rewards/equation_reward_func": 0.5247395833333334, | |
| "rewards/format_reward_func": 0.8958333333333334, | |
| "step": 358 | |
| }, | |
| { | |
| "completion_length": 240.76953125, | |
| "epoch": 0.384, | |
| "grad_norm": 16.915284710100376, | |
| "kl": 13.41015625, | |
| "learning_rate": 4.988208552916535e-07, | |
| "loss": 0.0134, | |
| "reward": 1.4127604166666667, | |
| "reward_std": 0.3319027305891116, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.8919270833333334, | |
| "step": 360 | |
| }, | |
| { | |
| "completion_length": 233.05078125, | |
| "epoch": 0.38613333333333333, | |
| "grad_norm": 9.002107586123866, | |
| "kl": 81.13118489583333, | |
| "learning_rate": 4.987945276978741e-07, | |
| "loss": 0.0813, | |
| "reward": 1.3671875, | |
| "reward_std": 0.34994419167439145, | |
| "rewards/equation_reward_func": 0.4830729166666667, | |
| "rewards/format_reward_func": 0.8841145833333334, | |
| "step": 362 | |
| }, | |
| { | |
| "completion_length": 219.76302083333334, | |
| "epoch": 0.38826666666666665, | |
| "grad_norm": 3.6005867170986994, | |
| "kl": 23.193196614583332, | |
| "learning_rate": 4.987679101331063e-07, | |
| "loss": 0.0232, | |
| "reward": 1.390625, | |
| "reward_std": 0.307373338068525, | |
| "rewards/equation_reward_func": 0.48828125, | |
| "rewards/format_reward_func": 0.90234375, | |
| "step": 364 | |
| }, | |
| { | |
| "completion_length": 227.37239583333334, | |
| "epoch": 0.3904, | |
| "grad_norm": 5.849814843191044, | |
| "kl": 17.222819010416668, | |
| "learning_rate": 4.987410026283729e-07, | |
| "loss": 0.0172, | |
| "reward": 1.4205729166666667, | |
| "reward_std": 0.34443656851847965, | |
| "rewards/equation_reward_func": 0.5247395833333334, | |
| "rewards/format_reward_func": 0.8958333333333334, | |
| "step": 366 | |
| }, | |
| { | |
| "completion_length": 215.58333333333334, | |
| "epoch": 0.39253333333333335, | |
| "grad_norm": 5.439590250250015, | |
| "kl": 27.386067708333332, | |
| "learning_rate": 4.98713805215035e-07, | |
| "loss": 0.0274, | |
| "reward": 1.40625, | |
| "reward_std": 0.3085811994969845, | |
| "rewards/equation_reward_func": 0.48828125, | |
| "rewards/format_reward_func": 0.91796875, | |
| "step": 368 | |
| }, | |
| { | |
| "completion_length": 227.37369791666666, | |
| "epoch": 0.39466666666666667, | |
| "grad_norm": 4.5703703773323445, | |
| "kl": 13.2587890625, | |
| "learning_rate": 4.986863179247908e-07, | |
| "loss": 0.0132, | |
| "reward": 1.4153645833333333, | |
| "reward_std": 0.3414020612835884, | |
| "rewards/equation_reward_func": 0.515625, | |
| "rewards/format_reward_func": 0.8997395833333334, | |
| "step": 370 | |
| }, | |
| { | |
| "completion_length": 225.4375, | |
| "epoch": 0.3968, | |
| "grad_norm": 11.057053175988223, | |
| "kl": 33.43408203125, | |
| "learning_rate": 4.986585407896771e-07, | |
| "loss": 0.0334, | |
| "reward": 1.4986979166666667, | |
| "reward_std": 0.3032235906769832, | |
| "rewards/equation_reward_func": 0.5768229166666666, | |
| "rewards/format_reward_func": 0.921875, | |
| "step": 372 | |
| }, | |
| { | |
| "completion_length": 227.80859375, | |
| "epoch": 0.3989333333333333, | |
| "grad_norm": 6.12533260234951, | |
| "kl": 19.458984375, | |
| "learning_rate": 4.986304738420683e-07, | |
| "loss": 0.0195, | |
| "reward": 1.4166666666666667, | |
| "reward_std": 0.3346430454403162, | |
| "rewards/equation_reward_func": 0.51171875, | |
| "rewards/format_reward_func": 0.9049479166666666, | |
| "step": 374 | |
| }, | |
| { | |
| "completion_length": 214.39192708333334, | |
| "epoch": 0.4010666666666667, | |
| "grad_norm": 2.582252220874005, | |
| "kl": 9.755452473958334, | |
| "learning_rate": 4.986021171146764e-07, | |
| "loss": 0.0098, | |
| "reward": 1.4296875, | |
| "reward_std": 0.32910356236000854, | |
| "rewards/equation_reward_func": 0.5013020833333334, | |
| "rewards/format_reward_func": 0.9283854166666666, | |
| "step": 376 | |
| }, | |
| { | |
| "completion_length": 240.28255208333334, | |
| "epoch": 0.4032, | |
| "grad_norm": 5.144526058113899, | |
| "kl": 16.131184895833332, | |
| "learning_rate": 4.985734706405516e-07, | |
| "loss": 0.0161, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.336049551765124, | |
| "rewards/equation_reward_func": 0.5091145833333334, | |
| "rewards/format_reward_func": 0.87890625, | |
| "step": 378 | |
| }, | |
| { | |
| "completion_length": 231.28385416666666, | |
| "epoch": 0.4053333333333333, | |
| "grad_norm": 21.575872385917346, | |
| "kl": 12.249267578125, | |
| "learning_rate": 4.98544534453081e-07, | |
| "loss": 0.0123, | |
| "reward": 1.4244791666666667, | |
| "reward_std": 0.33524017098049325, | |
| "rewards/equation_reward_func": 0.5169270833333334, | |
| "rewards/format_reward_func": 0.9075520833333334, | |
| "step": 380 | |
| }, | |
| { | |
| "completion_length": 245.22526041666666, | |
| "epoch": 0.40746666666666664, | |
| "grad_norm": 13.089721859951958, | |
| "kl": 14.482096354166666, | |
| "learning_rate": 4.985153085859902e-07, | |
| "loss": 0.0145, | |
| "reward": 1.3723958333333333, | |
| "reward_std": 0.3239475066463153, | |
| "rewards/equation_reward_func": 0.4739583333333333, | |
| "rewards/format_reward_func": 0.8984375, | |
| "step": 382 | |
| }, | |
| { | |
| "completion_length": 250.19401041666666, | |
| "epoch": 0.4096, | |
| "grad_norm": 4.495888458979003, | |
| "kl": 37.082194010416664, | |
| "learning_rate": 4.984857930733419e-07, | |
| "loss": 0.037, | |
| "reward": 1.41015625, | |
| "reward_std": 0.3523635808378458, | |
| "rewards/equation_reward_func": 0.51953125, | |
| "rewards/format_reward_func": 0.890625, | |
| "step": 384 | |
| }, | |
| { | |
| "completion_length": 253.52213541666666, | |
| "epoch": 0.41173333333333334, | |
| "grad_norm": 3.0300438694313114, | |
| "kl": 12.853841145833334, | |
| "learning_rate": 4.984559879495366e-07, | |
| "loss": 0.0129, | |
| "reward": 1.4361979166666667, | |
| "reward_std": 0.3405926829824845, | |
| "rewards/equation_reward_func": 0.5416666666666666, | |
| "rewards/format_reward_func": 0.89453125, | |
| "step": 386 | |
| }, | |
| { | |
| "completion_length": 267.8216145833333, | |
| "epoch": 0.41386666666666666, | |
| "grad_norm": 5.483653492210386, | |
| "kl": 17.23828125, | |
| "learning_rate": 4.984258932493123e-07, | |
| "loss": 0.0172, | |
| "reward": 1.3763020833333333, | |
| "reward_std": 0.3612657766789198, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.85546875, | |
| "step": 388 | |
| }, | |
| { | |
| "completion_length": 274.8450520833333, | |
| "epoch": 0.416, | |
| "grad_norm": 4.781253708366664, | |
| "kl": 18.211588541666668, | |
| "learning_rate": 4.983955090077444e-07, | |
| "loss": 0.0182, | |
| "reward": 1.4244791666666667, | |
| "reward_std": 0.3585283973564704, | |
| "rewards/equation_reward_func": 0.55078125, | |
| "rewards/format_reward_func": 0.8736979166666666, | |
| "step": 390 | |
| }, | |
| { | |
| "completion_length": 271.94921875, | |
| "epoch": 0.41813333333333336, | |
| "grad_norm": 2.115443080453162, | |
| "kl": 19.173177083333332, | |
| "learning_rate": 4.983648352602459e-07, | |
| "loss": 0.0192, | |
| "reward": 1.3854166666666667, | |
| "reward_std": 0.3742331402997176, | |
| "rewards/equation_reward_func": 0.5325520833333334, | |
| "rewards/format_reward_func": 0.8528645833333334, | |
| "step": 392 | |
| }, | |
| { | |
| "completion_length": 251.109375, | |
| "epoch": 0.4202666666666667, | |
| "grad_norm": 6.54014585741137, | |
| "kl": 19.649088541666668, | |
| "learning_rate": 4.983338720425672e-07, | |
| "loss": 0.0196, | |
| "reward": 1.4075520833333333, | |
| "reward_std": 0.3394419389466445, | |
| "rewards/equation_reward_func": 0.5169270833333334, | |
| "rewards/format_reward_func": 0.890625, | |
| "step": 394 | |
| }, | |
| { | |
| "completion_length": 257.5442708333333, | |
| "epoch": 0.4224, | |
| "grad_norm": 5.40917708152935, | |
| "kl": 13.996419270833334, | |
| "learning_rate": 4.98302619390796e-07, | |
| "loss": 0.014, | |
| "reward": 1.4088541666666667, | |
| "reward_std": 0.3521092676868041, | |
| "rewards/equation_reward_func": 0.5299479166666666, | |
| "rewards/format_reward_func": 0.87890625, | |
| "step": 396 | |
| }, | |
| { | |
| "completion_length": 269.7682291666667, | |
| "epoch": 0.4245333333333333, | |
| "grad_norm": 2.3952158495418847, | |
| "kl": 7.937662760416667, | |
| "learning_rate": 4.982710773413576e-07, | |
| "loss": 0.0079, | |
| "reward": 1.3515625, | |
| "reward_std": 0.38726684637367725, | |
| "rewards/equation_reward_func": 0.4934895833333333, | |
| "rewards/format_reward_func": 0.8580729166666666, | |
| "step": 398 | |
| }, | |
| { | |
| "completion_length": 270.2291666666667, | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 8.89119378322214, | |
| "kl": 16.30224609375, | |
| "learning_rate": 4.98239245931014e-07, | |
| "loss": 0.0163, | |
| "reward": 1.40625, | |
| "reward_std": 0.3659625742584467, | |
| "rewards/equation_reward_func": 0.53515625, | |
| "rewards/format_reward_func": 0.87109375, | |
| "step": 400 | |
| }, | |
| { | |
| "completion_length": 279.5716145833333, | |
| "epoch": 0.4288, | |
| "grad_norm": 2.798514797768392, | |
| "kl": 15.98291015625, | |
| "learning_rate": 4.982071251968652e-07, | |
| "loss": 0.016, | |
| "reward": 1.37890625, | |
| "reward_std": 0.39383378997445107, | |
| "rewards/equation_reward_func": 0.5130208333333334, | |
| "rewards/format_reward_func": 0.8658854166666666, | |
| "step": 402 | |
| }, | |
| { | |
| "completion_length": 293.7565104166667, | |
| "epoch": 0.43093333333333333, | |
| "grad_norm": 11.011712863068214, | |
| "kl": 19.701171875, | |
| "learning_rate": 4.981747151763478e-07, | |
| "loss": 0.0197, | |
| "reward": 1.3763020833333333, | |
| "reward_std": 0.36934428413709003, | |
| "rewards/equation_reward_func": 0.54296875, | |
| "rewards/format_reward_func": 0.8333333333333334, | |
| "step": 404 | |
| }, | |
| { | |
| "completion_length": 274.7083333333333, | |
| "epoch": 0.43306666666666666, | |
| "grad_norm": 2.1935041699430187, | |
| "kl": 10.062174479166666, | |
| "learning_rate": 4.981420159072359e-07, | |
| "loss": 0.0101, | |
| "reward": 1.38671875, | |
| "reward_std": 0.37631774072845775, | |
| "rewards/equation_reward_func": 0.5260416666666666, | |
| "rewards/format_reward_func": 0.8606770833333334, | |
| "step": 406 | |
| }, | |
| { | |
| "completion_length": 297.99609375, | |
| "epoch": 0.4352, | |
| "grad_norm": 2.3875864001669416, | |
| "kl": 10.682942708333334, | |
| "learning_rate": 4.981090274276405e-07, | |
| "loss": 0.0107, | |
| "reward": 1.3736979166666667, | |
| "reward_std": 0.40696768400569755, | |
| "rewards/equation_reward_func": 0.5325520833333334, | |
| "rewards/format_reward_func": 0.8411458333333334, | |
| "step": 408 | |
| }, | |
| { | |
| "completion_length": 278.3606770833333, | |
| "epoch": 0.43733333333333335, | |
| "grad_norm": 1.8235931437006083, | |
| "kl": 9.930989583333334, | |
| "learning_rate": 4.9807574977601e-07, | |
| "loss": 0.0099, | |
| "reward": 1.359375, | |
| "reward_std": 0.43410707886020344, | |
| "rewards/equation_reward_func": 0.5130208333333334, | |
| "rewards/format_reward_func": 0.8463541666666666, | |
| "step": 410 | |
| }, | |
| { | |
| "completion_length": 270.5651041666667, | |
| "epoch": 0.43946666666666667, | |
| "grad_norm": 2.157587952911447, | |
| "kl": 9.784830729166666, | |
| "learning_rate": 4.980421829911295e-07, | |
| "loss": 0.0098, | |
| "reward": 1.4127604166666667, | |
| "reward_std": 0.37187380343675613, | |
| "rewards/equation_reward_func": 0.5377604166666666, | |
| "rewards/format_reward_func": 0.875, | |
| "step": 412 | |
| }, | |
| { | |
| "completion_length": 275.40625, | |
| "epoch": 0.4416, | |
| "grad_norm": 2.982049055511251, | |
| "kl": 26.8603515625, | |
| "learning_rate": 4.980083271121214e-07, | |
| "loss": 0.0269, | |
| "reward": 1.390625, | |
| "reward_std": 0.39479173099001247, | |
| "rewards/equation_reward_func": 0.5325520833333334, | |
| "rewards/format_reward_func": 0.8580729166666666, | |
| "step": 414 | |
| }, | |
| { | |
| "completion_length": 278.640625, | |
| "epoch": 0.4437333333333333, | |
| "grad_norm": 1.5649001182944402, | |
| "kl": 9.96630859375, | |
| "learning_rate": 4.979741821784445e-07, | |
| "loss": 0.01, | |
| "reward": 1.4466145833333333, | |
| "reward_std": 0.36725894299646217, | |
| "rewards/equation_reward_func": 0.5716145833333334, | |
| "rewards/format_reward_func": 0.875, | |
| "step": 416 | |
| }, | |
| { | |
| "completion_length": 285.0390625, | |
| "epoch": 0.4458666666666667, | |
| "grad_norm": 1.6037704063791247, | |
| "kl": 7.15673828125, | |
| "learning_rate": 4.979397482298952e-07, | |
| "loss": 0.0072, | |
| "reward": 1.3841145833333333, | |
| "reward_std": 0.4006949222336213, | |
| "rewards/equation_reward_func": 0.52734375, | |
| "rewards/format_reward_func": 0.8567708333333334, | |
| "step": 418 | |
| }, | |
| { | |
| "completion_length": 272.359375, | |
| "epoch": 0.448, | |
| "grad_norm": 2.0990396585920186, | |
| "kl": 7.476236979166667, | |
| "learning_rate": 4.979050253066063e-07, | |
| "loss": 0.0075, | |
| "reward": 1.3763020833333333, | |
| "reward_std": 0.4051750873525937, | |
| "rewards/equation_reward_func": 0.51171875, | |
| "rewards/format_reward_func": 0.8645833333333334, | |
| "step": 420 | |
| }, | |
| { | |
| "completion_length": 279.8854166666667, | |
| "epoch": 0.45013333333333333, | |
| "grad_norm": 1.7898522410815005, | |
| "kl": 9.139322916666666, | |
| "learning_rate": 4.978700134490473e-07, | |
| "loss": 0.0091, | |
| "reward": 1.4192708333333333, | |
| "reward_std": 0.4089436090240876, | |
| "rewards/equation_reward_func": 0.5703125, | |
| "rewards/format_reward_func": 0.8489583333333334, | |
| "step": 422 | |
| }, | |
| { | |
| "completion_length": 279.8294270833333, | |
| "epoch": 0.45226666666666665, | |
| "grad_norm": 1.812943775378201, | |
| "kl": 7.272135416666667, | |
| "learning_rate": 4.97834712698025e-07, | |
| "loss": 0.0073, | |
| "reward": 1.3411458333333333, | |
| "reward_std": 0.40381430586179096, | |
| "rewards/equation_reward_func": 0.4830729166666667, | |
| "rewards/format_reward_func": 0.8580729166666666, | |
| "step": 424 | |
| }, | |
| { | |
| "completion_length": 264.0546875, | |
| "epoch": 0.4544, | |
| "grad_norm": 4.035197197766136, | |
| "kl": 6.265218098958333, | |
| "learning_rate": 4.977991230946823e-07, | |
| "loss": 0.0063, | |
| "reward": 1.4596354166666667, | |
| "reward_std": 0.3382102530449629, | |
| "rewards/equation_reward_func": 0.5729166666666666, | |
| "rewards/format_reward_func": 0.88671875, | |
| "step": 426 | |
| }, | |
| { | |
| "completion_length": 287.6627604166667, | |
| "epoch": 0.45653333333333335, | |
| "grad_norm": 6.254816053848744, | |
| "kl": 15.054850260416666, | |
| "learning_rate": 4.977632446804992e-07, | |
| "loss": 0.015, | |
| "reward": 1.3671875, | |
| "reward_std": 0.3308339286595583, | |
| "rewards/equation_reward_func": 0.4986979166666667, | |
| "rewards/format_reward_func": 0.8684895833333334, | |
| "step": 428 | |
| }, | |
| { | |
| "completion_length": 302.7721354166667, | |
| "epoch": 0.45866666666666667, | |
| "grad_norm": 1.81764831959685, | |
| "kl": 14.795084635416666, | |
| "learning_rate": 4.97727077497292e-07, | |
| "loss": 0.0148, | |
| "reward": 1.3216145833333333, | |
| "reward_std": 0.3970574662089348, | |
| "rewards/equation_reward_func": 0.4817708333333333, | |
| "rewards/format_reward_func": 0.83984375, | |
| "step": 430 | |
| }, | |
| { | |
| "completion_length": 299.7317708333333, | |
| "epoch": 0.4608, | |
| "grad_norm": 2.332702425042101, | |
| "kl": 8.173990885416666, | |
| "learning_rate": 4.976906215872137e-07, | |
| "loss": 0.0082, | |
| "reward": 1.36328125, | |
| "reward_std": 0.3915802159657081, | |
| "rewards/equation_reward_func": 0.5143229166666666, | |
| "rewards/format_reward_func": 0.8489583333333334, | |
| "step": 432 | |
| }, | |
| { | |
| "completion_length": 279.55078125, | |
| "epoch": 0.4629333333333333, | |
| "grad_norm": 1.4545131931563136, | |
| "kl": 6.1376953125, | |
| "learning_rate": 4.976538769927538e-07, | |
| "loss": 0.0061, | |
| "reward": 1.40234375, | |
| "reward_std": 0.3582718962182601, | |
| "rewards/equation_reward_func": 0.5247395833333334, | |
| "rewards/format_reward_func": 0.8776041666666666, | |
| "step": 434 | |
| }, | |
| { | |
| "completion_length": 288.0221354166667, | |
| "epoch": 0.4650666666666667, | |
| "grad_norm": 1.7369819883483273, | |
| "kl": 6.397135416666667, | |
| "learning_rate": 4.976168437567384e-07, | |
| "loss": 0.0064, | |
| "reward": 1.3736979166666667, | |
| "reward_std": 0.3829425399502118, | |
| "rewards/equation_reward_func": 0.5078125, | |
| "rewards/format_reward_func": 0.8658854166666666, | |
| "step": 436 | |
| }, | |
| { | |
| "completion_length": 270.57421875, | |
| "epoch": 0.4672, | |
| "grad_norm": 1.4315278013124293, | |
| "kl": 6.185709635416667, | |
| "learning_rate": 4.975795219223298e-07, | |
| "loss": 0.0062, | |
| "reward": 1.4375, | |
| "reward_std": 0.3662263844162226, | |
| "rewards/equation_reward_func": 0.5638020833333334, | |
| "rewards/format_reward_func": 0.8736979166666666, | |
| "step": 438 | |
| }, | |
| { | |
| "completion_length": 265.63671875, | |
| "epoch": 0.4693333333333333, | |
| "grad_norm": 1.0951113835238062, | |
| "kl": 4.806315104166667, | |
| "learning_rate": 4.975419115330267e-07, | |
| "loss": 0.0048, | |
| "reward": 1.421875, | |
| "reward_std": 0.3494623110940059, | |
| "rewards/equation_reward_func": 0.5299479166666666, | |
| "rewards/format_reward_func": 0.8919270833333334, | |
| "step": 440 | |
| }, | |
| { | |
| "completion_length": 279.9739583333333, | |
| "epoch": 0.47146666666666665, | |
| "grad_norm": 1.6944922087080612, | |
| "kl": 4.982584635416667, | |
| "learning_rate": 4.975040126326641e-07, | |
| "loss": 0.005, | |
| "reward": 1.421875, | |
| "reward_std": 0.3550127310057481, | |
| "rewards/equation_reward_func": 0.5364583333333334, | |
| "rewards/format_reward_func": 0.8854166666666666, | |
| "step": 442 | |
| }, | |
| { | |
| "completion_length": 274.1197916666667, | |
| "epoch": 0.4736, | |
| "grad_norm": 2.2948038824016592, | |
| "kl": 4.573486328125, | |
| "learning_rate": 4.974658252654134e-07, | |
| "loss": 0.0046, | |
| "reward": 1.421875, | |
| "reward_std": 0.34279981814324856, | |
| "rewards/equation_reward_func": 0.5442708333333334, | |
| "rewards/format_reward_func": 0.8776041666666666, | |
| "step": 444 | |
| }, | |
| { | |
| "completion_length": 289.3958333333333, | |
| "epoch": 0.47573333333333334, | |
| "grad_norm": 3.2614112606768493, | |
| "kl": 5.152018229166667, | |
| "learning_rate": 4.974273494757822e-07, | |
| "loss": 0.0051, | |
| "reward": 1.3502604166666667, | |
| "reward_std": 0.39504312972227734, | |
| "rewards/equation_reward_func": 0.4856770833333333, | |
| "rewards/format_reward_func": 0.8645833333333334, | |
| "step": 446 | |
| }, | |
| { | |
| "completion_length": 275.15625, | |
| "epoch": 0.47786666666666666, | |
| "grad_norm": 2.30823975684093, | |
| "kl": 4.50341796875, | |
| "learning_rate": 4.973885853086141e-07, | |
| "loss": 0.0045, | |
| "reward": 1.421875, | |
| "reward_std": 0.3606144456813733, | |
| "rewards/equation_reward_func": 0.5377604166666666, | |
| "rewards/format_reward_func": 0.8841145833333334, | |
| "step": 448 | |
| }, | |
| { | |
| "completion_length": 264.8502604166667, | |
| "epoch": 0.48, | |
| "grad_norm": 4.984173028626798, | |
| "kl": 2.70166015625, | |
| "learning_rate": 4.973495328090889e-07, | |
| "loss": 0.0027, | |
| "reward": 1.39453125, | |
| "reward_std": 0.3674400815119346, | |
| "rewards/equation_reward_func": 0.4973958333333333, | |
| "rewards/format_reward_func": 0.8971354166666666, | |
| "step": 450 | |
| }, | |
| { | |
| "completion_length": 278.6901041666667, | |
| "epoch": 0.48213333333333336, | |
| "grad_norm": 27.727907697984055, | |
| "kl": 8.665690104166666, | |
| "learning_rate": 4.973101920227225e-07, | |
| "loss": 0.0087, | |
| "reward": 1.4322916666666667, | |
| "reward_std": 0.3655366177360217, | |
| "rewards/equation_reward_func": 0.5546875, | |
| "rewards/format_reward_func": 0.8776041666666666, | |
| "step": 452 | |
| }, | |
| { | |
| "completion_length": 289.7864583333333, | |
| "epoch": 0.4842666666666667, | |
| "grad_norm": 28.807444819366612, | |
| "kl": 4.748372395833333, | |
| "learning_rate": 4.972705629953667e-07, | |
| "loss": 0.0047, | |
| "reward": 1.3828125, | |
| "reward_std": 0.38264980415503186, | |
| "rewards/equation_reward_func": 0.5247395833333334, | |
| "rewards/format_reward_func": 0.8580729166666666, | |
| "step": 454 | |
| }, | |
| { | |
| "completion_length": 313.0651041666667, | |
| "epoch": 0.4864, | |
| "grad_norm": 40.63520849370959, | |
| "kl": 16.195963541666668, | |
| "learning_rate": 4.97230645773209e-07, | |
| "loss": 0.0162, | |
| "reward": 1.3723958333333333, | |
| "reward_std": 0.4071923481921355, | |
| "rewards/equation_reward_func": 0.5364583333333334, | |
| "rewards/format_reward_func": 0.8359375, | |
| "step": 456 | |
| }, | |
| { | |
| "completion_length": 316.875, | |
| "epoch": 0.4885333333333333, | |
| "grad_norm": 429.51448931748007, | |
| "kl": 387.4375, | |
| "learning_rate": 4.971904404027736e-07, | |
| "loss": 0.3879, | |
| "reward": 1.3125, | |
| "reward_std": 0.40226507869859535, | |
| "rewards/equation_reward_func": 0.5026041666666666, | |
| "rewards/format_reward_func": 0.8098958333333334, | |
| "step": 458 | |
| }, | |
| { | |
| "completion_length": 316.0911458333333, | |
| "epoch": 0.49066666666666664, | |
| "grad_norm": 3210.950538756328, | |
| "kl": 2585.169921875, | |
| "learning_rate": 4.971499469309197e-07, | |
| "loss": 2.5861, | |
| "reward": 1.3697916666666667, | |
| "reward_std": 0.40234334704776603, | |
| "rewards/equation_reward_func": 0.5481770833333334, | |
| "rewards/format_reward_func": 0.8216145833333334, | |
| "step": 460 | |
| }, | |
| { | |
| "completion_length": 355.7369791666667, | |
| "epoch": 0.4928, | |
| "grad_norm": 806.024844682714, | |
| "kl": 1703.9166666666667, | |
| "learning_rate": 4.971091654048427e-07, | |
| "loss": 1.7024, | |
| "reward": 1.3515625, | |
| "reward_std": 0.45679817845424014, | |
| "rewards/equation_reward_func": 0.5755208333333334, | |
| "rewards/format_reward_func": 0.7760416666666666, | |
| "step": 462 | |
| }, | |
| { | |
| "completion_length": 325.80078125, | |
| "epoch": 0.49493333333333334, | |
| "grad_norm": 11.871406407001016, | |
| "kl": 257.4322916666667, | |
| "learning_rate": 4.970680958720733e-07, | |
| "loss": 0.2572, | |
| "reward": 1.3580729166666667, | |
| "reward_std": 0.40887040706972283, | |
| "rewards/equation_reward_func": 0.546875, | |
| "rewards/format_reward_func": 0.8111979166666666, | |
| "step": 464 | |
| }, | |
| { | |
| "completion_length": 331.2825520833333, | |
| "epoch": 0.49706666666666666, | |
| "grad_norm": 28.718559011797087, | |
| "kl": 55.2421875, | |
| "learning_rate": 4.970267383804787e-07, | |
| "loss": 0.0552, | |
| "reward": 1.3619791666666667, | |
| "reward_std": 0.3935707248747349, | |
| "rewards/equation_reward_func": 0.5546875, | |
| "rewards/format_reward_func": 0.8072916666666666, | |
| "step": 466 | |
| }, | |
| { | |
| "completion_length": 326.0598958333333, | |
| "epoch": 0.4992, | |
| "grad_norm": 30.392843187367756, | |
| "kl": 41.1484375, | |
| "learning_rate": 4.96985092978261e-07, | |
| "loss": 0.0411, | |
| "reward": 1.3932291666666667, | |
| "reward_std": 0.42481926331917447, | |
| "rewards/equation_reward_func": 0.5833333333333334, | |
| "rewards/format_reward_func": 0.8098958333333334, | |
| "step": 468 | |
| }, | |
| { | |
| "completion_length": 333.9518229166667, | |
| "epoch": 0.5013333333333333, | |
| "grad_norm": 13.297048511719058, | |
| "kl": 95.03385416666667, | |
| "learning_rate": 4.969431597139581e-07, | |
| "loss": 0.0951, | |
| "reward": 1.34765625, | |
| "reward_std": 0.3938751257956028, | |
| "rewards/equation_reward_func": 0.5325520833333334, | |
| "rewards/format_reward_func": 0.8151041666666666, | |
| "step": 470 | |
| }, | |
| { | |
| "completion_length": 322.2903645833333, | |
| "epoch": 0.5034666666666666, | |
| "grad_norm": 26.096962501911772, | |
| "kl": 196.27083333333334, | |
| "learning_rate": 4.969009386364433e-07, | |
| "loss": 0.1963, | |
| "reward": 1.3229166666666667, | |
| "reward_std": 0.4220035883287589, | |
| "rewards/equation_reward_func": 0.5143229166666666, | |
| "rewards/format_reward_func": 0.80859375, | |
| "step": 472 | |
| }, | |
| { | |
| "completion_length": 322.15625, | |
| "epoch": 0.5056, | |
| "grad_norm": 8.29223498157902, | |
| "kl": 100.21354166666667, | |
| "learning_rate": 4.968584297949254e-07, | |
| "loss": 0.1002, | |
| "reward": 1.3046875, | |
| "reward_std": 0.41216217416028184, | |
| "rewards/equation_reward_func": 0.4830729166666667, | |
| "rewards/format_reward_func": 0.8216145833333334, | |
| "step": 474 | |
| }, | |
| { | |
| "completion_length": 324.44921875, | |
| "epoch": 0.5077333333333334, | |
| "grad_norm": 22.084335726236922, | |
| "kl": 66.28125, | |
| "learning_rate": 4.968156332389489e-07, | |
| "loss": 0.0663, | |
| "reward": 1.3645833333333333, | |
| "reward_std": 0.40041095825533074, | |
| "rewards/equation_reward_func": 0.546875, | |
| "rewards/format_reward_func": 0.8177083333333334, | |
| "step": 476 | |
| }, | |
| { | |
| "completion_length": 350.0299479166667, | |
| "epoch": 0.5098666666666667, | |
| "grad_norm": 17.725390057472488, | |
| "kl": 88.6171875, | |
| "learning_rate": 4.967725490183929e-07, | |
| "loss": 0.0886, | |
| "reward": 1.2942708333333333, | |
| "reward_std": 0.45896178608139354, | |
| "rewards/equation_reward_func": 0.50390625, | |
| "rewards/format_reward_func": 0.7903645833333334, | |
| "step": 478 | |
| }, | |
| { | |
| "completion_length": 301.640625, | |
| "epoch": 0.512, | |
| "grad_norm": 8.901951716965623, | |
| "kl": 96.76041666666667, | |
| "learning_rate": 4.967291771834726e-07, | |
| "loss": 0.0966, | |
| "reward": 1.37890625, | |
| "reward_std": 0.3588225891192754, | |
| "rewards/equation_reward_func": 0.5299479166666666, | |
| "rewards/format_reward_func": 0.8489583333333334, | |
| "step": 480 | |
| }, | |
| { | |
| "completion_length": 309.7122395833333, | |
| "epoch": 0.5141333333333333, | |
| "grad_norm": 3.554444397105026, | |
| "kl": 67.1640625, | |
| "learning_rate": 4.96685517784738e-07, | |
| "loss": 0.0671, | |
| "reward": 1.3528645833333333, | |
| "reward_std": 0.3941338217506806, | |
| "rewards/equation_reward_func": 0.5247395833333334, | |
| "rewards/format_reward_func": 0.828125, | |
| "step": 482 | |
| }, | |
| { | |
| "completion_length": 293.3880208333333, | |
| "epoch": 0.5162666666666667, | |
| "grad_norm": 6.66351808504489, | |
| "kl": 74.107421875, | |
| "learning_rate": 4.966415708730742e-07, | |
| "loss": 0.074, | |
| "reward": 1.36328125, | |
| "reward_std": 0.3513679690659046, | |
| "rewards/equation_reward_func": 0.5104166666666666, | |
| "rewards/format_reward_func": 0.8528645833333334, | |
| "step": 484 | |
| }, | |
| { | |
| "completion_length": 308.1692708333333, | |
| "epoch": 0.5184, | |
| "grad_norm": 11.724473475370985, | |
| "kl": 71.26595052083333, | |
| "learning_rate": 4.965973364997015e-07, | |
| "loss": 0.0712, | |
| "reward": 1.33203125, | |
| "reward_std": 0.3609057031571865, | |
| "rewards/equation_reward_func": 0.4973958333333333, | |
| "rewards/format_reward_func": 0.8346354166666666, | |
| "step": 486 | |
| }, | |
| { | |
| "completion_length": 281.21875, | |
| "epoch": 0.5205333333333333, | |
| "grad_norm": 3.747669942108069, | |
| "kl": 54.625651041666664, | |
| "learning_rate": 4.965528147161752e-07, | |
| "loss": 0.0546, | |
| "reward": 1.3958333333333333, | |
| "reward_std": 0.40036962057153386, | |
| "rewards/equation_reward_func": 0.53125, | |
| "rewards/format_reward_func": 0.8645833333333334, | |
| "step": 488 | |
| }, | |
| { | |
| "completion_length": 316.15625, | |
| "epoch": 0.5226666666666666, | |
| "grad_norm": 21.01840501147267, | |
| "kl": 133.03125, | |
| "learning_rate": 4.965080055743858e-07, | |
| "loss": 0.1329, | |
| "reward": 1.31640625, | |
| "reward_std": 0.41048334787289303, | |
| "rewards/equation_reward_func": 0.4921875, | |
| "rewards/format_reward_func": 0.82421875, | |
| "step": 490 | |
| }, | |
| { | |
| "completion_length": 308.3307291666667, | |
| "epoch": 0.5248, | |
| "grad_norm": 16.769554963680534, | |
| "kl": 116.93229166666667, | |
| "learning_rate": 4.964629091265583e-07, | |
| "loss": 0.117, | |
| "reward": 1.41015625, | |
| "reward_std": 0.4211151997248332, | |
| "rewards/equation_reward_func": 0.5833333333333334, | |
| "rewards/format_reward_func": 0.8268229166666666, | |
| "step": 492 | |
| }, | |
| { | |
| "completion_length": 287.7122395833333, | |
| "epoch": 0.5269333333333334, | |
| "grad_norm": 6.289816637654126, | |
| "kl": 50.567708333333336, | |
| "learning_rate": 4.964175254252529e-07, | |
| "loss": 0.0506, | |
| "reward": 1.3815104166666667, | |
| "reward_std": 0.33032238980134326, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.8606770833333334, | |
| "step": 494 | |
| }, | |
| { | |
| "completion_length": 312.1197916666667, | |
| "epoch": 0.5290666666666667, | |
| "grad_norm": 11.1418765502845, | |
| "kl": 86.43229166666667, | |
| "learning_rate": 4.963718545233644e-07, | |
| "loss": 0.0864, | |
| "reward": 1.3828125, | |
| "reward_std": 0.38755665222803753, | |
| "rewards/equation_reward_func": 0.5455729166666666, | |
| "rewards/format_reward_func": 0.8372395833333334, | |
| "step": 496 | |
| }, | |
| { | |
| "completion_length": 304.5807291666667, | |
| "epoch": 0.5312, | |
| "grad_norm": 3.4906222889226757, | |
| "kl": 88.260009765625, | |
| "learning_rate": 4.963258964741226e-07, | |
| "loss": 0.0883, | |
| "reward": 1.37890625, | |
| "reward_std": 0.34810370455185574, | |
| "rewards/equation_reward_func": 0.5325520833333334, | |
| "rewards/format_reward_func": 0.8463541666666666, | |
| "step": 498 | |
| }, | |
| { | |
| "completion_length": 306.0729166666667, | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 4.59621225653894, | |
| "kl": 90.0390625, | |
| "learning_rate": 4.962796513310916e-07, | |
| "loss": 0.09, | |
| "reward": 1.38671875, | |
| "reward_std": 0.4165365646282832, | |
| "rewards/equation_reward_func": 0.5481770833333334, | |
| "rewards/format_reward_func": 0.8385416666666666, | |
| "step": 500 | |
| }, | |
| { | |
| "completion_length": 313.1276041666667, | |
| "epoch": 0.5354666666666666, | |
| "grad_norm": 6.144688435378383, | |
| "kl": 69.96614583333333, | |
| "learning_rate": 4.962331191481704e-07, | |
| "loss": 0.07, | |
| "reward": 1.3580729166666667, | |
| "reward_std": 0.3628838248550892, | |
| "rewards/equation_reward_func": 0.5130208333333334, | |
| "rewards/format_reward_func": 0.8450520833333334, | |
| "step": 502 | |
| }, | |
| { | |
| "completion_length": 334.7018229166667, | |
| "epoch": 0.5376, | |
| "grad_norm": 24.5446785825643, | |
| "kl": 121.27083333333333, | |
| "learning_rate": 4.961862999795923e-07, | |
| "loss": 0.1212, | |
| "reward": 1.40625, | |
| "reward_std": 0.41199707860747975, | |
| "rewards/equation_reward_func": 0.58203125, | |
| "rewards/format_reward_func": 0.82421875, | |
| "step": 504 | |
| }, | |
| { | |
| "completion_length": 314.2981770833333, | |
| "epoch": 0.5397333333333333, | |
| "grad_norm": 4.60666992877954, | |
| "kl": 92.92057291666667, | |
| "learning_rate": 4.961391938799253e-07, | |
| "loss": 0.0929, | |
| "reward": 1.37109375, | |
| "reward_std": 0.38481269652644795, | |
| "rewards/equation_reward_func": 0.5169270833333334, | |
| "rewards/format_reward_func": 0.8541666666666666, | |
| "step": 506 | |
| }, | |
| { | |
| "completion_length": 309.8125, | |
| "epoch": 0.5418666666666667, | |
| "grad_norm": 7.150173375250755, | |
| "kl": 84.38541666666667, | |
| "learning_rate": 4.960918009040718e-07, | |
| "loss": 0.0844, | |
| "reward": 1.33203125, | |
| "reward_std": 0.38796609950562316, | |
| "rewards/equation_reward_func": 0.48828125, | |
| "rewards/format_reward_func": 0.84375, | |
| "step": 508 | |
| }, | |
| { | |
| "completion_length": 306.79296875, | |
| "epoch": 0.544, | |
| "grad_norm": 7.41352413781414, | |
| "kl": 93.26171875, | |
| "learning_rate": 4.960441211072685e-07, | |
| "loss": 0.0932, | |
| "reward": 1.3020833333333333, | |
| "reward_std": 0.38708719549079734, | |
| "rewards/equation_reward_func": 0.4661458333333333, | |
| "rewards/format_reward_func": 0.8359375, | |
| "step": 510 | |
| }, | |
| { | |
| "completion_length": 321.5716145833333, | |
| "epoch": 0.5461333333333334, | |
| "grad_norm": 6.799925710979418, | |
| "kl": 86.203125, | |
| "learning_rate": 4.959961545450864e-07, | |
| "loss": 0.0862, | |
| "reward": 1.37890625, | |
| "reward_std": 0.4121825930972894, | |
| "rewards/equation_reward_func": 0.55078125, | |
| "rewards/format_reward_func": 0.828125, | |
| "step": 512 | |
| }, | |
| { | |
| "completion_length": 310.18359375, | |
| "epoch": 0.5482666666666667, | |
| "grad_norm": 8.787231984947343, | |
| "kl": 61.994791666666664, | |
| "learning_rate": 4.959479012734306e-07, | |
| "loss": 0.0619, | |
| "reward": 1.3684895833333333, | |
| "reward_std": 0.398277730991443, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.84765625, | |
| "step": 514 | |
| }, | |
| { | |
| "completion_length": 336.2981770833333, | |
| "epoch": 0.5504, | |
| "grad_norm": 17.222201848068604, | |
| "kl": 129.375, | |
| "learning_rate": 4.958993613485405e-07, | |
| "loss": 0.1294, | |
| "reward": 1.3424479166666667, | |
| "reward_std": 0.4633186881740888, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.8216145833333334, | |
| "step": 516 | |
| }, | |
| { | |
| "completion_length": 344.6236979166667, | |
| "epoch": 0.5525333333333333, | |
| "grad_norm": 4.312841877537635, | |
| "kl": 105.42708333333333, | |
| "learning_rate": 4.958505348269896e-07, | |
| "loss": 0.1055, | |
| "reward": 1.29296875, | |
| "reward_std": 0.4351605648795764, | |
| "rewards/equation_reward_func": 0.49609375, | |
| "rewards/format_reward_func": 0.796875, | |
| "step": 518 | |
| }, | |
| { | |
| "completion_length": 323.6497395833333, | |
| "epoch": 0.5546666666666666, | |
| "grad_norm": 6.3661435892122205, | |
| "kl": 72.5390625, | |
| "learning_rate": 4.958014217656854e-07, | |
| "loss": 0.0725, | |
| "reward": 1.3346354166666667, | |
| "reward_std": 0.41932989036043483, | |
| "rewards/equation_reward_func": 0.5182291666666666, | |
| "rewards/format_reward_func": 0.81640625, | |
| "step": 520 | |
| }, | |
| { | |
| "completion_length": 311.171875, | |
| "epoch": 0.5568, | |
| "grad_norm": 3.6593493812046516, | |
| "kl": 80.747802734375, | |
| "learning_rate": 4.957520222218694e-07, | |
| "loss": 0.0807, | |
| "reward": 1.35546875, | |
| "reward_std": 0.4123564374943574, | |
| "rewards/equation_reward_func": 0.51171875, | |
| "rewards/format_reward_func": 0.84375, | |
| "step": 522 | |
| }, | |
| { | |
| "completion_length": 354.4075520833333, | |
| "epoch": 0.5589333333333333, | |
| "grad_norm": 29.8131061923819, | |
| "kl": 227.40625, | |
| "learning_rate": 4.957023362531169e-07, | |
| "loss": 0.2273, | |
| "reward": 1.3255208333333333, | |
| "reward_std": 0.458007516960303, | |
| "rewards/equation_reward_func": 0.5247395833333334, | |
| "rewards/format_reward_func": 0.80078125, | |
| "step": 524 | |
| }, | |
| { | |
| "completion_length": 324.3072916666667, | |
| "epoch": 0.5610666666666667, | |
| "grad_norm": 18.793723319070946, | |
| "kl": 127.42708333333333, | |
| "learning_rate": 4.956523639173372e-07, | |
| "loss": 0.1274, | |
| "reward": 1.3528645833333333, | |
| "reward_std": 0.38385330388943356, | |
| "rewards/equation_reward_func": 0.5104166666666666, | |
| "rewards/format_reward_func": 0.8424479166666666, | |
| "step": 526 | |
| }, | |
| { | |
| "completion_length": 331.4713541666667, | |
| "epoch": 0.5632, | |
| "grad_norm": 8.234436711318283, | |
| "kl": 82.21354166666667, | |
| "learning_rate": 4.956021052727731e-07, | |
| "loss": 0.0822, | |
| "reward": 1.30859375, | |
| "reward_std": 0.4363402407616377, | |
| "rewards/equation_reward_func": 0.4869791666666667, | |
| "rewards/format_reward_func": 0.8216145833333334, | |
| "step": 528 | |
| }, | |
| { | |
| "completion_length": 340.7552083333333, | |
| "epoch": 0.5653333333333334, | |
| "grad_norm": 8.35904313185434, | |
| "kl": 80.10416666666667, | |
| "learning_rate": 4.955515603780013e-07, | |
| "loss": 0.0801, | |
| "reward": 1.3567708333333333, | |
| "reward_std": 0.4408196806907654, | |
| "rewards/equation_reward_func": 0.5533854166666666, | |
| "rewards/format_reward_func": 0.8033854166666666, | |
| "step": 530 | |
| }, | |
| { | |
| "completion_length": 329.0611979166667, | |
| "epoch": 0.5674666666666667, | |
| "grad_norm": 13.30511294284765, | |
| "kl": 127.80208333333333, | |
| "learning_rate": 4.955007292919321e-07, | |
| "loss": 0.1278, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.42027760793765384, | |
| "rewards/equation_reward_func": 0.5690104166666666, | |
| "rewards/format_reward_func": 0.8190104166666666, | |
| "step": 532 | |
| }, | |
| { | |
| "completion_length": 354.5, | |
| "epoch": 0.5696, | |
| "grad_norm": 11.595770451074044, | |
| "kl": 149.25, | |
| "learning_rate": 4.954496120738093e-07, | |
| "loss": 0.1492, | |
| "reward": 1.3046875, | |
| "reward_std": 0.4602819873640935, | |
| "rewards/equation_reward_func": 0.5104166666666666, | |
| "rewards/format_reward_func": 0.7942708333333334, | |
| "step": 534 | |
| }, | |
| { | |
| "completion_length": 336.28125, | |
| "epoch": 0.5717333333333333, | |
| "grad_norm": 13.221243615369062, | |
| "kl": 80.97395833333333, | |
| "learning_rate": 4.953982087832103e-07, | |
| "loss": 0.0809, | |
| "reward": 1.3450520833333333, | |
| "reward_std": 0.4560707484682401, | |
| "rewards/equation_reward_func": 0.52734375, | |
| "rewards/format_reward_func": 0.8177083333333334, | |
| "step": 536 | |
| }, | |
| { | |
| "completion_length": 327.0013020833333, | |
| "epoch": 0.5738666666666666, | |
| "grad_norm": 6.278655638463855, | |
| "kl": 85.25162760416667, | |
| "learning_rate": 4.953465194800458e-07, | |
| "loss": 0.0852, | |
| "reward": 1.328125, | |
| "reward_std": 0.4505305265386899, | |
| "rewards/equation_reward_func": 0.49609375, | |
| "rewards/format_reward_func": 0.83203125, | |
| "step": 538 | |
| }, | |
| { | |
| "completion_length": 343.1822916666667, | |
| "epoch": 0.576, | |
| "grad_norm": 56.66823354702012, | |
| "kl": 180.91666666666666, | |
| "learning_rate": 4.952945442245597e-07, | |
| "loss": 0.1809, | |
| "reward": 1.2643229166666667, | |
| "reward_std": 0.4195333744088809, | |
| "rewards/equation_reward_func": 0.4713541666666667, | |
| "rewards/format_reward_func": 0.79296875, | |
| "step": 540 | |
| }, | |
| { | |
| "completion_length": 329.2643229166667, | |
| "epoch": 0.5781333333333334, | |
| "grad_norm": 11.059680460573595, | |
| "kl": 149.29166666666666, | |
| "learning_rate": 4.952422830773297e-07, | |
| "loss": 0.1492, | |
| "reward": 1.3450520833333333, | |
| "reward_std": 0.4512217417359352, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.82421875, | |
| "step": 542 | |
| }, | |
| { | |
| "completion_length": 334.7018229166667, | |
| "epoch": 0.5802666666666667, | |
| "grad_norm": 10.836483516269668, | |
| "kl": 95.74479166666667, | |
| "learning_rate": 4.95189736099266e-07, | |
| "loss": 0.0958, | |
| "reward": 1.3333333333333333, | |
| "reward_std": 0.44391787486771744, | |
| "rewards/equation_reward_func": 0.5130208333333334, | |
| "rewards/format_reward_func": 0.8203125, | |
| "step": 544 | |
| }, | |
| { | |
| "completion_length": 334.0625, | |
| "epoch": 0.5824, | |
| "grad_norm": 5.388816807951162, | |
| "kl": 87.36458333333333, | |
| "learning_rate": 4.951369033516127e-07, | |
| "loss": 0.0873, | |
| "reward": 1.3502604166666667, | |
| "reward_std": 0.42643585056066513, | |
| "rewards/equation_reward_func": 0.5286458333333334, | |
| "rewards/format_reward_func": 0.8216145833333334, | |
| "step": 546 | |
| }, | |
| { | |
| "completion_length": 339.8411458333333, | |
| "epoch": 0.5845333333333333, | |
| "grad_norm": 4.330113397304481, | |
| "kl": 113.21875, | |
| "learning_rate": 4.950837848959461e-07, | |
| "loss": 0.1133, | |
| "reward": 1.2747395833333333, | |
| "reward_std": 0.42210423077146214, | |
| "rewards/equation_reward_func": 0.4674479166666667, | |
| "rewards/format_reward_func": 0.8072916666666666, | |
| "step": 548 | |
| }, | |
| { | |
| "completion_length": 330.1080729166667, | |
| "epoch": 0.5866666666666667, | |
| "grad_norm": 6.632872688166977, | |
| "kl": 97.75520833333333, | |
| "learning_rate": 4.950303807941764e-07, | |
| "loss": 0.0977, | |
| "reward": 1.3294270833333333, | |
| "reward_std": 0.4207188847164313, | |
| "rewards/equation_reward_func": 0.5065104166666666, | |
| "rewards/format_reward_func": 0.8229166666666666, | |
| "step": 550 | |
| }, | |
| { | |
| "completion_length": 335.9908854166667, | |
| "epoch": 0.5888, | |
| "grad_norm": 9.678822837397309, | |
| "kl": 87.03125, | |
| "learning_rate": 4.949766911085461e-07, | |
| "loss": 0.087, | |
| "reward": 1.3567708333333333, | |
| "reward_std": 0.43508372517923516, | |
| "rewards/equation_reward_func": 0.5338541666666666, | |
| "rewards/format_reward_func": 0.8229166666666666, | |
| "step": 552 | |
| }, | |
| { | |
| "completion_length": 316.875, | |
| "epoch": 0.5909333333333333, | |
| "grad_norm": 3.8545853381580555, | |
| "kl": 113.83333333333333, | |
| "learning_rate": 4.949227159016307e-07, | |
| "loss": 0.1139, | |
| "reward": 1.38671875, | |
| "reward_std": 0.42338383321960765, | |
| "rewards/equation_reward_func": 0.5494791666666666, | |
| "rewards/format_reward_func": 0.8372395833333334, | |
| "step": 554 | |
| }, | |
| { | |
| "completion_length": 310.7239583333333, | |
| "epoch": 0.5930666666666666, | |
| "grad_norm": 3.804740456878035, | |
| "kl": 87.296875, | |
| "learning_rate": 4.948684552363385e-07, | |
| "loss": 0.0872, | |
| "reward": 1.3020833333333333, | |
| "reward_std": 0.3915933469931285, | |
| "rewards/equation_reward_func": 0.45703125, | |
| "rewards/format_reward_func": 0.8450520833333334, | |
| "step": 556 | |
| }, | |
| { | |
| "completion_length": 327.5859375, | |
| "epoch": 0.5952, | |
| "grad_norm": 12.406587886192542, | |
| "kl": 138.1552734375, | |
| "learning_rate": 4.948139091759108e-07, | |
| "loss": 0.1383, | |
| "reward": 1.34375, | |
| "reward_std": 0.39131229743361473, | |
| "rewards/equation_reward_func": 0.515625, | |
| "rewards/format_reward_func": 0.828125, | |
| "step": 558 | |
| }, | |
| { | |
| "completion_length": 326.4127604166667, | |
| "epoch": 0.5973333333333334, | |
| "grad_norm": 8.759844647235926, | |
| "kl": 109.55989583333333, | |
| "learning_rate": 4.947590777839208e-07, | |
| "loss": 0.1096, | |
| "reward": 1.3450520833333333, | |
| "reward_std": 0.45936829410493374, | |
| "rewards/equation_reward_func": 0.5143229166666666, | |
| "rewards/format_reward_func": 0.8307291666666666, | |
| "step": 560 | |
| }, | |
| { | |
| "completion_length": 339.36328125, | |
| "epoch": 0.5994666666666667, | |
| "grad_norm": 10.019751214713805, | |
| "kl": 93.92447916666667, | |
| "learning_rate": 4.947039611242752e-07, | |
| "loss": 0.0939, | |
| "reward": 1.32421875, | |
| "reward_std": 0.4352417637904485, | |
| "rewards/equation_reward_func": 0.515625, | |
| "rewards/format_reward_func": 0.80859375, | |
| "step": 562 | |
| }, | |
| { | |
| "completion_length": 345.5729166666667, | |
| "epoch": 0.6016, | |
| "grad_norm": 5.576768142744693, | |
| "kl": 102.77083333333333, | |
| "learning_rate": 4.946485592612122e-07, | |
| "loss": 0.1027, | |
| "reward": 1.2877604166666667, | |
| "reward_std": 0.4868692395587762, | |
| "rewards/equation_reward_func": 0.4973958333333333, | |
| "rewards/format_reward_func": 0.7903645833333334, | |
| "step": 564 | |
| }, | |
| { | |
| "completion_length": 342.21484375, | |
| "epoch": 0.6037333333333333, | |
| "grad_norm": 12.46932625487555, | |
| "kl": 137.23958333333334, | |
| "learning_rate": 4.945928722593031e-07, | |
| "loss": 0.1371, | |
| "reward": 1.2916666666666667, | |
| "reward_std": 0.44110290706157684, | |
| "rewards/equation_reward_func": 0.4921875, | |
| "rewards/format_reward_func": 0.7994791666666666, | |
| "step": 566 | |
| }, | |
| { | |
| "completion_length": 329.5963541666667, | |
| "epoch": 0.6058666666666667, | |
| "grad_norm": 3.8042531242271465, | |
| "kl": 108.94010416666667, | |
| "learning_rate": 4.945369001834514e-07, | |
| "loss": 0.1089, | |
| "reward": 1.2994791666666667, | |
| "reward_std": 0.41268026642501354, | |
| "rewards/equation_reward_func": 0.46875, | |
| "rewards/format_reward_func": 0.8307291666666666, | |
| "step": 568 | |
| }, | |
| { | |
| "completion_length": 320.3072916666667, | |
| "epoch": 0.608, | |
| "grad_norm": 15.579244517372725, | |
| "kl": 115.85416666666667, | |
| "learning_rate": 4.944806430988927e-07, | |
| "loss": 0.1158, | |
| "reward": 1.3450520833333333, | |
| "reward_std": 0.43740975484251976, | |
| "rewards/equation_reward_func": 0.52734375, | |
| "rewards/format_reward_func": 0.8177083333333334, | |
| "step": 570 | |
| }, | |
| { | |
| "completion_length": 314.36328125, | |
| "epoch": 0.6101333333333333, | |
| "grad_norm": 11.203812831933865, | |
| "kl": 87.84375, | |
| "learning_rate": 4.944241010711947e-07, | |
| "loss": 0.0879, | |
| "reward": 1.3619791666666667, | |
| "reward_std": 0.4288936499506235, | |
| "rewards/equation_reward_func": 0.5260416666666666, | |
| "rewards/format_reward_func": 0.8359375, | |
| "step": 572 | |
| }, | |
| { | |
| "completion_length": 322.6653645833333, | |
| "epoch": 0.6122666666666666, | |
| "grad_norm": 9.307282831896416, | |
| "kl": 79.609375, | |
| "learning_rate": 4.943672741662576e-07, | |
| "loss": 0.0796, | |
| "reward": 1.3255208333333333, | |
| "reward_std": 0.39930520330866176, | |
| "rewards/equation_reward_func": 0.50390625, | |
| "rewards/format_reward_func": 0.8216145833333334, | |
| "step": 574 | |
| }, | |
| { | |
| "completion_length": 310.9661458333333, | |
| "epoch": 0.6144, | |
| "grad_norm": 8.728453560464256, | |
| "kl": 105.79166666666667, | |
| "learning_rate": 4.943101624503132e-07, | |
| "loss": 0.1058, | |
| "reward": 1.3502604166666667, | |
| "reward_std": 0.4291219599545002, | |
| "rewards/equation_reward_func": 0.51171875, | |
| "rewards/format_reward_func": 0.8385416666666666, | |
| "step": 576 | |
| }, | |
| { | |
| "completion_length": 319.7083333333333, | |
| "epoch": 0.6165333333333334, | |
| "grad_norm": 5.793094514203119, | |
| "kl": 129.74479166666666, | |
| "learning_rate": 4.942527659899257e-07, | |
| "loss": 0.1298, | |
| "reward": 1.3307291666666667, | |
| "reward_std": 0.44404258330663043, | |
| "rewards/equation_reward_func": 0.5, | |
| "rewards/format_reward_func": 0.8307291666666666, | |
| "step": 578 | |
| }, | |
| { | |
| "completion_length": 315.421875, | |
| "epoch": 0.6186666666666667, | |
| "grad_norm": 3.9683853314846464, | |
| "kl": 100.046875, | |
| "learning_rate": 4.941950848519903e-07, | |
| "loss": 0.1001, | |
| "reward": 1.3059895833333333, | |
| "reward_std": 0.4283437014867862, | |
| "rewards/equation_reward_func": 0.4739583333333333, | |
| "rewards/format_reward_func": 0.83203125, | |
| "step": 580 | |
| }, | |
| { | |
| "completion_length": 290.2330729166667, | |
| "epoch": 0.6208, | |
| "grad_norm": 8.29768992041966, | |
| "kl": 97.859375, | |
| "learning_rate": 4.941371191037353e-07, | |
| "loss": 0.0977, | |
| "reward": 1.3359375, | |
| "reward_std": 0.3797949676712354, | |
| "rewards/equation_reward_func": 0.4817708333333333, | |
| "rewards/format_reward_func": 0.8541666666666666, | |
| "step": 582 | |
| }, | |
| { | |
| "completion_length": 302.8346354166667, | |
| "epoch": 0.6229333333333333, | |
| "grad_norm": 9.309841611911649, | |
| "kl": 83.02083333333333, | |
| "learning_rate": 4.940788688127196e-07, | |
| "loss": 0.083, | |
| "reward": 1.3528645833333333, | |
| "reward_std": 0.42245217350622016, | |
| "rewards/equation_reward_func": 0.5104166666666666, | |
| "rewards/format_reward_func": 0.8424479166666666, | |
| "step": 584 | |
| }, | |
| { | |
| "completion_length": 305.41796875, | |
| "epoch": 0.6250666666666667, | |
| "grad_norm": 4.015611984924465, | |
| "kl": 84.60416666666667, | |
| "learning_rate": 4.940203340468342e-07, | |
| "loss": 0.0846, | |
| "reward": 1.32421875, | |
| "reward_std": 0.42831258351604146, | |
| "rewards/equation_reward_func": 0.4908854166666667, | |
| "rewards/format_reward_func": 0.8333333333333334, | |
| "step": 586 | |
| }, | |
| { | |
| "completion_length": 290.8893229166667, | |
| "epoch": 0.6272, | |
| "grad_norm": 9.11124873473171, | |
| "kl": 109.38460286458333, | |
| "learning_rate": 4.939615148743017e-07, | |
| "loss": 0.1093, | |
| "reward": 1.37890625, | |
| "reward_std": 0.38481927042206127, | |
| "rewards/equation_reward_func": 0.5221354166666666, | |
| "rewards/format_reward_func": 0.8567708333333334, | |
| "step": 588 | |
| }, | |
| { | |
| "completion_length": 287.67578125, | |
| "epoch": 0.6293333333333333, | |
| "grad_norm": 4.8383693097552785, | |
| "kl": 92.19791666666667, | |
| "learning_rate": 4.939024113636759e-07, | |
| "loss": 0.0922, | |
| "reward": 1.3411458333333333, | |
| "reward_std": 0.4021585738907258, | |
| "rewards/equation_reward_func": 0.4817708333333333, | |
| "rewards/format_reward_func": 0.859375, | |
| "step": 590 | |
| }, | |
| { | |
| "completion_length": 289.2213541666667, | |
| "epoch": 0.6314666666666666, | |
| "grad_norm": 9.802779796026364, | |
| "kl": 54.969401041666664, | |
| "learning_rate": 4.938430235838424e-07, | |
| "loss": 0.055, | |
| "reward": 1.3958333333333333, | |
| "reward_std": 0.40842767618596554, | |
| "rewards/equation_reward_func": 0.5325520833333334, | |
| "rewards/format_reward_func": 0.86328125, | |
| "step": 592 | |
| }, | |
| { | |
| "completion_length": 294.6901041666667, | |
| "epoch": 0.6336, | |
| "grad_norm": 3.792663438002941, | |
| "kl": 70.36458333333333, | |
| "learning_rate": 4.937833516040176e-07, | |
| "loss": 0.0704, | |
| "reward": 1.3736979166666667, | |
| "reward_std": 0.41041089470187825, | |
| "rewards/equation_reward_func": 0.5221354166666666, | |
| "rewards/format_reward_func": 0.8515625, | |
| "step": 594 | |
| }, | |
| { | |
| "completion_length": 282.4869791666667, | |
| "epoch": 0.6357333333333334, | |
| "grad_norm": 19.971448687228886, | |
| "kl": 115.3125, | |
| "learning_rate": 4.937233954937497e-07, | |
| "loss": 0.1153, | |
| "reward": 1.3346354166666667, | |
| "reward_std": 0.3838258267690738, | |
| "rewards/equation_reward_func": 0.4635416666666667, | |
| "rewards/format_reward_func": 0.87109375, | |
| "step": 596 | |
| }, | |
| { | |
| "completion_length": 303.4752604166667, | |
| "epoch": 0.6378666666666667, | |
| "grad_norm": 16.963023706333686, | |
| "kl": 142.8046875, | |
| "learning_rate": 4.936631553229175e-07, | |
| "loss": 0.1427, | |
| "reward": 1.4036458333333333, | |
| "reward_std": 0.4027795239041249, | |
| "rewards/equation_reward_func": 0.5546875, | |
| "rewards/format_reward_func": 0.8489583333333334, | |
| "step": 598 | |
| }, | |
| { | |
| "completion_length": 276.5247395833333, | |
| "epoch": 0.64, | |
| "grad_norm": 5.233168789349161, | |
| "kl": 53.522786458333336, | |
| "learning_rate": 4.936026311617316e-07, | |
| "loss": 0.0535, | |
| "reward": 1.4192708333333333, | |
| "reward_std": 0.4202102782825629, | |
| "rewards/equation_reward_func": 0.54296875, | |
| "rewards/format_reward_func": 0.8763020833333334, | |
| "step": 600 | |
| }, | |
| { | |
| "completion_length": 266.5403645833333, | |
| "epoch": 0.6421333333333333, | |
| "grad_norm": 4.305985657959156, | |
| "kl": 31.295817057291668, | |
| "learning_rate": 4.935418230807325e-07, | |
| "loss": 0.0313, | |
| "reward": 1.4401041666666667, | |
| "reward_std": 0.3385384927193324, | |
| "rewards/equation_reward_func": 0.5442708333333334, | |
| "rewards/format_reward_func": 0.8958333333333334, | |
| "step": 602 | |
| }, | |
| { | |
| "completion_length": 281.2734375, | |
| "epoch": 0.6442666666666667, | |
| "grad_norm": 3.0474199179334347, | |
| "kl": 68.17708333333333, | |
| "learning_rate": 4.934807311507929e-07, | |
| "loss": 0.0682, | |
| "reward": 1.4088541666666667, | |
| "reward_std": 0.39457437830666703, | |
| "rewards/equation_reward_func": 0.5455729166666666, | |
| "rewards/format_reward_func": 0.86328125, | |
| "step": 604 | |
| }, | |
| { | |
| "completion_length": 274.22265625, | |
| "epoch": 0.6464, | |
| "grad_norm": 6.850035185823164, | |
| "kl": 79.93782552083333, | |
| "learning_rate": 4.934193554431153e-07, | |
| "loss": 0.0799, | |
| "reward": 1.3763020833333333, | |
| "reward_std": 0.402454216654102, | |
| "rewards/equation_reward_func": 0.5104166666666666, | |
| "rewards/format_reward_func": 0.8658854166666666, | |
| "step": 606 | |
| }, | |
| { | |
| "completion_length": 299.3567708333333, | |
| "epoch": 0.6485333333333333, | |
| "grad_norm": 5.8719534066993955, | |
| "kl": 93.95833333333333, | |
| "learning_rate": 4.933576960292334e-07, | |
| "loss": 0.094, | |
| "reward": 1.3229166666666667, | |
| "reward_std": 0.4203884769231081, | |
| "rewards/equation_reward_func": 0.46484375, | |
| "rewards/format_reward_func": 0.8580729166666666, | |
| "step": 608 | |
| }, | |
| { | |
| "completion_length": 302.7760416666667, | |
| "epoch": 0.6506666666666666, | |
| "grad_norm": 3.911948173337444, | |
| "kl": 62.171875, | |
| "learning_rate": 4.932957529810116e-07, | |
| "loss": 0.0622, | |
| "reward": 1.4036458333333333, | |
| "reward_std": 0.40641408662001294, | |
| "rewards/equation_reward_func": 0.5625, | |
| "rewards/format_reward_func": 0.8411458333333334, | |
| "step": 610 | |
| }, | |
| { | |
| "completion_length": 264.9231770833333, | |
| "epoch": 0.6528, | |
| "grad_norm": 57.845808708828, | |
| "kl": 77.10123697916667, | |
| "learning_rate": 4.932335263706445e-07, | |
| "loss": 0.077, | |
| "reward": 1.3971354166666667, | |
| "reward_std": 0.33897757654388744, | |
| "rewards/equation_reward_func": 0.5169270833333334, | |
| "rewards/format_reward_func": 0.8802083333333334, | |
| "step": 612 | |
| }, | |
| { | |
| "completion_length": 276.8932291666667, | |
| "epoch": 0.6549333333333334, | |
| "grad_norm": 4.615216643783655, | |
| "kl": 66.951171875, | |
| "learning_rate": 4.931710162706577e-07, | |
| "loss": 0.0669, | |
| "reward": 1.3528645833333333, | |
| "reward_std": 0.4014260123173396, | |
| "rewards/equation_reward_func": 0.4895833333333333, | |
| "rewards/format_reward_func": 0.86328125, | |
| "step": 614 | |
| }, | |
| { | |
| "completion_length": 278.2994791666667, | |
| "epoch": 0.6570666666666667, | |
| "grad_norm": 3.268379394729966, | |
| "kl": 50.727864583333336, | |
| "learning_rate": 4.931082227539069e-07, | |
| "loss": 0.0507, | |
| "reward": 1.3645833333333333, | |
| "reward_std": 0.38543948469062644, | |
| "rewards/equation_reward_func": 0.4856770833333333, | |
| "rewards/format_reward_func": 0.87890625, | |
| "step": 616 | |
| }, | |
| { | |
| "completion_length": 257.0768229166667, | |
| "epoch": 0.6592, | |
| "grad_norm": 2.0066165087223444, | |
| "kl": 51.679850260416664, | |
| "learning_rate": 4.930451458935783e-07, | |
| "loss": 0.0517, | |
| "reward": 1.4192708333333333, | |
| "reward_std": 0.356309587135911, | |
| "rewards/equation_reward_func": 0.5338541666666666, | |
| "rewards/format_reward_func": 0.8854166666666666, | |
| "step": 618 | |
| }, | |
| { | |
| "completion_length": 294.3255208333333, | |
| "epoch": 0.6613333333333333, | |
| "grad_norm": 7.052343760245423, | |
| "kl": 51.9814453125, | |
| "learning_rate": 4.92981785763188e-07, | |
| "loss": 0.052, | |
| "reward": 1.30859375, | |
| "reward_std": 0.4027455039322376, | |
| "rewards/equation_reward_func": 0.46484375, | |
| "rewards/format_reward_func": 0.84375, | |
| "step": 620 | |
| }, | |
| { | |
| "completion_length": 277.0338541666667, | |
| "epoch": 0.6634666666666666, | |
| "grad_norm": 3.729501680708608, | |
| "kl": 43.689534505208336, | |
| "learning_rate": 4.929181424365825e-07, | |
| "loss": 0.0437, | |
| "reward": 1.3802083333333333, | |
| "reward_std": 0.36450112238526344, | |
| "rewards/equation_reward_func": 0.50390625, | |
| "rewards/format_reward_func": 0.8763020833333334, | |
| "step": 622 | |
| }, | |
| { | |
| "completion_length": 281.625, | |
| "epoch": 0.6656, | |
| "grad_norm": 2.8809394165058997, | |
| "kl": 47.630208333333336, | |
| "learning_rate": 4.928542159879385e-07, | |
| "loss": 0.0476, | |
| "reward": 1.4075520833333333, | |
| "reward_std": 0.38508014753460884, | |
| "rewards/equation_reward_func": 0.5390625, | |
| "rewards/format_reward_func": 0.8684895833333334, | |
| "step": 624 | |
| }, | |
| { | |
| "completion_length": 266.2356770833333, | |
| "epoch": 0.6677333333333333, | |
| "grad_norm": 9.655881398240444, | |
| "kl": 59.06640625, | |
| "learning_rate": 4.927900064917625e-07, | |
| "loss": 0.0591, | |
| "reward": 1.36328125, | |
| "reward_std": 0.36820082428554696, | |
| "rewards/equation_reward_func": 0.48828125, | |
| "rewards/format_reward_func": 0.875, | |
| "step": 626 | |
| }, | |
| { | |
| "completion_length": 283.7708333333333, | |
| "epoch": 0.6698666666666667, | |
| "grad_norm": 2.9464952844466166, | |
| "kl": 68.83854166666667, | |
| "learning_rate": 4.927255140228908e-07, | |
| "loss": 0.0688, | |
| "reward": 1.3203125, | |
| "reward_std": 0.3840439220269521, | |
| "rewards/equation_reward_func": 0.4700520833333333, | |
| "rewards/format_reward_func": 0.8502604166666666, | |
| "step": 628 | |
| }, | |
| { | |
| "completion_length": 269.6848958333333, | |
| "epoch": 0.672, | |
| "grad_norm": 3.296395631094475, | |
| "kl": 39.728190104166664, | |
| "learning_rate": 4.926607386564898e-07, | |
| "loss": 0.0397, | |
| "reward": 1.41796875, | |
| "reward_std": 0.3616173689564069, | |
| "rewards/equation_reward_func": 0.53515625, | |
| "rewards/format_reward_func": 0.8828125, | |
| "step": 630 | |
| }, | |
| { | |
| "completion_length": 257.7447916666667, | |
| "epoch": 0.6741333333333334, | |
| "grad_norm": 3.6822574666379153, | |
| "kl": 41.956624348958336, | |
| "learning_rate": 4.925956804680552e-07, | |
| "loss": 0.0419, | |
| "reward": 1.4036458333333333, | |
| "reward_std": 0.32921224522093934, | |
| "rewards/equation_reward_func": 0.5052083333333334, | |
| "rewards/format_reward_func": 0.8984375, | |
| "step": 632 | |
| }, | |
| { | |
| "completion_length": 263.1223958333333, | |
| "epoch": 0.6762666666666667, | |
| "grad_norm": 10.413281993175248, | |
| "kl": 69.98177083333333, | |
| "learning_rate": 4.925303395334127e-07, | |
| "loss": 0.07, | |
| "reward": 1.4348958333333333, | |
| "reward_std": 0.3776624898115794, | |
| "rewards/equation_reward_func": 0.5572916666666666, | |
| "rewards/format_reward_func": 0.8776041666666666, | |
| "step": 634 | |
| }, | |
| { | |
| "completion_length": 248.22395833333334, | |
| "epoch": 0.6784, | |
| "grad_norm": 5.078461259398928, | |
| "kl": 47.402018229166664, | |
| "learning_rate": 4.924647159287175e-07, | |
| "loss": 0.0474, | |
| "reward": 1.4088541666666667, | |
| "reward_std": 0.4099769052118063, | |
| "rewards/equation_reward_func": 0.53125, | |
| "rewards/format_reward_func": 0.8776041666666666, | |
| "step": 636 | |
| }, | |
| { | |
| "completion_length": 266.3059895833333, | |
| "epoch": 0.6805333333333333, | |
| "grad_norm": 3.7544479533478223, | |
| "kl": 43.819986979166664, | |
| "learning_rate": 4.923988097304541e-07, | |
| "loss": 0.0438, | |
| "reward": 1.3815104166666667, | |
| "reward_std": 0.3740004717061917, | |
| "rewards/equation_reward_func": 0.5104166666666666, | |
| "rewards/format_reward_func": 0.87109375, | |
| "step": 638 | |
| }, | |
| { | |
| "completion_length": 256.9817708333333, | |
| "epoch": 0.6826666666666666, | |
| "grad_norm": 4.594330203526998, | |
| "kl": 39.044352213541664, | |
| "learning_rate": 4.923326210154364e-07, | |
| "loss": 0.039, | |
| "reward": 1.34765625, | |
| "reward_std": 0.3216360807418823, | |
| "rewards/equation_reward_func": 0.4518229166666667, | |
| "rewards/format_reward_func": 0.8958333333333334, | |
| "step": 640 | |
| }, | |
| { | |
| "completion_length": 263.05859375, | |
| "epoch": 0.6848, | |
| "grad_norm": 2.2456643310788507, | |
| "kl": 43.602701822916664, | |
| "learning_rate": 4.922661498608076e-07, | |
| "loss": 0.0436, | |
| "reward": 1.3567708333333333, | |
| "reward_std": 0.3544156067073345, | |
| "rewards/equation_reward_func": 0.4739583333333333, | |
| "rewards/format_reward_func": 0.8828125, | |
| "step": 642 | |
| }, | |
| { | |
| "completion_length": 245.40625, | |
| "epoch": 0.6869333333333333, | |
| "grad_norm": 2.5727206967043244, | |
| "kl": 36.58740234375, | |
| "learning_rate": 4.921993963440401e-07, | |
| "loss": 0.0366, | |
| "reward": 1.4427083333333333, | |
| "reward_std": 0.3249735205123822, | |
| "rewards/equation_reward_func": 0.5377604166666666, | |
| "rewards/format_reward_func": 0.9049479166666666, | |
| "step": 644 | |
| }, | |
| { | |
| "completion_length": 249.55598958333334, | |
| "epoch": 0.6890666666666667, | |
| "grad_norm": 1.9195971266646434, | |
| "kl": 33.416666666666664, | |
| "learning_rate": 4.921323605429354e-07, | |
| "loss": 0.0334, | |
| "reward": 1.4322916666666667, | |
| "reward_std": 0.3331662757943074, | |
| "rewards/equation_reward_func": 0.5390625, | |
| "rewards/format_reward_func": 0.8932291666666666, | |
| "step": 646 | |
| }, | |
| { | |
| "completion_length": 240.92838541666666, | |
| "epoch": 0.6912, | |
| "grad_norm": 1.7010385470192113, | |
| "kl": 38.021484375, | |
| "learning_rate": 4.920650425356239e-07, | |
| "loss": 0.038, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.3477147053927183, | |
| "rewards/equation_reward_func": 0.4947916666666667, | |
| "rewards/format_reward_func": 0.8932291666666666, | |
| "step": 648 | |
| }, | |
| { | |
| "completion_length": 242.58984375, | |
| "epoch": 0.6933333333333334, | |
| "grad_norm": 4.736755597315528, | |
| "kl": 46.908854166666664, | |
| "learning_rate": 4.919974424005652e-07, | |
| "loss": 0.0469, | |
| "reward": 1.4088541666666667, | |
| "reward_std": 0.3524404199173053, | |
| "rewards/equation_reward_func": 0.5130208333333334, | |
| "rewards/format_reward_func": 0.8958333333333334, | |
| "step": 650 | |
| }, | |
| { | |
| "completion_length": 248.85546875, | |
| "epoch": 0.6954666666666667, | |
| "grad_norm": 2.988294965064949, | |
| "kl": 26.1923828125, | |
| "learning_rate": 4.919295602165473e-07, | |
| "loss": 0.0262, | |
| "reward": 1.3736979166666667, | |
| "reward_std": 0.38261432262758416, | |
| "rewards/equation_reward_func": 0.48828125, | |
| "rewards/format_reward_func": 0.8854166666666666, | |
| "step": 652 | |
| }, | |
| { | |
| "completion_length": 239.27213541666666, | |
| "epoch": 0.6976, | |
| "grad_norm": 2.0802229756882826, | |
| "kl": 27.303141276041668, | |
| "learning_rate": 4.918613960626873e-07, | |
| "loss": 0.0273, | |
| "reward": 1.4231770833333333, | |
| "reward_std": 0.30160848299662274, | |
| "rewards/equation_reward_func": 0.5182291666666666, | |
| "rewards/format_reward_func": 0.9049479166666666, | |
| "step": 654 | |
| }, | |
| { | |
| "completion_length": 267.4166666666667, | |
| "epoch": 0.6997333333333333, | |
| "grad_norm": 3.1630019098480675, | |
| "kl": 32.940104166666664, | |
| "learning_rate": 4.917929500184306e-07, | |
| "loss": 0.0329, | |
| "reward": 1.3984375, | |
| "reward_std": 0.3697021622210741, | |
| "rewards/equation_reward_func": 0.53515625, | |
| "rewards/format_reward_func": 0.86328125, | |
| "step": 656 | |
| }, | |
| { | |
| "completion_length": 255.70963541666666, | |
| "epoch": 0.7018666666666666, | |
| "grad_norm": 3.2424041123331793, | |
| "kl": 38.307291666666664, | |
| "learning_rate": 4.917242221635517e-07, | |
| "loss": 0.0383, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.34155062151451904, | |
| "rewards/equation_reward_func": 0.5052083333333334, | |
| "rewards/format_reward_func": 0.8828125, | |
| "step": 658 | |
| }, | |
| { | |
| "completion_length": 247.16015625, | |
| "epoch": 0.704, | |
| "grad_norm": 2.2872946011042825, | |
| "kl": 34.144205729166664, | |
| "learning_rate": 4.916552125781528e-07, | |
| "loss": 0.0341, | |
| "reward": 1.3841145833333333, | |
| "reward_std": 0.3159465864300728, | |
| "rewards/equation_reward_func": 0.4908854166666667, | |
| "rewards/format_reward_func": 0.8932291666666666, | |
| "step": 660 | |
| }, | |
| { | |
| "completion_length": 247.66145833333334, | |
| "epoch": 0.7061333333333333, | |
| "grad_norm": 1.4302292211477377, | |
| "kl": 22.9794921875, | |
| "learning_rate": 4.91585921342665e-07, | |
| "loss": 0.023, | |
| "reward": 1.4361979166666667, | |
| "reward_std": 0.33607704813281697, | |
| "rewards/equation_reward_func": 0.5442708333333334, | |
| "rewards/format_reward_func": 0.8919270833333334, | |
| "step": 662 | |
| }, | |
| { | |
| "completion_length": 254.23046875, | |
| "epoch": 0.7082666666666667, | |
| "grad_norm": 2.139858808196265, | |
| "kl": 32.556315104166664, | |
| "learning_rate": 4.915163485378475e-07, | |
| "loss": 0.0325, | |
| "reward": 1.4036458333333333, | |
| "reward_std": 0.3449619735280673, | |
| "rewards/equation_reward_func": 0.5286458333333334, | |
| "rewards/format_reward_func": 0.875, | |
| "step": 664 | |
| }, | |
| { | |
| "completion_length": 241.91145833333334, | |
| "epoch": 0.7104, | |
| "grad_norm": 1.7678018649391463, | |
| "kl": 27.72265625, | |
| "learning_rate": 4.914464942447876e-07, | |
| "loss": 0.0277, | |
| "reward": 1.4453125, | |
| "reward_std": 0.344291677698493, | |
| "rewards/equation_reward_func": 0.54296875, | |
| "rewards/format_reward_func": 0.90234375, | |
| "step": 666 | |
| }, | |
| { | |
| "completion_length": 253.01302083333334, | |
| "epoch": 0.7125333333333334, | |
| "grad_norm": 4.942445398295723, | |
| "kl": 39.4609375, | |
| "learning_rate": 4.913763585449009e-07, | |
| "loss": 0.0395, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.3571328247586886, | |
| "rewards/equation_reward_func": 0.5052083333333334, | |
| "rewards/format_reward_func": 0.8828125, | |
| "step": 668 | |
| }, | |
| { | |
| "completion_length": 247.9453125, | |
| "epoch": 0.7146666666666667, | |
| "grad_norm": 1.6502491741222474, | |
| "kl": 31.485026041666668, | |
| "learning_rate": 4.913059415199307e-07, | |
| "loss": 0.0315, | |
| "reward": 1.4348958333333333, | |
| "reward_std": 0.31807252516349155, | |
| "rewards/equation_reward_func": 0.5455729166666666, | |
| "rewards/format_reward_func": 0.8893229166666666, | |
| "step": 670 | |
| }, | |
| { | |
| "completion_length": 260.75, | |
| "epoch": 0.7168, | |
| "grad_norm": 1.8202234202266045, | |
| "kl": 23.880208333333332, | |
| "learning_rate": 4.912352432519484e-07, | |
| "loss": 0.0239, | |
| "reward": 1.3984375, | |
| "reward_std": 0.39008693645397824, | |
| "rewards/equation_reward_func": 0.51953125, | |
| "rewards/format_reward_func": 0.87890625, | |
| "step": 672 | |
| }, | |
| { | |
| "completion_length": 264.5143229166667, | |
| "epoch": 0.7189333333333333, | |
| "grad_norm": 2.131712182822208, | |
| "kl": 33.209635416666664, | |
| "learning_rate": 4.91164263823353e-07, | |
| "loss": 0.0332, | |
| "reward": 1.3841145833333333, | |
| "reward_std": 0.3635149970650673, | |
| "rewards/equation_reward_func": 0.52734375, | |
| "rewards/format_reward_func": 0.8567708333333334, | |
| "step": 674 | |
| }, | |
| { | |
| "completion_length": 250.25260416666666, | |
| "epoch": 0.7210666666666666, | |
| "grad_norm": 11.077900231538823, | |
| "kl": 32.757486979166664, | |
| "learning_rate": 4.910930033168713e-07, | |
| "loss": 0.0328, | |
| "reward": 1.36328125, | |
| "reward_std": 0.3774908346434434, | |
| "rewards/equation_reward_func": 0.4947916666666667, | |
| "rewards/format_reward_func": 0.8684895833333334, | |
| "step": 676 | |
| }, | |
| { | |
| "completion_length": 254.21875, | |
| "epoch": 0.7232, | |
| "grad_norm": 5.197156593926167, | |
| "kl": 39.943684895833336, | |
| "learning_rate": 4.910214618155579e-07, | |
| "loss": 0.0399, | |
| "reward": 1.38671875, | |
| "reward_std": 0.35181143569449586, | |
| "rewards/equation_reward_func": 0.51953125, | |
| "rewards/format_reward_func": 0.8671875, | |
| "step": 678 | |
| }, | |
| { | |
| "completion_length": 253.56380208333334, | |
| "epoch": 0.7253333333333334, | |
| "grad_norm": 4.162972679048109, | |
| "kl": 28.42578125, | |
| "learning_rate": 4.909496394027944e-07, | |
| "loss": 0.0284, | |
| "reward": 1.3854166666666667, | |
| "reward_std": 0.35443092696368694, | |
| "rewards/equation_reward_func": 0.5065104166666666, | |
| "rewards/format_reward_func": 0.87890625, | |
| "step": 680 | |
| }, | |
| { | |
| "completion_length": 251.81510416666666, | |
| "epoch": 0.7274666666666667, | |
| "grad_norm": 3.300290600189683, | |
| "kl": 23.735677083333332, | |
| "learning_rate": 4.908775361622904e-07, | |
| "loss": 0.0237, | |
| "reward": 1.3684895833333333, | |
| "reward_std": 0.36328887939453125, | |
| "rewards/equation_reward_func": 0.5013020833333334, | |
| "rewards/format_reward_func": 0.8671875, | |
| "step": 682 | |
| }, | |
| { | |
| "completion_length": 260.0950520833333, | |
| "epoch": 0.7296, | |
| "grad_norm": 2.788695393349116, | |
| "kl": 22.034342447916668, | |
| "learning_rate": 4.908051521780824e-07, | |
| "loss": 0.022, | |
| "reward": 1.3815104166666667, | |
| "reward_std": 0.3859184551984072, | |
| "rewards/equation_reward_func": 0.5091145833333334, | |
| "rewards/format_reward_func": 0.8723958333333334, | |
| "step": 684 | |
| }, | |
| { | |
| "completion_length": 253.86458333333334, | |
| "epoch": 0.7317333333333333, | |
| "grad_norm": 3.2232312582456326, | |
| "kl": 27.893391927083332, | |
| "learning_rate": 4.90732487534534e-07, | |
| "loss": 0.0279, | |
| "reward": 1.4010416666666667, | |
| "reward_std": 0.3411796099195878, | |
| "rewards/equation_reward_func": 0.5286458333333334, | |
| "rewards/format_reward_func": 0.8723958333333334, | |
| "step": 686 | |
| }, | |
| { | |
| "completion_length": 272.4479166666667, | |
| "epoch": 0.7338666666666667, | |
| "grad_norm": 4.409879476359022, | |
| "kl": 39.615885416666664, | |
| "learning_rate": 4.906595423163365e-07, | |
| "loss": 0.0396, | |
| "reward": 1.3502604166666667, | |
| "reward_std": 0.4136795463661353, | |
| "rewards/equation_reward_func": 0.5078125, | |
| "rewards/format_reward_func": 0.8424479166666666, | |
| "step": 688 | |
| }, | |
| { | |
| "completion_length": 256.2473958333333, | |
| "epoch": 0.736, | |
| "grad_norm": 2.9456919588023722, | |
| "kl": 42.8984375, | |
| "learning_rate": 4.905863166085075e-07, | |
| "loss": 0.0429, | |
| "reward": 1.35546875, | |
| "reward_std": 0.38246795410911244, | |
| "rewards/equation_reward_func": 0.4856770833333333, | |
| "rewards/format_reward_func": 0.8697916666666666, | |
| "step": 690 | |
| }, | |
| { | |
| "completion_length": 249.33854166666666, | |
| "epoch": 0.7381333333333333, | |
| "grad_norm": 5.1322307040859485, | |
| "kl": 31.854166666666668, | |
| "learning_rate": 4.90512810496392e-07, | |
| "loss": 0.0318, | |
| "reward": 1.3502604166666667, | |
| "reward_std": 0.36768273760875064, | |
| "rewards/equation_reward_func": 0.4856770833333333, | |
| "rewards/format_reward_func": 0.8645833333333334, | |
| "step": 692 | |
| }, | |
| { | |
| "completion_length": 234.74869791666666, | |
| "epoch": 0.7402666666666666, | |
| "grad_norm": 4.906635034600989, | |
| "kl": 16.584716796875, | |
| "learning_rate": 4.904390240656618e-07, | |
| "loss": 0.0166, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.33306999194125336, | |
| "rewards/equation_reward_func": 0.4973958333333333, | |
| "rewards/format_reward_func": 0.890625, | |
| "step": 694 | |
| }, | |
| { | |
| "completion_length": 248.109375, | |
| "epoch": 0.7424, | |
| "grad_norm": 2.3830257943889133, | |
| "kl": 22.5869140625, | |
| "learning_rate": 4.90364957402315e-07, | |
| "loss": 0.0226, | |
| "reward": 1.39453125, | |
| "reward_std": 0.3410325050354004, | |
| "rewards/equation_reward_func": 0.5260416666666666, | |
| "rewards/format_reward_func": 0.8684895833333334, | |
| "step": 696 | |
| }, | |
| { | |
| "completion_length": 245.421875, | |
| "epoch": 0.7445333333333334, | |
| "grad_norm": 10.270464597328578, | |
| "kl": 36.576497395833336, | |
| "learning_rate": 4.902906105926767e-07, | |
| "loss": 0.0366, | |
| "reward": 1.3619791666666667, | |
| "reward_std": 0.38998700057466823, | |
| "rewards/equation_reward_func": 0.5078125, | |
| "rewards/format_reward_func": 0.8541666666666666, | |
| "step": 698 | |
| }, | |
| { | |
| "completion_length": 227.67838541666666, | |
| "epoch": 0.7466666666666667, | |
| "grad_norm": 4.674438343974011, | |
| "kl": 33.372395833333336, | |
| "learning_rate": 4.902159837233984e-07, | |
| "loss": 0.0334, | |
| "reward": 1.4361979166666667, | |
| "reward_std": 0.3358720870067676, | |
| "rewards/equation_reward_func": 0.55078125, | |
| "rewards/format_reward_func": 0.8854166666666666, | |
| "step": 700 | |
| }, | |
| { | |
| "completion_length": 226.20833333333334, | |
| "epoch": 0.7488, | |
| "grad_norm": 1.999768842124171, | |
| "kl": 27.25830078125, | |
| "learning_rate": 4.90141076881458e-07, | |
| "loss": 0.0272, | |
| "reward": 1.38671875, | |
| "reward_std": 0.32332510128617287, | |
| "rewards/equation_reward_func": 0.5, | |
| "rewards/format_reward_func": 0.88671875, | |
| "step": 702 | |
| }, | |
| { | |
| "completion_length": 231.26692708333334, | |
| "epoch": 0.7509333333333333, | |
| "grad_norm": 1.9087967252021911, | |
| "kl": 21.495442708333332, | |
| "learning_rate": 4.900658901541597e-07, | |
| "loss": 0.0215, | |
| "reward": 1.3828125, | |
| "reward_std": 0.3242713641375303, | |
| "rewards/equation_reward_func": 0.5091145833333334, | |
| "rewards/format_reward_func": 0.8736979166666666, | |
| "step": 704 | |
| }, | |
| { | |
| "completion_length": 223.34244791666666, | |
| "epoch": 0.7530666666666667, | |
| "grad_norm": 2.8228761626678285, | |
| "kl": 26.019205729166668, | |
| "learning_rate": 4.89990423629134e-07, | |
| "loss": 0.026, | |
| "reward": 1.37890625, | |
| "reward_std": 0.35839930549263954, | |
| "rewards/equation_reward_func": 0.5026041666666666, | |
| "rewards/format_reward_func": 0.8763020833333334, | |
| "step": 706 | |
| }, | |
| { | |
| "completion_length": 206.76822916666666, | |
| "epoch": 0.7552, | |
| "grad_norm": 3.546000181972748, | |
| "kl": 15.434895833333334, | |
| "learning_rate": 4.899146773943373e-07, | |
| "loss": 0.0154, | |
| "reward": 1.421875, | |
| "reward_std": 0.3204585984349251, | |
| "rewards/equation_reward_func": 0.5234375, | |
| "rewards/format_reward_func": 0.8984375, | |
| "step": 708 | |
| }, | |
| { | |
| "completion_length": 200.12239583333334, | |
| "epoch": 0.7573333333333333, | |
| "grad_norm": 1.9447340723365831, | |
| "kl": 16.1328125, | |
| "learning_rate": 4.898386515380522e-07, | |
| "loss": 0.0161, | |
| "reward": 1.4010416666666667, | |
| "reward_std": 0.2934648326287667, | |
| "rewards/equation_reward_func": 0.4947916666666667, | |
| "rewards/format_reward_func": 0.90625, | |
| "step": 710 | |
| }, | |
| { | |
| "completion_length": 221.609375, | |
| "epoch": 0.7594666666666666, | |
| "grad_norm": 7.119506967949804, | |
| "kl": 29.274739583333332, | |
| "learning_rate": 4.897623461488873e-07, | |
| "loss": 0.0293, | |
| "reward": 1.4127604166666667, | |
| "reward_std": 0.3628179381291072, | |
| "rewards/equation_reward_func": 0.5325520833333334, | |
| "rewards/format_reward_func": 0.8802083333333334, | |
| "step": 712 | |
| }, | |
| { | |
| "completion_length": 197.0078125, | |
| "epoch": 0.7616, | |
| "grad_norm": 2.2006600312704476, | |
| "kl": 19.140299479166668, | |
| "learning_rate": 4.896857613157764e-07, | |
| "loss": 0.0191, | |
| "reward": 1.4453125, | |
| "reward_std": 0.2928504558900992, | |
| "rewards/equation_reward_func": 0.5390625, | |
| "rewards/format_reward_func": 0.90625, | |
| "step": 714 | |
| }, | |
| { | |
| "completion_length": 196.37109375, | |
| "epoch": 0.7637333333333334, | |
| "grad_norm": 1.961040631945227, | |
| "kl": 22.311686197916668, | |
| "learning_rate": 4.896088971279798e-07, | |
| "loss": 0.0223, | |
| "reward": 1.4700520833333333, | |
| "reward_std": 0.2858835496008396, | |
| "rewards/equation_reward_func": 0.5651041666666666, | |
| "rewards/format_reward_func": 0.9049479166666666, | |
| "step": 716 | |
| }, | |
| { | |
| "completion_length": 201.67708333333334, | |
| "epoch": 0.7658666666666667, | |
| "grad_norm": 1.5234872187522321, | |
| "kl": 23.357421875, | |
| "learning_rate": 4.89531753675083e-07, | |
| "loss": 0.0234, | |
| "reward": 1.3580729166666667, | |
| "reward_std": 0.3083108322074016, | |
| "rewards/equation_reward_func": 0.4609375, | |
| "rewards/format_reward_func": 0.8971354166666666, | |
| "step": 718 | |
| }, | |
| { | |
| "completion_length": 208.79166666666666, | |
| "epoch": 0.768, | |
| "grad_norm": 3.6963104553188706, | |
| "kl": 18.586100260416668, | |
| "learning_rate": 4.894543310469967e-07, | |
| "loss": 0.0186, | |
| "reward": 1.4622395833333333, | |
| "reward_std": 0.2939829503496488, | |
| "rewards/equation_reward_func": 0.5611979166666666, | |
| "rewards/format_reward_func": 0.9010416666666666, | |
| "step": 720 | |
| }, | |
| { | |
| "completion_length": 222.1015625, | |
| "epoch": 0.7701333333333333, | |
| "grad_norm": 2.7968210390348003, | |
| "kl": 30.41015625, | |
| "learning_rate": 4.893766293339576e-07, | |
| "loss": 0.0304, | |
| "reward": 1.44140625, | |
| "reward_std": 0.3362676364680131, | |
| "rewards/equation_reward_func": 0.5703125, | |
| "rewards/format_reward_func": 0.87109375, | |
| "step": 722 | |
| }, | |
| { | |
| "completion_length": 211.19661458333334, | |
| "epoch": 0.7722666666666667, | |
| "grad_norm": 3.582821096642741, | |
| "kl": 20.222005208333332, | |
| "learning_rate": 4.892986486265272e-07, | |
| "loss": 0.0202, | |
| "reward": 1.4205729166666667, | |
| "reward_std": 0.32969778838256997, | |
| "rewards/equation_reward_func": 0.52734375, | |
| "rewards/format_reward_func": 0.8932291666666666, | |
| "step": 724 | |
| }, | |
| { | |
| "completion_length": 219.22005208333334, | |
| "epoch": 0.7744, | |
| "grad_norm": 2.000091561846835, | |
| "kl": 31.3173828125, | |
| "learning_rate": 4.892203890155923e-07, | |
| "loss": 0.0313, | |
| "reward": 1.4348958333333333, | |
| "reward_std": 0.334359818448623, | |
| "rewards/equation_reward_func": 0.5481770833333334, | |
| "rewards/format_reward_func": 0.88671875, | |
| "step": 726 | |
| }, | |
| { | |
| "completion_length": 211.77213541666666, | |
| "epoch": 0.7765333333333333, | |
| "grad_norm": 9.521052503749381, | |
| "kl": 23.0830078125, | |
| "learning_rate": 4.891418505923646e-07, | |
| "loss": 0.0231, | |
| "reward": 1.3658854166666667, | |
| "reward_std": 0.3382980264723301, | |
| "rewards/equation_reward_func": 0.4830729166666667, | |
| "rewards/format_reward_func": 0.8828125, | |
| "step": 728 | |
| }, | |
| { | |
| "completion_length": 220.86458333333334, | |
| "epoch": 0.7786666666666666, | |
| "grad_norm": 2.3336213548129896, | |
| "kl": 12.780436197916666, | |
| "learning_rate": 4.890630334483814e-07, | |
| "loss": 0.0128, | |
| "reward": 1.3919270833333333, | |
| "reward_std": 0.3309708187977473, | |
| "rewards/equation_reward_func": 0.5104166666666666, | |
| "rewards/format_reward_func": 0.8815104166666666, | |
| "step": 730 | |
| }, | |
| { | |
| "completion_length": 216.26822916666666, | |
| "epoch": 0.7808, | |
| "grad_norm": 2.5412144354172685, | |
| "kl": 10.198893229166666, | |
| "learning_rate": 4.88983937675504e-07, | |
| "loss": 0.0102, | |
| "reward": 1.328125, | |
| "reward_std": 0.34829286734263104, | |
| "rewards/equation_reward_func": 0.4401041666666667, | |
| "rewards/format_reward_func": 0.8880208333333334, | |
| "step": 732 | |
| }, | |
| { | |
| "completion_length": 221.50130208333334, | |
| "epoch": 0.7829333333333334, | |
| "grad_norm": 1.6209740698097208, | |
| "kl": 12.032552083333334, | |
| "learning_rate": 4.88904563365919e-07, | |
| "loss": 0.012, | |
| "reward": 1.37890625, | |
| "reward_std": 0.2956284632285436, | |
| "rewards/equation_reward_func": 0.48828125, | |
| "rewards/format_reward_func": 0.890625, | |
| "step": 734 | |
| }, | |
| { | |
| "completion_length": 215.4765625, | |
| "epoch": 0.7850666666666667, | |
| "grad_norm": 2.460151498161383, | |
| "kl": 14.299479166666666, | |
| "learning_rate": 4.888249106121374e-07, | |
| "loss": 0.0143, | |
| "reward": 1.4192708333333333, | |
| "reward_std": 0.3206122623135646, | |
| "rewards/equation_reward_func": 0.5325520833333334, | |
| "rewards/format_reward_func": 0.88671875, | |
| "step": 736 | |
| }, | |
| { | |
| "completion_length": 206.46875, | |
| "epoch": 0.7872, | |
| "grad_norm": 2.119655719312216, | |
| "kl": 17.51953125, | |
| "learning_rate": 4.887449795069948e-07, | |
| "loss": 0.0175, | |
| "reward": 1.4583333333333333, | |
| "reward_std": 0.29083903071781, | |
| "rewards/equation_reward_func": 0.5494791666666666, | |
| "rewards/format_reward_func": 0.9088541666666666, | |
| "step": 738 | |
| }, | |
| { | |
| "completion_length": 205.38671875, | |
| "epoch": 0.7893333333333333, | |
| "grad_norm": 4.13906719686349, | |
| "kl": 20.146565755208332, | |
| "learning_rate": 4.886647701436513e-07, | |
| "loss": 0.0201, | |
| "reward": 1.4049479166666667, | |
| "reward_std": 0.29699727271993953, | |
| "rewards/equation_reward_func": 0.5026041666666666, | |
| "rewards/format_reward_func": 0.90234375, | |
| "step": 740 | |
| }, | |
| { | |
| "completion_length": 228.24348958333334, | |
| "epoch": 0.7914666666666667, | |
| "grad_norm": 4.866015840774327, | |
| "kl": 26.003255208333332, | |
| "learning_rate": 4.885842826155911e-07, | |
| "loss": 0.026, | |
| "reward": 1.3984375, | |
| "reward_std": 0.359449381629626, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.8776041666666666, | |
| "step": 742 | |
| }, | |
| { | |
| "completion_length": 224.703125, | |
| "epoch": 0.7936, | |
| "grad_norm": 4.70691976334331, | |
| "kl": 21.563802083333332, | |
| "learning_rate": 4.885035170166228e-07, | |
| "loss": 0.0215, | |
| "reward": 1.4244791666666667, | |
| "reward_std": 0.3025323698918025, | |
| "rewards/equation_reward_func": 0.53515625, | |
| "rewards/format_reward_func": 0.8893229166666666, | |
| "step": 744 | |
| }, | |
| { | |
| "completion_length": 224.06119791666666, | |
| "epoch": 0.7957333333333333, | |
| "grad_norm": 2.3442400266727303, | |
| "kl": 14.15625, | |
| "learning_rate": 4.88422473440879e-07, | |
| "loss": 0.0142, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.3589371008177598, | |
| "rewards/equation_reward_func": 0.5130208333333334, | |
| "rewards/format_reward_func": 0.875, | |
| "step": 746 | |
| }, | |
| { | |
| "completion_length": 209.39322916666666, | |
| "epoch": 0.7978666666666666, | |
| "grad_norm": 2.221549406203615, | |
| "kl": 16.8291015625, | |
| "learning_rate": 4.883411519828163e-07, | |
| "loss": 0.0168, | |
| "reward": 1.44140625, | |
| "reward_std": 0.3366705334434907, | |
| "rewards/equation_reward_func": 0.5598958333333334, | |
| "rewards/format_reward_func": 0.8815104166666666, | |
| "step": 748 | |
| }, | |
| { | |
| "completion_length": 226.95703125, | |
| "epoch": 0.8, | |
| "grad_norm": 5.243956980247824, | |
| "kl": 15.2490234375, | |
| "learning_rate": 4.882595527372152e-07, | |
| "loss": 0.0152, | |
| "reward": 1.3841145833333333, | |
| "reward_std": 0.3282747473567724, | |
| "rewards/equation_reward_func": 0.5065104166666666, | |
| "rewards/format_reward_func": 0.8776041666666666, | |
| "step": 750 | |
| }, | |
| { | |
| "completion_length": 211.83463541666666, | |
| "epoch": 0.8021333333333334, | |
| "grad_norm": 6.408437316281276, | |
| "kl": 15.405110677083334, | |
| "learning_rate": 4.881776757991799e-07, | |
| "loss": 0.0154, | |
| "reward": 1.34765625, | |
| "reward_std": 0.38042688742280006, | |
| "rewards/equation_reward_func": 0.4778645833333333, | |
| "rewards/format_reward_func": 0.8697916666666666, | |
| "step": 752 | |
| }, | |
| { | |
| "completion_length": 230.16796875, | |
| "epoch": 0.8042666666666667, | |
| "grad_norm": 10.922414986232084, | |
| "kl": 18.727213541666668, | |
| "learning_rate": 4.880955212641383e-07, | |
| "loss": 0.0187, | |
| "reward": 1.30859375, | |
| "reward_std": 0.36267814723153907, | |
| "rewards/equation_reward_func": 0.4518229166666667, | |
| "rewards/format_reward_func": 0.8567708333333334, | |
| "step": 754 | |
| }, | |
| { | |
| "completion_length": 209.19401041666666, | |
| "epoch": 0.8064, | |
| "grad_norm": 9.466033103944222, | |
| "kl": 19.222005208333332, | |
| "learning_rate": 4.880130892278419e-07, | |
| "loss": 0.0192, | |
| "reward": 1.39453125, | |
| "reward_std": 0.3451489483316739, | |
| "rewards/equation_reward_func": 0.5091145833333334, | |
| "rewards/format_reward_func": 0.8854166666666666, | |
| "step": 756 | |
| }, | |
| { | |
| "completion_length": 190.51041666666666, | |
| "epoch": 0.8085333333333333, | |
| "grad_norm": 9.39016850759582, | |
| "kl": 16.855143229166668, | |
| "learning_rate": 4.879303797863654e-07, | |
| "loss": 0.0168, | |
| "reward": 1.4205729166666667, | |
| "reward_std": 0.31503582124908763, | |
| "rewards/equation_reward_func": 0.5130208333333334, | |
| "rewards/format_reward_func": 0.9075520833333334, | |
| "step": 758 | |
| }, | |
| { | |
| "completion_length": 196.10286458333334, | |
| "epoch": 0.8106666666666666, | |
| "grad_norm": 11.777082828578369, | |
| "kl": 33.12890625, | |
| "learning_rate": 4.878473930361071e-07, | |
| "loss": 0.0331, | |
| "reward": 1.45703125, | |
| "reward_std": 0.30872830127676326, | |
| "rewards/equation_reward_func": 0.5546875, | |
| "rewards/format_reward_func": 0.90234375, | |
| "step": 760 | |
| }, | |
| { | |
| "completion_length": 172.33463541666666, | |
| "epoch": 0.8128, | |
| "grad_norm": 5.07497175877028, | |
| "kl": 23.351399739583332, | |
| "learning_rate": 4.877641290737883e-07, | |
| "loss": 0.0234, | |
| "reward": 1.4270833333333333, | |
| "reward_std": 0.2592955802877744, | |
| "rewards/equation_reward_func": 0.4986979166666667, | |
| "rewards/format_reward_func": 0.9283854166666666, | |
| "step": 762 | |
| }, | |
| { | |
| "completion_length": 177.34765625, | |
| "epoch": 0.8149333333333333, | |
| "grad_norm": 6.439906287096626, | |
| "kl": 53.692057291666664, | |
| "learning_rate": 4.876805879964536e-07, | |
| "loss": 0.0537, | |
| "reward": 1.4635416666666667, | |
| "reward_std": 0.2874262264619271, | |
| "rewards/equation_reward_func": 0.5572916666666666, | |
| "rewards/format_reward_func": 0.90625, | |
| "step": 764 | |
| }, | |
| { | |
| "completion_length": 191.18880208333334, | |
| "epoch": 0.8170666666666667, | |
| "grad_norm": 9.899406652829523, | |
| "kl": 57.244140625, | |
| "learning_rate": 4.875967699014704e-07, | |
| "loss": 0.0572, | |
| "reward": 1.4244791666666667, | |
| "reward_std": 0.3358611296862364, | |
| "rewards/equation_reward_func": 0.5234375, | |
| "rewards/format_reward_func": 0.9010416666666666, | |
| "step": 766 | |
| }, | |
| { | |
| "completion_length": 176.20182291666666, | |
| "epoch": 0.8192, | |
| "grad_norm": 7.441259446009201, | |
| "kl": 22.376627604166668, | |
| "learning_rate": 4.875126748865289e-07, | |
| "loss": 0.0224, | |
| "reward": 1.4140625, | |
| "reward_std": 0.2974378342429797, | |
| "rewards/equation_reward_func": 0.5104166666666666, | |
| "rewards/format_reward_func": 0.9036458333333334, | |
| "step": 768 | |
| }, | |
| { | |
| "completion_length": 190.7265625, | |
| "epoch": 0.8213333333333334, | |
| "grad_norm": 7.801380785939985, | |
| "kl": 15.329915364583334, | |
| "learning_rate": 4.874283030496423e-07, | |
| "loss": 0.0153, | |
| "reward": 1.4518229166666667, | |
| "reward_std": 0.31089848776658374, | |
| "rewards/equation_reward_func": 0.5546875, | |
| "rewards/format_reward_func": 0.8971354166666666, | |
| "step": 770 | |
| }, | |
| { | |
| "completion_length": 172.86197916666666, | |
| "epoch": 0.8234666666666667, | |
| "grad_norm": 2.0591925534369926, | |
| "kl": 12.505615234375, | |
| "learning_rate": 4.873436544891463e-07, | |
| "loss": 0.0125, | |
| "reward": 1.4518229166666667, | |
| "reward_std": 0.25407776422798634, | |
| "rewards/equation_reward_func": 0.52734375, | |
| "rewards/format_reward_func": 0.9244791666666666, | |
| "step": 772 | |
| }, | |
| { | |
| "completion_length": 170.328125, | |
| "epoch": 0.8256, | |
| "grad_norm": 5.931956824165939, | |
| "kl": 32.973958333333336, | |
| "learning_rate": 4.872587293036991e-07, | |
| "loss": 0.033, | |
| "reward": 1.484375, | |
| "reward_std": 0.2883717479805152, | |
| "rewards/equation_reward_func": 0.5611979166666666, | |
| "rewards/format_reward_func": 0.9231770833333334, | |
| "step": 774 | |
| }, | |
| { | |
| "completion_length": 184.81380208333334, | |
| "epoch": 0.8277333333333333, | |
| "grad_norm": 19.117322332811135, | |
| "kl": 100.71451822916667, | |
| "learning_rate": 4.871735275922812e-07, | |
| "loss": 0.1006, | |
| "reward": 1.4622395833333333, | |
| "reward_std": 0.3042221336315076, | |
| "rewards/equation_reward_func": 0.55078125, | |
| "rewards/format_reward_func": 0.9114583333333334, | |
| "step": 776 | |
| }, | |
| { | |
| "completion_length": 177.85677083333334, | |
| "epoch": 0.8298666666666666, | |
| "grad_norm": 4.511878959963986, | |
| "kl": 43.746744791666664, | |
| "learning_rate": 4.870880494541957e-07, | |
| "loss": 0.0437, | |
| "reward": 1.4114583333333333, | |
| "reward_std": 0.3112252553304036, | |
| "rewards/equation_reward_func": 0.5091145833333334, | |
| "rewards/format_reward_func": 0.90234375, | |
| "step": 778 | |
| }, | |
| { | |
| "completion_length": 184.40755208333334, | |
| "epoch": 0.832, | |
| "grad_norm": 2.900324420663362, | |
| "kl": 20.220052083333332, | |
| "learning_rate": 4.870022949890676e-07, | |
| "loss": 0.0202, | |
| "reward": 1.4765625, | |
| "reward_std": 0.3017990918209155, | |
| "rewards/equation_reward_func": 0.5833333333333334, | |
| "rewards/format_reward_func": 0.8932291666666666, | |
| "step": 780 | |
| }, | |
| { | |
| "completion_length": 205.10416666666666, | |
| "epoch": 0.8341333333333333, | |
| "grad_norm": 3.965704790940694, | |
| "kl": 17.569010416666668, | |
| "learning_rate": 4.869162642968441e-07, | |
| "loss": 0.0176, | |
| "reward": 1.37890625, | |
| "reward_std": 0.33124336910744506, | |
| "rewards/equation_reward_func": 0.4986979166666667, | |
| "rewards/format_reward_func": 0.8802083333333334, | |
| "step": 782 | |
| }, | |
| { | |
| "completion_length": 187.625, | |
| "epoch": 0.8362666666666667, | |
| "grad_norm": 2.5958796863136384, | |
| "kl": 15.1669921875, | |
| "learning_rate": 4.868299574777944e-07, | |
| "loss": 0.0151, | |
| "reward": 1.46875, | |
| "reward_std": 0.2996600307524204, | |
| "rewards/equation_reward_func": 0.5833333333333334, | |
| "rewards/format_reward_func": 0.8854166666666666, | |
| "step": 784 | |
| }, | |
| { | |
| "completion_length": 206.13411458333334, | |
| "epoch": 0.8384, | |
| "grad_norm": 5.670280244123843, | |
| "kl": 27.744791666666668, | |
| "learning_rate": 4.867433746325093e-07, | |
| "loss": 0.0277, | |
| "reward": 1.4348958333333333, | |
| "reward_std": 0.3434105546524127, | |
| "rewards/equation_reward_func": 0.5481770833333334, | |
| "rewards/format_reward_func": 0.88671875, | |
| "step": 786 | |
| }, | |
| { | |
| "completion_length": 217.87369791666666, | |
| "epoch": 0.8405333333333334, | |
| "grad_norm": 2.528131042178797, | |
| "kl": 28.115234375, | |
| "learning_rate": 4.866565158619015e-07, | |
| "loss": 0.0281, | |
| "reward": 1.4231770833333333, | |
| "reward_std": 0.2985703262190024, | |
| "rewards/equation_reward_func": 0.5338541666666666, | |
| "rewards/format_reward_func": 0.8893229166666666, | |
| "step": 788 | |
| }, | |
| { | |
| "completion_length": 198.26953125, | |
| "epoch": 0.8426666666666667, | |
| "grad_norm": 1.3873823145226751, | |
| "kl": 19.79248046875, | |
| "learning_rate": 4.865693812672051e-07, | |
| "loss": 0.0198, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.3136424471934636, | |
| "rewards/equation_reward_func": 0.4986979166666667, | |
| "rewards/format_reward_func": 0.8893229166666666, | |
| "step": 790 | |
| }, | |
| { | |
| "completion_length": 222.60546875, | |
| "epoch": 0.8448, | |
| "grad_norm": 2.392626146041069, | |
| "kl": 15.246744791666666, | |
| "learning_rate": 4.864819709499761e-07, | |
| "loss": 0.0153, | |
| "reward": 1.3893229166666667, | |
| "reward_std": 0.3329671509563923, | |
| "rewards/equation_reward_func": 0.515625, | |
| "rewards/format_reward_func": 0.8736979166666666, | |
| "step": 792 | |
| }, | |
| { | |
| "completion_length": 207.55729166666666, | |
| "epoch": 0.8469333333333333, | |
| "grad_norm": 4.205734187398178, | |
| "kl": 13.869140625, | |
| "learning_rate": 4.863942850120913e-07, | |
| "loss": 0.0139, | |
| "reward": 1.4557291666666667, | |
| "reward_std": 0.3352503950397174, | |
| "rewards/equation_reward_func": 0.57421875, | |
| "rewards/format_reward_func": 0.8815104166666666, | |
| "step": 794 | |
| }, | |
| { | |
| "completion_length": 204.44921875, | |
| "epoch": 0.8490666666666666, | |
| "grad_norm": 2.766657105700164, | |
| "kl": 18.892578125, | |
| "learning_rate": 4.863063235557492e-07, | |
| "loss": 0.0189, | |
| "reward": 1.4361979166666667, | |
| "reward_std": 0.3388725432256858, | |
| "rewards/equation_reward_func": 0.5416666666666666, | |
| "rewards/format_reward_func": 0.89453125, | |
| "step": 796 | |
| }, | |
| { | |
| "completion_length": 232.20703125, | |
| "epoch": 0.8512, | |
| "grad_norm": 4.500186407642517, | |
| "kl": 21.697265625, | |
| "learning_rate": 4.86218086683469e-07, | |
| "loss": 0.0217, | |
| "reward": 1.328125, | |
| "reward_std": 0.3521396778523922, | |
| "rewards/equation_reward_func": 0.4778645833333333, | |
| "rewards/format_reward_func": 0.8502604166666666, | |
| "step": 798 | |
| }, | |
| { | |
| "completion_length": 217.30598958333334, | |
| "epoch": 0.8533333333333334, | |
| "grad_norm": 1.4200347808633123, | |
| "kl": 18.4765625, | |
| "learning_rate": 4.861295744980913e-07, | |
| "loss": 0.0185, | |
| "reward": 1.3997395833333333, | |
| "reward_std": 0.31914497415224713, | |
| "rewards/equation_reward_func": 0.5182291666666666, | |
| "rewards/format_reward_func": 0.8815104166666666, | |
| "step": 800 | |
| }, | |
| { | |
| "completion_length": 209.64713541666666, | |
| "epoch": 0.8554666666666667, | |
| "grad_norm": 2.6568580825960004, | |
| "kl": 21.154296875, | |
| "learning_rate": 4.860407871027773e-07, | |
| "loss": 0.0212, | |
| "reward": 1.3802083333333333, | |
| "reward_std": 0.3226910171409448, | |
| "rewards/equation_reward_func": 0.4986979166666667, | |
| "rewards/format_reward_func": 0.8815104166666666, | |
| "step": 802 | |
| }, | |
| { | |
| "completion_length": 187.90625, | |
| "epoch": 0.8576, | |
| "grad_norm": 2.0346419638842748, | |
| "kl": 12.96875, | |
| "learning_rate": 4.85951724601009e-07, | |
| "loss": 0.013, | |
| "reward": 1.4622395833333333, | |
| "reward_std": 0.2841908857226372, | |
| "rewards/equation_reward_func": 0.5494791666666666, | |
| "rewards/format_reward_func": 0.9127604166666666, | |
| "step": 804 | |
| }, | |
| { | |
| "completion_length": 208.39453125, | |
| "epoch": 0.8597333333333333, | |
| "grad_norm": 2.354702222109144, | |
| "kl": 13.754720052083334, | |
| "learning_rate": 4.858623870965893e-07, | |
| "loss": 0.0137, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.35531275781492394, | |
| "rewards/equation_reward_func": 0.4973958333333333, | |
| "rewards/format_reward_func": 0.890625, | |
| "step": 806 | |
| }, | |
| { | |
| "completion_length": 208.76171875, | |
| "epoch": 0.8618666666666667, | |
| "grad_norm": 2.586469310112668, | |
| "kl": 16.62109375, | |
| "learning_rate": 4.857727746936413e-07, | |
| "loss": 0.0166, | |
| "reward": 1.4401041666666667, | |
| "reward_std": 0.3436004525671403, | |
| "rewards/equation_reward_func": 0.5533854166666666, | |
| "rewards/format_reward_func": 0.88671875, | |
| "step": 808 | |
| }, | |
| { | |
| "completion_length": 202.38671875, | |
| "epoch": 0.864, | |
| "grad_norm": 2.3515945760460775, | |
| "kl": 17.2109375, | |
| "learning_rate": 4.856828874966086e-07, | |
| "loss": 0.0172, | |
| "reward": 1.4192708333333333, | |
| "reward_std": 0.3270386755466461, | |
| "rewards/equation_reward_func": 0.5286458333333334, | |
| "rewards/format_reward_func": 0.890625, | |
| "step": 810 | |
| }, | |
| { | |
| "completion_length": 207.5859375, | |
| "epoch": 0.8661333333333333, | |
| "grad_norm": 2.15513130915253, | |
| "kl": 14.272135416666666, | |
| "learning_rate": 4.855927256102549e-07, | |
| "loss": 0.0143, | |
| "reward": 1.4114583333333333, | |
| "reward_std": 0.3226562545945247, | |
| "rewards/equation_reward_func": 0.515625, | |
| "rewards/format_reward_func": 0.8958333333333334, | |
| "step": 812 | |
| }, | |
| { | |
| "completion_length": 217.8984375, | |
| "epoch": 0.8682666666666666, | |
| "grad_norm": 1.5633348129958895, | |
| "kl": 24.08203125, | |
| "learning_rate": 4.855022891396645e-07, | |
| "loss": 0.0241, | |
| "reward": 1.4153645833333333, | |
| "reward_std": 0.31543430499732494, | |
| "rewards/equation_reward_func": 0.53515625, | |
| "rewards/format_reward_func": 0.8802083333333334, | |
| "step": 814 | |
| }, | |
| { | |
| "completion_length": 228.98177083333334, | |
| "epoch": 0.8704, | |
| "grad_norm": 1.8363326271221636, | |
| "kl": 23.045572916666668, | |
| "learning_rate": 4.854115781902414e-07, | |
| "loss": 0.023, | |
| "reward": 1.3216145833333333, | |
| "reward_std": 0.36401341545085114, | |
| "rewards/equation_reward_func": 0.4557291666666667, | |
| "rewards/format_reward_func": 0.8658854166666666, | |
| "step": 816 | |
| }, | |
| { | |
| "completion_length": 228.53255208333334, | |
| "epoch": 0.8725333333333334, | |
| "grad_norm": 4.261071506848582, | |
| "kl": 16.990885416666668, | |
| "learning_rate": 4.853205928677094e-07, | |
| "loss": 0.017, | |
| "reward": 1.4427083333333333, | |
| "reward_std": 0.3975053131580353, | |
| "rewards/equation_reward_func": 0.5755208333333334, | |
| "rewards/format_reward_func": 0.8671875, | |
| "step": 818 | |
| }, | |
| { | |
| "completion_length": 228.9375, | |
| "epoch": 0.8746666666666667, | |
| "grad_norm": 2.337832807064994, | |
| "kl": 20.363932291666668, | |
| "learning_rate": 4.852293332781124e-07, | |
| "loss": 0.0203, | |
| "reward": 1.4231770833333333, | |
| "reward_std": 0.35306357095638913, | |
| "rewards/equation_reward_func": 0.56640625, | |
| "rewards/format_reward_func": 0.8567708333333334, | |
| "step": 820 | |
| }, | |
| { | |
| "completion_length": 238.52864583333334, | |
| "epoch": 0.8768, | |
| "grad_norm": 2.7886415191859637, | |
| "kl": 18.612630208333332, | |
| "learning_rate": 4.851377995278138e-07, | |
| "loss": 0.0186, | |
| "reward": 1.3385416666666667, | |
| "reward_std": 0.3689487110823393, | |
| "rewards/equation_reward_func": 0.48046875, | |
| "rewards/format_reward_func": 0.8580729166666666, | |
| "step": 822 | |
| }, | |
| { | |
| "completion_length": 236.01432291666666, | |
| "epoch": 0.8789333333333333, | |
| "grad_norm": 3.3524299026028355, | |
| "kl": 21.169270833333332, | |
| "learning_rate": 4.850459917234965e-07, | |
| "loss": 0.0212, | |
| "reward": 1.3932291666666667, | |
| "reward_std": 0.38298607679704827, | |
| "rewards/equation_reward_func": 0.5494791666666666, | |
| "rewards/format_reward_func": 0.84375, | |
| "step": 824 | |
| }, | |
| { | |
| "completion_length": 223.80859375, | |
| "epoch": 0.8810666666666667, | |
| "grad_norm": 4.348411565717411, | |
| "kl": 18.237955729166668, | |
| "learning_rate": 4.849539099721628e-07, | |
| "loss": 0.0182, | |
| "reward": 1.3229166666666667, | |
| "reward_std": 0.38552580773830414, | |
| "rewards/equation_reward_func": 0.4596354166666667, | |
| "rewards/format_reward_func": 0.86328125, | |
| "step": 826 | |
| }, | |
| { | |
| "completion_length": 220.23828125, | |
| "epoch": 0.8832, | |
| "grad_norm": 2.600281097180113, | |
| "kl": 17.2734375, | |
| "learning_rate": 4.848615543811344e-07, | |
| "loss": 0.0173, | |
| "reward": 1.3763020833333333, | |
| "reward_std": 0.36031660561760265, | |
| "rewards/equation_reward_func": 0.51171875, | |
| "rewards/format_reward_func": 0.8645833333333334, | |
| "step": 828 | |
| }, | |
| { | |
| "completion_length": 216.88671875, | |
| "epoch": 0.8853333333333333, | |
| "grad_norm": 3.502135067665064, | |
| "kl": 26.11328125, | |
| "learning_rate": 4.847689250580522e-07, | |
| "loss": 0.0261, | |
| "reward": 1.3919270833333333, | |
| "reward_std": 0.34587128832936287, | |
| "rewards/equation_reward_func": 0.5104166666666666, | |
| "rewards/format_reward_func": 0.8815104166666666, | |
| "step": 830 | |
| }, | |
| { | |
| "completion_length": 212.72395833333334, | |
| "epoch": 0.8874666666666666, | |
| "grad_norm": 4.742202294476256, | |
| "kl": 29.809895833333332, | |
| "learning_rate": 4.846760221108759e-07, | |
| "loss": 0.0298, | |
| "reward": 1.3815104166666667, | |
| "reward_std": 0.3655142703404029, | |
| "rewards/equation_reward_func": 0.5091145833333334, | |
| "rewards/format_reward_func": 0.8723958333333334, | |
| "step": 832 | |
| }, | |
| { | |
| "completion_length": 219.37239583333334, | |
| "epoch": 0.8896, | |
| "grad_norm": 2.8780509871255027, | |
| "kl": 18.9609375, | |
| "learning_rate": 4.845828456478842e-07, | |
| "loss": 0.0189, | |
| "reward": 1.35546875, | |
| "reward_std": 0.37881906889379025, | |
| "rewards/equation_reward_func": 0.4791666666666667, | |
| "rewards/format_reward_func": 0.8763020833333334, | |
| "step": 834 | |
| }, | |
| { | |
| "completion_length": 239.15885416666666, | |
| "epoch": 0.8917333333333334, | |
| "grad_norm": 2.7144243125850496, | |
| "kl": 17.541666666666668, | |
| "learning_rate": 4.844893957776749e-07, | |
| "loss": 0.0175, | |
| "reward": 1.3515625, | |
| "reward_std": 0.4374156165868044, | |
| "rewards/equation_reward_func": 0.5078125, | |
| "rewards/format_reward_func": 0.84375, | |
| "step": 836 | |
| }, | |
| { | |
| "completion_length": 222.07942708333334, | |
| "epoch": 0.8938666666666667, | |
| "grad_norm": 2.0146708012598165, | |
| "kl": 13.12890625, | |
| "learning_rate": 4.843956726091638e-07, | |
| "loss": 0.0131, | |
| "reward": 1.3606770833333333, | |
| "reward_std": 0.3330396128197511, | |
| "rewards/equation_reward_func": 0.5026041666666666, | |
| "rewards/format_reward_func": 0.8580729166666666, | |
| "step": 838 | |
| }, | |
| { | |
| "completion_length": 238.79427083333334, | |
| "epoch": 0.896, | |
| "grad_norm": 2.5707836502387527, | |
| "kl": 23.489583333333332, | |
| "learning_rate": 4.843016762515859e-07, | |
| "loss": 0.0235, | |
| "reward": 1.34765625, | |
| "reward_std": 0.39168185989061993, | |
| "rewards/equation_reward_func": 0.4986979166666667, | |
| "rewards/format_reward_func": 0.8489583333333334, | |
| "step": 840 | |
| }, | |
| { | |
| "completion_length": 254.77994791666666, | |
| "epoch": 0.8981333333333333, | |
| "grad_norm": 1.7075413213354487, | |
| "kl": 20.393229166666668, | |
| "learning_rate": 4.842074068144942e-07, | |
| "loss": 0.0204, | |
| "reward": 1.3372395833333333, | |
| "reward_std": 0.36391859501600266, | |
| "rewards/equation_reward_func": 0.5052083333333334, | |
| "rewards/format_reward_func": 0.83203125, | |
| "step": 842 | |
| }, | |
| { | |
| "completion_length": 253.69270833333334, | |
| "epoch": 0.9002666666666667, | |
| "grad_norm": 3.032707691843098, | |
| "kl": 25.548828125, | |
| "learning_rate": 4.841128644077602e-07, | |
| "loss": 0.0256, | |
| "reward": 1.3502604166666667, | |
| "reward_std": 0.42320782504975796, | |
| "rewards/equation_reward_func": 0.5286458333333334, | |
| "rewards/format_reward_func": 0.8216145833333334, | |
| "step": 844 | |
| }, | |
| { | |
| "completion_length": 255.1640625, | |
| "epoch": 0.9024, | |
| "grad_norm": 3.2804133315209105, | |
| "kl": 28.6796875, | |
| "learning_rate": 4.840180491415733e-07, | |
| "loss": 0.0287, | |
| "reward": 1.34765625, | |
| "reward_std": 0.39256734152634937, | |
| "rewards/equation_reward_func": 0.5286458333333334, | |
| "rewards/format_reward_func": 0.8190104166666666, | |
| "step": 846 | |
| }, | |
| { | |
| "completion_length": 217.97005208333334, | |
| "epoch": 0.9045333333333333, | |
| "grad_norm": 2.3946288257033737, | |
| "kl": 12.73388671875, | |
| "learning_rate": 4.839229611264412e-07, | |
| "loss": 0.0127, | |
| "reward": 1.3854166666666667, | |
| "reward_std": 0.36436425894498825, | |
| "rewards/equation_reward_func": 0.5182291666666666, | |
| "rewards/format_reward_func": 0.8671875, | |
| "step": 848 | |
| }, | |
| { | |
| "completion_length": 239.8125, | |
| "epoch": 0.9066666666666666, | |
| "grad_norm": 2.6065445269346723, | |
| "kl": 21.604817708333332, | |
| "learning_rate": 4.838276004731891e-07, | |
| "loss": 0.0216, | |
| "reward": 1.3229166666666667, | |
| "reward_std": 0.3817405191560586, | |
| "rewards/equation_reward_func": 0.4869791666666667, | |
| "rewards/format_reward_func": 0.8359375, | |
| "step": 850 | |
| }, | |
| { | |
| "completion_length": 224.51692708333334, | |
| "epoch": 0.9088, | |
| "grad_norm": 1.8094121819105295, | |
| "kl": 20.576822916666668, | |
| "learning_rate": 4.837319672929606e-07, | |
| "loss": 0.0205, | |
| "reward": 1.3645833333333333, | |
| "reward_std": 0.3578313384205103, | |
| "rewards/equation_reward_func": 0.5013020833333334, | |
| "rewards/format_reward_func": 0.86328125, | |
| "step": 852 | |
| }, | |
| { | |
| "completion_length": 240.80989583333334, | |
| "epoch": 0.9109333333333334, | |
| "grad_norm": 5.445192304214531, | |
| "kl": 31.32421875, | |
| "learning_rate": 4.836360616972163e-07, | |
| "loss": 0.0313, | |
| "reward": 1.3502604166666667, | |
| "reward_std": 0.39936963220437366, | |
| "rewards/equation_reward_func": 0.5247395833333334, | |
| "rewards/format_reward_func": 0.8255208333333334, | |
| "step": 854 | |
| }, | |
| { | |
| "completion_length": 225.64453125, | |
| "epoch": 0.9130666666666667, | |
| "grad_norm": 2.084418743658178, | |
| "kl": 22.400390625, | |
| "learning_rate": 4.835398837977346e-07, | |
| "loss": 0.0224, | |
| "reward": 1.3489583333333333, | |
| "reward_std": 0.3799449944247802, | |
| "rewards/equation_reward_func": 0.4947916666666667, | |
| "rewards/format_reward_func": 0.8541666666666666, | |
| "step": 856 | |
| }, | |
| { | |
| "completion_length": 198.30989583333334, | |
| "epoch": 0.9152, | |
| "grad_norm": 2.2868583168638685, | |
| "kl": 15.868815104166666, | |
| "learning_rate": 4.834434337066111e-07, | |
| "loss": 0.0159, | |
| "reward": 1.5065104166666667, | |
| "reward_std": 0.3062697723507881, | |
| "rewards/equation_reward_func": 0.6197916666666666, | |
| "rewards/format_reward_func": 0.88671875, | |
| "step": 858 | |
| }, | |
| { | |
| "completion_length": 235.27473958333334, | |
| "epoch": 0.9173333333333333, | |
| "grad_norm": 2.4184663248284486, | |
| "kl": 19.539713541666668, | |
| "learning_rate": 4.833467115362589e-07, | |
| "loss": 0.0195, | |
| "reward": 1.3958333333333333, | |
| "reward_std": 0.38691263149182004, | |
| "rewards/equation_reward_func": 0.5455729166666666, | |
| "rewards/format_reward_func": 0.8502604166666666, | |
| "step": 860 | |
| }, | |
| { | |
| "completion_length": 220.2421875, | |
| "epoch": 0.9194666666666667, | |
| "grad_norm": 1.8953630761169136, | |
| "kl": 17.268717447916668, | |
| "learning_rate": 4.83249717399408e-07, | |
| "loss": 0.0172, | |
| "reward": 1.4088541666666667, | |
| "reward_std": 0.3233968187123537, | |
| "rewards/equation_reward_func": 0.5325520833333334, | |
| "rewards/format_reward_func": 0.8763020833333334, | |
| "step": 862 | |
| }, | |
| { | |
| "completion_length": 210.0703125, | |
| "epoch": 0.9216, | |
| "grad_norm": 1.2473338192221384, | |
| "kl": 16.176432291666668, | |
| "learning_rate": 4.831524514091056e-07, | |
| "loss": 0.0162, | |
| "reward": 1.4322916666666667, | |
| "reward_std": 0.32856164189676446, | |
| "rewards/equation_reward_func": 0.56640625, | |
| "rewards/format_reward_func": 0.8658854166666666, | |
| "step": 864 | |
| }, | |
| { | |
| "completion_length": 190.62760416666666, | |
| "epoch": 0.9237333333333333, | |
| "grad_norm": 2.8040911081064106, | |
| "kl": 23.65087890625, | |
| "learning_rate": 4.830549136787153e-07, | |
| "loss": 0.0236, | |
| "reward": 1.3841145833333333, | |
| "reward_std": 0.3018671702593565, | |
| "rewards/equation_reward_func": 0.4830729166666667, | |
| "rewards/format_reward_func": 0.9010416666666666, | |
| "step": 866 | |
| }, | |
| { | |
| "completion_length": 183.64192708333334, | |
| "epoch": 0.9258666666666666, | |
| "grad_norm": 2.5580562440427292, | |
| "kl": 12.33544921875, | |
| "learning_rate": 4.82957104321918e-07, | |
| "loss": 0.0123, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.25162725647290546, | |
| "rewards/equation_reward_func": 0.4791666666666667, | |
| "rewards/format_reward_func": 0.9088541666666666, | |
| "step": 868 | |
| }, | |
| { | |
| "completion_length": 207.67057291666666, | |
| "epoch": 0.928, | |
| "grad_norm": 2.34346232909249, | |
| "kl": 16.564778645833332, | |
| "learning_rate": 4.828590234527106e-07, | |
| "loss": 0.0165, | |
| "reward": 1.4622395833333333, | |
| "reward_std": 0.3359068551411231, | |
| "rewards/equation_reward_func": 0.5885416666666666, | |
| "rewards/format_reward_func": 0.8736979166666666, | |
| "step": 870 | |
| }, | |
| { | |
| "completion_length": 195.39583333333334, | |
| "epoch": 0.9301333333333334, | |
| "grad_norm": 3.2794089508188273, | |
| "kl": 11.499348958333334, | |
| "learning_rate": 4.827606711854068e-07, | |
| "loss": 0.0115, | |
| "reward": 1.3958333333333333, | |
| "reward_std": 0.31888554493586224, | |
| "rewards/equation_reward_func": 0.5026041666666666, | |
| "rewards/format_reward_func": 0.8932291666666666, | |
| "step": 872 | |
| }, | |
| { | |
| "completion_length": 215.25130208333334, | |
| "epoch": 0.9322666666666667, | |
| "grad_norm": 4.587385621480892, | |
| "kl": 13.352213541666666, | |
| "learning_rate": 4.826620476346368e-07, | |
| "loss": 0.0134, | |
| "reward": 1.4075520833333333, | |
| "reward_std": 0.36119989554087323, | |
| "rewards/equation_reward_func": 0.5390625, | |
| "rewards/format_reward_func": 0.8684895833333334, | |
| "step": 874 | |
| }, | |
| { | |
| "completion_length": 207.91015625, | |
| "epoch": 0.9344, | |
| "grad_norm": 15.033986768910166, | |
| "kl": 16.684244791666668, | |
| "learning_rate": 4.825631529153466e-07, | |
| "loss": 0.0167, | |
| "reward": 1.3684895833333333, | |
| "reward_std": 0.34294764262934524, | |
| "rewards/equation_reward_func": 0.5, | |
| "rewards/format_reward_func": 0.8684895833333334, | |
| "step": 876 | |
| }, | |
| { | |
| "completion_length": 203.2890625, | |
| "epoch": 0.9365333333333333, | |
| "grad_norm": 12.101556686439572, | |
| "kl": 19.059407552083332, | |
| "learning_rate": 4.824639871427982e-07, | |
| "loss": 0.019, | |
| "reward": 1.45703125, | |
| "reward_std": 0.353108549490571, | |
| "rewards/equation_reward_func": 0.5859375, | |
| "rewards/format_reward_func": 0.87109375, | |
| "step": 878 | |
| }, | |
| { | |
| "completion_length": 216.38151041666666, | |
| "epoch": 0.9386666666666666, | |
| "grad_norm": 11.274549863448401, | |
| "kl": 30.122395833333332, | |
| "learning_rate": 4.823645504325699e-07, | |
| "loss": 0.0301, | |
| "reward": 1.3658854166666667, | |
| "reward_std": 0.3586776678760846, | |
| "rewards/equation_reward_func": 0.5104166666666666, | |
| "rewards/format_reward_func": 0.85546875, | |
| "step": 880 | |
| }, | |
| { | |
| "completion_length": 208.69661458333334, | |
| "epoch": 0.9408, | |
| "grad_norm": 25.9478649997257, | |
| "kl": 79.03645833333333, | |
| "learning_rate": 4.822648429005553e-07, | |
| "loss": 0.0791, | |
| "reward": 1.4036458333333333, | |
| "reward_std": 0.3703340571373701, | |
| "rewards/equation_reward_func": 0.5416666666666666, | |
| "rewards/format_reward_func": 0.8619791666666666, | |
| "step": 882 | |
| }, | |
| { | |
| "completion_length": 211.875, | |
| "epoch": 0.9429333333333333, | |
| "grad_norm": 35.10618545564277, | |
| "kl": 106.15755208333333, | |
| "learning_rate": 4.821648646629644e-07, | |
| "loss": 0.1061, | |
| "reward": 1.4166666666666667, | |
| "reward_std": 0.3440867140889168, | |
| "rewards/equation_reward_func": 0.5442708333333334, | |
| "rewards/format_reward_func": 0.8723958333333334, | |
| "step": 884 | |
| }, | |
| { | |
| "completion_length": 211.49348958333334, | |
| "epoch": 0.9450666666666667, | |
| "grad_norm": 7.3284619754443305, | |
| "kl": 48.513671875, | |
| "learning_rate": 4.820646158363218e-07, | |
| "loss": 0.0485, | |
| "reward": 1.4348958333333333, | |
| "reward_std": 0.3582385902603467, | |
| "rewards/equation_reward_func": 0.58203125, | |
| "rewards/format_reward_func": 0.8528645833333334, | |
| "step": 886 | |
| }, | |
| { | |
| "completion_length": 204.33984375, | |
| "epoch": 0.9472, | |
| "grad_norm": 4.725265362661533, | |
| "kl": 15.486002604166666, | |
| "learning_rate": 4.81964096537468e-07, | |
| "loss": 0.0155, | |
| "reward": 1.4114583333333333, | |
| "reward_std": 0.3557336137940486, | |
| "rewards/equation_reward_func": 0.53515625, | |
| "rewards/format_reward_func": 0.8763020833333334, | |
| "step": 888 | |
| }, | |
| { | |
| "completion_length": 185.32421875, | |
| "epoch": 0.9493333333333334, | |
| "grad_norm": 3.2950354058408733, | |
| "kl": 9.442545572916666, | |
| "learning_rate": 4.818633068835588e-07, | |
| "loss": 0.0094, | |
| "reward": 1.4791666666666667, | |
| "reward_std": 0.27227945625782013, | |
| "rewards/equation_reward_func": 0.5677083333333334, | |
| "rewards/format_reward_func": 0.9114583333333334, | |
| "step": 890 | |
| }, | |
| { | |
| "completion_length": 219.66536458333334, | |
| "epoch": 0.9514666666666667, | |
| "grad_norm": 190.16033846716195, | |
| "kl": 164.2265625, | |
| "learning_rate": 4.817622469920647e-07, | |
| "loss": 0.164, | |
| "reward": 1.3919270833333333, | |
| "reward_std": 0.3832527883350849, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.87109375, | |
| "step": 892 | |
| }, | |
| { | |
| "completion_length": 214.90364583333334, | |
| "epoch": 0.9536, | |
| "grad_norm": 7.113648280085267, | |
| "kl": 36.858723958333336, | |
| "learning_rate": 4.816609169807716e-07, | |
| "loss": 0.0369, | |
| "reward": 1.3541666666666667, | |
| "reward_std": 0.3114649752775828, | |
| "rewards/equation_reward_func": 0.47265625, | |
| "rewards/format_reward_func": 0.8815104166666666, | |
| "step": 894 | |
| }, | |
| { | |
| "completion_length": 216.22916666666666, | |
| "epoch": 0.9557333333333333, | |
| "grad_norm": 5.206002080600812, | |
| "kl": 17.3203125, | |
| "learning_rate": 4.815593169677798e-07, | |
| "loss": 0.0173, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.3763199355453253, | |
| "rewards/equation_reward_func": 0.5221354166666666, | |
| "rewards/format_reward_func": 0.8658854166666666, | |
| "step": 896 | |
| }, | |
| { | |
| "completion_length": 226.55729166666666, | |
| "epoch": 0.9578666666666666, | |
| "grad_norm": 12.23230371764798, | |
| "kl": 25.309895833333332, | |
| "learning_rate": 4.814574470715047e-07, | |
| "loss": 0.0254, | |
| "reward": 1.3567708333333333, | |
| "reward_std": 0.3477944495777289, | |
| "rewards/equation_reward_func": 0.48828125, | |
| "rewards/format_reward_func": 0.8684895833333334, | |
| "step": 898 | |
| }, | |
| { | |
| "completion_length": 209.0, | |
| "epoch": 0.96, | |
| "grad_norm": 19.754274854055662, | |
| "kl": 11.180989583333334, | |
| "learning_rate": 4.81355307410676e-07, | |
| "loss": 0.0112, | |
| "reward": 1.4270833333333333, | |
| "reward_std": 0.349904324238499, | |
| "rewards/equation_reward_func": 0.546875, | |
| "rewards/format_reward_func": 0.8802083333333334, | |
| "step": 900 | |
| }, | |
| { | |
| "completion_length": 233.07291666666666, | |
| "epoch": 0.9621333333333333, | |
| "grad_norm": 25.72546672422993, | |
| "kl": 23.3916015625, | |
| "learning_rate": 4.812528981043379e-07, | |
| "loss": 0.0234, | |
| "reward": 1.3515625, | |
| "reward_std": 0.3923419589797656, | |
| "rewards/equation_reward_func": 0.5, | |
| "rewards/format_reward_func": 0.8515625, | |
| "step": 902 | |
| }, | |
| { | |
| "completion_length": 234.17708333333334, | |
| "epoch": 0.9642666666666667, | |
| "grad_norm": 114.92296192849018, | |
| "kl": 298.6354166666667, | |
| "learning_rate": 4.811502192718488e-07, | |
| "loss": 0.2989, | |
| "reward": 1.3333333333333333, | |
| "reward_std": 0.4199537504464388, | |
| "rewards/equation_reward_func": 0.4895833333333333, | |
| "rewards/format_reward_func": 0.84375, | |
| "step": 904 | |
| }, | |
| { | |
| "completion_length": 239.64713541666666, | |
| "epoch": 0.9664, | |
| "grad_norm": 311.4215845961009, | |
| "kl": 628.4573567708334, | |
| "learning_rate": 4.810472710328812e-07, | |
| "loss": 0.6283, | |
| "reward": 1.3958333333333333, | |
| "reward_std": 0.40832558025916416, | |
| "rewards/equation_reward_func": 0.5572916666666666, | |
| "rewards/format_reward_func": 0.8385416666666666, | |
| "step": 906 | |
| }, | |
| { | |
| "completion_length": 236.484375, | |
| "epoch": 0.9685333333333334, | |
| "grad_norm": 50.71284942261367, | |
| "kl": 371.65625, | |
| "learning_rate": 4.809440535074218e-07, | |
| "loss": 0.3714, | |
| "reward": 1.3190104166666667, | |
| "reward_std": 0.4044172689318657, | |
| "rewards/equation_reward_func": 0.4700520833333333, | |
| "rewards/format_reward_func": 0.8489583333333334, | |
| "step": 908 | |
| }, | |
| { | |
| "completion_length": 236.46484375, | |
| "epoch": 0.9706666666666667, | |
| "grad_norm": 19.6458578577213, | |
| "kl": 69.91927083333333, | |
| "learning_rate": 4.80840566815771e-07, | |
| "loss": 0.0699, | |
| "reward": 1.3125, | |
| "reward_std": 0.39025955833494663, | |
| "rewards/equation_reward_func": 0.4609375, | |
| "rewards/format_reward_func": 0.8515625, | |
| "step": 910 | |
| }, | |
| { | |
| "completion_length": 235.11588541666666, | |
| "epoch": 0.9728, | |
| "grad_norm": 41.299575041976446, | |
| "kl": 71.50911458333333, | |
| "learning_rate": 4.80736811078543e-07, | |
| "loss": 0.0716, | |
| "reward": 1.3658854166666667, | |
| "reward_std": 0.4215739903350671, | |
| "rewards/equation_reward_func": 0.5208333333333334, | |
| "rewards/format_reward_func": 0.8450520833333334, | |
| "step": 912 | |
| }, | |
| { | |
| "completion_length": 248.4921875, | |
| "epoch": 0.9749333333333333, | |
| "grad_norm": 43.766589132133724, | |
| "kl": 105.88932291666667, | |
| "learning_rate": 4.806327864166652e-07, | |
| "loss": 0.1059, | |
| "reward": 1.2838541666666667, | |
| "reward_std": 0.4275134013344844, | |
| "rewards/equation_reward_func": 0.4440104166666667, | |
| "rewards/format_reward_func": 0.83984375, | |
| "step": 914 | |
| }, | |
| { | |
| "completion_length": 239.43489583333334, | |
| "epoch": 0.9770666666666666, | |
| "grad_norm": 22.48600668138976, | |
| "kl": 130.73958333333334, | |
| "learning_rate": 4.805284929513792e-07, | |
| "loss": 0.1307, | |
| "reward": 1.328125, | |
| "reward_std": 0.4370467768361171, | |
| "rewards/equation_reward_func": 0.4856770833333333, | |
| "rewards/format_reward_func": 0.8424479166666666, | |
| "step": 916 | |
| }, | |
| { | |
| "completion_length": 240.76041666666666, | |
| "epoch": 0.9792, | |
| "grad_norm": 5.78089539503031, | |
| "kl": 128.71875, | |
| "learning_rate": 4.804239308042391e-07, | |
| "loss": 0.1286, | |
| "reward": 1.3541666666666667, | |
| "reward_std": 0.40620183820525807, | |
| "rewards/equation_reward_func": 0.5143229166666666, | |
| "rewards/format_reward_func": 0.83984375, | |
| "step": 918 | |
| }, | |
| { | |
| "completion_length": 248.26432291666666, | |
| "epoch": 0.9813333333333333, | |
| "grad_norm": 7.849329384679267, | |
| "kl": 97.62630208333333, | |
| "learning_rate": 4.803191000971128e-07, | |
| "loss": 0.0976, | |
| "reward": 1.3736979166666667, | |
| "reward_std": 0.4499480028947194, | |
| "rewards/equation_reward_func": 0.546875, | |
| "rewards/format_reward_func": 0.8268229166666666, | |
| "step": 920 | |
| }, | |
| { | |
| "completion_length": 249.328125, | |
| "epoch": 0.9834666666666667, | |
| "grad_norm": 10.799497180129727, | |
| "kl": 89.43229166666667, | |
| "learning_rate": 4.802140009521805e-07, | |
| "loss": 0.0894, | |
| "reward": 1.3567708333333333, | |
| "reward_std": 0.4264866778006156, | |
| "rewards/equation_reward_func": 0.53125, | |
| "rewards/format_reward_func": 0.8255208333333334, | |
| "step": 922 | |
| }, | |
| { | |
| "completion_length": 260.8046875, | |
| "epoch": 0.9856, | |
| "grad_norm": 8.420500505704704, | |
| "kl": 128.63541666666666, | |
| "learning_rate": 4.80108633491936e-07, | |
| "loss": 0.1286, | |
| "reward": 1.28515625, | |
| "reward_std": 0.4335593233505885, | |
| "rewards/equation_reward_func": 0.4609375, | |
| "rewards/format_reward_func": 0.82421875, | |
| "step": 924 | |
| }, | |
| { | |
| "completion_length": 256.6692708333333, | |
| "epoch": 0.9877333333333334, | |
| "grad_norm": 9.776949502071067, | |
| "kl": 130.27083333333334, | |
| "learning_rate": 4.800029978391853e-07, | |
| "loss": 0.1302, | |
| "reward": 1.2994791666666667, | |
| "reward_std": 0.4433158915489912, | |
| "rewards/equation_reward_func": 0.4791666666666667, | |
| "rewards/format_reward_func": 0.8203125, | |
| "step": 926 | |
| }, | |
| { | |
| "completion_length": 217.81119791666666, | |
| "epoch": 0.9898666666666667, | |
| "grad_norm": 6.722594221224818, | |
| "kl": 74.935546875, | |
| "learning_rate": 4.798970941170472e-07, | |
| "loss": 0.0749, | |
| "reward": 1.328125, | |
| "reward_std": 0.377020634089907, | |
| "rewards/equation_reward_func": 0.4739583333333333, | |
| "rewards/format_reward_func": 0.8541666666666666, | |
| "step": 928 | |
| }, | |
| { | |
| "completion_length": 272.1979166666667, | |
| "epoch": 0.992, | |
| "grad_norm": 7.637819537444687, | |
| "kl": 106.19791666666667, | |
| "learning_rate": 4.79790922448953e-07, | |
| "loss": 0.1062, | |
| "reward": 1.3333333333333333, | |
| "reward_std": 0.4408935910711686, | |
| "rewards/equation_reward_func": 0.5182291666666666, | |
| "rewards/format_reward_func": 0.8151041666666666, | |
| "step": 930 | |
| }, | |
| { | |
| "completion_length": 253.61458333333334, | |
| "epoch": 0.9941333333333333, | |
| "grad_norm": 14.235594380019217, | |
| "kl": 151.73958333333334, | |
| "learning_rate": 4.796844829586461e-07, | |
| "loss": 0.1517, | |
| "reward": 1.2994791666666667, | |
| "reward_std": 0.45270218265553314, | |
| "rewards/equation_reward_func": 0.46875, | |
| "rewards/format_reward_func": 0.8307291666666666, | |
| "step": 932 | |
| }, | |
| { | |
| "completion_length": 240.92447916666666, | |
| "epoch": 0.9962666666666666, | |
| "grad_norm": 5.436932185617113, | |
| "kl": 106.84375, | |
| "learning_rate": 4.795777757701822e-07, | |
| "loss": 0.1069, | |
| "reward": 1.3880208333333333, | |
| "reward_std": 0.39707571143905324, | |
| "rewards/equation_reward_func": 0.5559895833333334, | |
| "rewards/format_reward_func": 0.83203125, | |
| "step": 934 | |
| }, | |
| { | |
| "completion_length": 260.6145833333333, | |
| "epoch": 0.9984, | |
| "grad_norm": 7.813098387455954, | |
| "kl": 118.77083333333333, | |
| "learning_rate": 4.794708010079288e-07, | |
| "loss": 0.1187, | |
| "reward": 1.3216145833333333, | |
| "reward_std": 0.4367858897894621, | |
| "rewards/equation_reward_func": 0.5052083333333334, | |
| "rewards/format_reward_func": 0.81640625, | |
| "step": 936 | |
| }, | |
| { | |
| "completion_length": 264.9036458333333, | |
| "epoch": 1.0005333333333333, | |
| "grad_norm": 9.081605293966964, | |
| "kl": 130.69791666666666, | |
| "learning_rate": 4.793635587965655e-07, | |
| "loss": 0.1306, | |
| "reward": 1.3059895833333333, | |
| "reward_std": 0.4620225702722867, | |
| "rewards/equation_reward_func": 0.4908854166666667, | |
| "rewards/format_reward_func": 0.8151041666666666, | |
| "step": 938 | |
| }, | |
| { | |
| "completion_length": 274.46484375, | |
| "epoch": 1.0026666666666666, | |
| "grad_norm": 8.347342860263549, | |
| "kl": 131.953125, | |
| "learning_rate": 4.792560492610835e-07, | |
| "loss": 0.1319, | |
| "reward": 1.3098958333333333, | |
| "reward_std": 0.40183399866024655, | |
| "rewards/equation_reward_func": 0.5, | |
| "rewards/format_reward_func": 0.8098958333333334, | |
| "step": 940 | |
| }, | |
| { | |
| "completion_length": 275.0286458333333, | |
| "epoch": 1.0048, | |
| "grad_norm": 8.977300522623267, | |
| "kl": 131.10416666666666, | |
| "learning_rate": 4.791482725267856e-07, | |
| "loss": 0.1312, | |
| "reward": 1.31640625, | |
| "reward_std": 0.43483528308570385, | |
| "rewards/equation_reward_func": 0.5130208333333334, | |
| "rewards/format_reward_func": 0.8033854166666666, | |
| "step": 942 | |
| }, | |
| { | |
| "completion_length": 268.4973958333333, | |
| "epoch": 1.0069333333333332, | |
| "grad_norm": 4.558426297989873, | |
| "kl": 141.27083333333334, | |
| "learning_rate": 4.790402287192861e-07, | |
| "loss": 0.1413, | |
| "reward": 1.2903645833333333, | |
| "reward_std": 0.4668671836455663, | |
| "rewards/equation_reward_func": 0.4739583333333333, | |
| "rewards/format_reward_func": 0.81640625, | |
| "step": 944 | |
| }, | |
| { | |
| "completion_length": 255.51692708333334, | |
| "epoch": 1.0090666666666666, | |
| "grad_norm": 7.7956537303365225, | |
| "kl": 99.28011067708333, | |
| "learning_rate": 4.789319179645103e-07, | |
| "loss": 0.0993, | |
| "reward": 1.31640625, | |
| "reward_std": 0.39791182428598404, | |
| "rewards/equation_reward_func": 0.484375, | |
| "rewards/format_reward_func": 0.83203125, | |
| "step": 946 | |
| }, | |
| { | |
| "completion_length": 264.9544270833333, | |
| "epoch": 1.0112, | |
| "grad_norm": 5.20396749573335, | |
| "kl": 132.88020833333334, | |
| "learning_rate": 4.788233403886949e-07, | |
| "loss": 0.1329, | |
| "reward": 1.35546875, | |
| "reward_std": 0.41779233949879807, | |
| "rewards/equation_reward_func": 0.53125, | |
| "rewards/format_reward_func": 0.82421875, | |
| "step": 948 | |
| }, | |
| { | |
| "completion_length": 259.12890625, | |
| "epoch": 1.0133333333333334, | |
| "grad_norm": 3.647977960491067, | |
| "kl": 150.70833333333334, | |
| "learning_rate": 4.787144961183874e-07, | |
| "loss": 0.1507, | |
| "reward": 1.3671875, | |
| "reward_std": 0.4469577440371116, | |
| "rewards/equation_reward_func": 0.52734375, | |
| "rewards/format_reward_func": 0.83984375, | |
| "step": 950 | |
| }, | |
| { | |
| "completion_length": 275.1653645833333, | |
| "epoch": 1.0154666666666667, | |
| "grad_norm": 6.988844814591139, | |
| "kl": 127.33333333333333, | |
| "learning_rate": 4.786053852804463e-07, | |
| "loss": 0.1272, | |
| "reward": 1.3411458333333333, | |
| "reward_std": 0.4459757438550393, | |
| "rewards/equation_reward_func": 0.5169270833333334, | |
| "rewards/format_reward_func": 0.82421875, | |
| "step": 952 | |
| }, | |
| { | |
| "completion_length": 267.4700520833333, | |
| "epoch": 1.0176, | |
| "grad_norm": 4.893160389652827, | |
| "kl": 102.02083333333333, | |
| "learning_rate": 4.784960080020407e-07, | |
| "loss": 0.102, | |
| "reward": 1.3098958333333333, | |
| "reward_std": 0.43718292315800983, | |
| "rewards/equation_reward_func": 0.4908854166666667, | |
| "rewards/format_reward_func": 0.8190104166666666, | |
| "step": 954 | |
| }, | |
| { | |
| "completion_length": 248.09244791666666, | |
| "epoch": 1.0197333333333334, | |
| "grad_norm": 13.534202760099527, | |
| "kl": 126.57560221354167, | |
| "learning_rate": 4.783863644106502e-07, | |
| "loss": 0.1267, | |
| "reward": 1.3294270833333333, | |
| "reward_std": 0.36604451139767963, | |
| "rewards/equation_reward_func": 0.4778645833333333, | |
| "rewards/format_reward_func": 0.8515625, | |
| "step": 956 | |
| }, | |
| { | |
| "completion_length": 264.7083333333333, | |
| "epoch": 1.0218666666666667, | |
| "grad_norm": 7.838506609410929, | |
| "kl": 121.171875, | |
| "learning_rate": 4.782764546340649e-07, | |
| "loss": 0.1211, | |
| "reward": 1.3489583333333333, | |
| "reward_std": 0.44287241746981937, | |
| "rewards/equation_reward_func": 0.53125, | |
| "rewards/format_reward_func": 0.8177083333333334, | |
| "step": 958 | |
| }, | |
| { | |
| "completion_length": 265.7747395833333, | |
| "epoch": 1.024, | |
| "grad_norm": 8.530620381018814, | |
| "kl": 94.16666666666667, | |
| "learning_rate": 4.78166278800385e-07, | |
| "loss": 0.0941, | |
| "reward": 1.3098958333333333, | |
| "reward_std": 0.42609035906692344, | |
| "rewards/equation_reward_func": 0.4778645833333333, | |
| "rewards/format_reward_func": 0.83203125, | |
| "step": 960 | |
| }, | |
| { | |
| "completion_length": 266.3645833333333, | |
| "epoch": 1.0261333333333333, | |
| "grad_norm": 11.604767082498281, | |
| "kl": 160.08854166666666, | |
| "learning_rate": 4.780558370380209e-07, | |
| "loss": 0.16, | |
| "reward": 1.3216145833333333, | |
| "reward_std": 0.4570663534104824, | |
| "rewards/equation_reward_func": 0.4817708333333333, | |
| "rewards/format_reward_func": 0.83984375, | |
| "step": 962 | |
| }, | |
| { | |
| "completion_length": 260.6315104166667, | |
| "epoch": 1.0282666666666667, | |
| "grad_norm": 8.130298188417813, | |
| "kl": 114.63020833333333, | |
| "learning_rate": 4.77945129475693e-07, | |
| "loss": 0.1146, | |
| "reward": 1.3515625, | |
| "reward_std": 0.4153946104149024, | |
| "rewards/equation_reward_func": 0.5065104166666666, | |
| "rewards/format_reward_func": 0.8450520833333334, | |
| "step": 964 | |
| }, | |
| { | |
| "completion_length": 252.98046875, | |
| "epoch": 1.0304, | |
| "grad_norm": 7.709572319675479, | |
| "kl": 89.76041666666667, | |
| "learning_rate": 4.778341562424311e-07, | |
| "loss": 0.0897, | |
| "reward": 1.3567708333333333, | |
| "reward_std": 0.4247526731342077, | |
| "rewards/equation_reward_func": 0.5052083333333334, | |
| "rewards/format_reward_func": 0.8515625, | |
| "step": 966 | |
| }, | |
| { | |
| "completion_length": 256.7591145833333, | |
| "epoch": 1.0325333333333333, | |
| "grad_norm": 6.560450013749004, | |
| "kl": 134.125, | |
| "learning_rate": 4.777229174675753e-07, | |
| "loss": 0.134, | |
| "reward": 1.4309895833333333, | |
| "reward_std": 0.38041960013409454, | |
| "rewards/equation_reward_func": 0.5716145833333334, | |
| "rewards/format_reward_func": 0.859375, | |
| "step": 968 | |
| }, | |
| { | |
| "completion_length": 240.93880208333334, | |
| "epoch": 1.0346666666666666, | |
| "grad_norm": 5.303887904080331, | |
| "kl": 85.80729166666667, | |
| "learning_rate": 4.776114132807746e-07, | |
| "loss": 0.0858, | |
| "reward": 1.41796875, | |
| "reward_std": 0.3697906819482644, | |
| "rewards/equation_reward_func": 0.5338541666666666, | |
| "rewards/format_reward_func": 0.8841145833333334, | |
| "step": 970 | |
| }, | |
| { | |
| "completion_length": 242.06901041666666, | |
| "epoch": 1.0368, | |
| "grad_norm": 38.14900456756635, | |
| "kl": 126.427734375, | |
| "learning_rate": 4.774996438119876e-07, | |
| "loss": 0.1266, | |
| "reward": 1.42578125, | |
| "reward_std": 0.3889284177372853, | |
| "rewards/equation_reward_func": 0.5520833333333334, | |
| "rewards/format_reward_func": 0.8736979166666666, | |
| "step": 972 | |
| }, | |
| { | |
| "completion_length": 273.0859375, | |
| "epoch": 1.0389333333333333, | |
| "grad_norm": 6.112732623984953, | |
| "kl": 143.72916666666666, | |
| "learning_rate": 4.77387609191482e-07, | |
| "loss": 0.1438, | |
| "reward": 1.3020833333333333, | |
| "reward_std": 0.42879665084183216, | |
| "rewards/equation_reward_func": 0.4596354166666667, | |
| "rewards/format_reward_func": 0.8424479166666666, | |
| "step": 974 | |
| }, | |
| { | |
| "completion_length": 246.12239583333334, | |
| "epoch": 1.0410666666666666, | |
| "grad_norm": 5.463791303555714, | |
| "kl": 100.99153645833333, | |
| "learning_rate": 4.772753095498348e-07, | |
| "loss": 0.101, | |
| "reward": 1.4244791666666667, | |
| "reward_std": 0.40906033106148243, | |
| "rewards/equation_reward_func": 0.5677083333333334, | |
| "rewards/format_reward_func": 0.8567708333333334, | |
| "step": 976 | |
| }, | |
| { | |
| "completion_length": 274.71875, | |
| "epoch": 1.0432, | |
| "grad_norm": 5.851376731766162, | |
| "kl": 135.01041666666666, | |
| "learning_rate": 4.771627450179314e-07, | |
| "loss": 0.135, | |
| "reward": 1.33984375, | |
| "reward_std": 0.42603953927755356, | |
| "rewards/equation_reward_func": 0.515625, | |
| "rewards/format_reward_func": 0.82421875, | |
| "step": 978 | |
| }, | |
| { | |
| "completion_length": 238.765625, | |
| "epoch": 1.0453333333333332, | |
| "grad_norm": 10.13556611192899, | |
| "kl": 109.734375, | |
| "learning_rate": 4.770499157269663e-07, | |
| "loss": 0.1098, | |
| "reward": 1.3919270833333333, | |
| "reward_std": 0.3302949120601018, | |
| "rewards/equation_reward_func": 0.51171875, | |
| "rewards/format_reward_func": 0.8802083333333334, | |
| "step": 980 | |
| }, | |
| { | |
| "completion_length": 246.91796875, | |
| "epoch": 1.0474666666666668, | |
| "grad_norm": 6.357981530929211, | |
| "kl": 98.90104166666667, | |
| "learning_rate": 4.769368218084426e-07, | |
| "loss": 0.099, | |
| "reward": 1.3697916666666667, | |
| "reward_std": 0.42508453006545704, | |
| "rewards/equation_reward_func": 0.5143229166666666, | |
| "rewards/format_reward_func": 0.85546875, | |
| "step": 982 | |
| }, | |
| { | |
| "completion_length": 257.5143229166667, | |
| "epoch": 1.0496, | |
| "grad_norm": 6.594087943707791, | |
| "kl": 90.4609375, | |
| "learning_rate": 4.7682346339417157e-07, | |
| "loss": 0.0905, | |
| "reward": 1.3346354166666667, | |
| "reward_std": 0.37990222374598187, | |
| "rewards/equation_reward_func": 0.4908854166666667, | |
| "rewards/format_reward_func": 0.84375, | |
| "step": 984 | |
| }, | |
| { | |
| "completion_length": 272.4231770833333, | |
| "epoch": 1.0517333333333334, | |
| "grad_norm": 9.053031933827246, | |
| "kl": 152.60416666666666, | |
| "learning_rate": 4.7670984061627284e-07, | |
| "loss": 0.1526, | |
| "reward": 1.28125, | |
| "reward_std": 0.4326687113692363, | |
| "rewards/equation_reward_func": 0.4401041666666667, | |
| "rewards/format_reward_func": 0.8411458333333334, | |
| "step": 986 | |
| }, | |
| { | |
| "completion_length": 227.4609375, | |
| "epoch": 1.0538666666666667, | |
| "grad_norm": 6.418055097464598, | |
| "kl": 101.48567708333333, | |
| "learning_rate": 4.765959536071743e-07, | |
| "loss": 0.1015, | |
| "reward": 1.40234375, | |
| "reward_std": 0.36656847099463147, | |
| "rewards/equation_reward_func": 0.5325520833333334, | |
| "rewards/format_reward_func": 0.8697916666666666, | |
| "step": 988 | |
| }, | |
| { | |
| "completion_length": 238.24869791666666, | |
| "epoch": 1.056, | |
| "grad_norm": 4.383393532446963, | |
| "kl": 93.69645182291667, | |
| "learning_rate": 4.7648180249961165e-07, | |
| "loss": 0.0937, | |
| "reward": 1.4348958333333333, | |
| "reward_std": 0.3897509245822827, | |
| "rewards/equation_reward_func": 0.5651041666666666, | |
| "rewards/format_reward_func": 0.8697916666666666, | |
| "step": 990 | |
| }, | |
| { | |
| "completion_length": 228.94661458333334, | |
| "epoch": 1.0581333333333334, | |
| "grad_norm": 9.072839263728323, | |
| "kl": 116.23958333333333, | |
| "learning_rate": 4.763673874266285e-07, | |
| "loss": 0.1162, | |
| "reward": 1.38671875, | |
| "reward_std": 0.35969858802855015, | |
| "rewards/equation_reward_func": 0.5104166666666666, | |
| "rewards/format_reward_func": 0.8763020833333334, | |
| "step": 992 | |
| }, | |
| { | |
| "completion_length": 232.91145833333334, | |
| "epoch": 1.0602666666666667, | |
| "grad_norm": 5.992549438239601, | |
| "kl": 93.7275390625, | |
| "learning_rate": 4.7625270852157607e-07, | |
| "loss": 0.0937, | |
| "reward": 1.3776041666666667, | |
| "reward_std": 0.34804291774829227, | |
| "rewards/equation_reward_func": 0.5026041666666666, | |
| "rewards/format_reward_func": 0.875, | |
| "step": 994 | |
| }, | |
| { | |
| "completion_length": 229.88151041666666, | |
| "epoch": 1.0624, | |
| "grad_norm": 2.781961114630483, | |
| "kl": 95.46614583333333, | |
| "learning_rate": 4.7613776591811295e-07, | |
| "loss": 0.0955, | |
| "reward": 1.40625, | |
| "reward_std": 0.3783313576132059, | |
| "rewards/equation_reward_func": 0.5338541666666666, | |
| "rewards/format_reward_func": 0.8723958333333334, | |
| "step": 996 | |
| }, | |
| { | |
| "completion_length": 229.26822916666666, | |
| "epoch": 1.0645333333333333, | |
| "grad_norm": 2.4309236332145177, | |
| "kl": 107.81217447916667, | |
| "learning_rate": 4.7602255975020534e-07, | |
| "loss": 0.1078, | |
| "reward": 1.46875, | |
| "reward_std": 0.3531418622781833, | |
| "rewards/equation_reward_func": 0.5846354166666666, | |
| "rewards/format_reward_func": 0.8841145833333334, | |
| "step": 998 | |
| }, | |
| { | |
| "completion_length": 233.91276041666666, | |
| "epoch": 1.0666666666666667, | |
| "grad_norm": 2.746302621328052, | |
| "kl": 84.265625, | |
| "learning_rate": 4.7590709015212633e-07, | |
| "loss": 0.0842, | |
| "reward": 1.39453125, | |
| "reward_std": 0.3599609217296044, | |
| "rewards/equation_reward_func": 0.5182291666666666, | |
| "rewards/format_reward_func": 0.8763020833333334, | |
| "step": 1000 | |
| } | |
| ], | |
| "logging_steps": 2, | |
| "max_steps": 6000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 7, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 0.0, | |
| "train_batch_size": 4, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |