Upload training/human at 2025-11-11 02:29:20 UTC

Browse files

Files changed (5) hide show

training/human/assistant_policy_e10.pt +3 -0
training/human/assistant_policy_e20.pt +3 -0
training/human/human_policy_e10.pt +3 -0
training/human/human_policy_e20.pt +3 -0
training/human/train.jsonl +57 -0

training/human/assistant_policy_e10.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b137166d4042de816ed87ffc77f8843bf3d81f0214e97f528ed5f12a9a03d93
+size 3713793

training/human/assistant_policy_e20.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4fab1f761a206f4614d578bd6732582c8f4f93408968de31813ee73d831a99a
+size 3713793

training/human/human_policy_e10.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f903c8b1df8815f601f591244d306aff4a5fc68885d907195adfa815081b22ef
+size 3713481

training/human/human_policy_e20.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f1ac0f613dd7c745ca27a82825e50183f28392ab786fafbc9a62d372e56a6b6
+size 3713481

training/human/train.jsonl ADDED Viewed

	@@ -0,0 +1,57 @@

+{"phase": "bc", "epoch": 1, "avg_loss": 1.656361413853509, "avg_action_loss": 1.656361413853509, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 2, "avg_loss": 1.407533208573503, "avg_action_loss": 1.407533208573503, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 1, "loss": 5.735405445098877, "policy_loss": -0.02560914121568203, "value_loss": 11.56042194366455, "entropy": 1.919618010520935, "approx_kl": -0.034379322081804276, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 2, "loss": 4.286423206329346, "policy_loss": -0.04088111221790314, "value_loss": 8.691951751708984, "entropy": 1.867163062095642, "approx_kl": -0.02462935447692871, "clip_frac": 0.5, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 3, "loss": 3.6713030338287354, "policy_loss": -0.03341427817940712, "value_loss": 7.446536540985107, "entropy": 1.8550885915756226, "approx_kl": 0.09270143508911133, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 4, "loss": 3.176690101623535, "policy_loss": -0.040033578872680664, "value_loss": 6.469893932342529, "entropy": 1.8223319053649902, "approx_kl": 0.0428512878715992, "clip_frac": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 1, "avg_loss": 0.5315182559457701, "avg_action_loss": 0.5315182559457701, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 2, "avg_loss": 0.42342110471572203, "avg_action_loss": 0.42342110471572203, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 3, "avg_loss": 0.4187759270533444, "avg_action_loss": 0.4187759270533444, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 4, "avg_loss": 0.4126239027387203, "avg_action_loss": 0.4126239027387203, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 5, "avg_loss": 0.40985535616493796, "avg_action_loss": 0.40985535616493796, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 6, "avg_loss": 0.4098828941104053, "avg_action_loss": 0.4098828941104053, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 7, "avg_loss": 0.40880581046002445, "avg_action_loss": 0.40880581046002445, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 8, "avg_loss": 0.4078972815131883, "avg_action_loss": 0.4078972815131883, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 9, "avg_loss": 0.40811084220109956, "avg_action_loss": 0.40811084220109956, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 10, "avg_loss": 0.40478271005301486, "avg_action_loss": 0.40478271005301486, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 11, "avg_loss": 0.40666264203837665, "avg_action_loss": 0.40666264203837665, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 12, "avg_loss": 0.3737384175775873, "avg_action_loss": 0.3737384175775873, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 13, "avg_loss": 0.40774237360396975, "avg_action_loss": 0.40774237360396975, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 14, "avg_loss": 0.4080324640374823, "avg_action_loss": 0.4080324640374823, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 15, "avg_loss": 0.4068290984166948, "avg_action_loss": 0.4068290984166948, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 16, "avg_loss": 0.4036440135889174, "avg_action_loss": 0.4036440135889174, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 17, "avg_loss": 0.4046837891767517, "avg_action_loss": 0.4046837891767517, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 18, "avg_loss": 0.40082017744957144, "avg_action_loss": 0.40082017744957144, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 19, "avg_loss": 0.40045786770128144, "avg_action_loss": 0.40045786770128144, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "bc", "epoch": 20, "avg_loss": 0.38313795261058037, "avg_action_loss": 0.38313795261058037, "avg_line_loss": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 1, "loss": 151.84645080566406, "policy_loss": -0.011348324827849865, "value_loss": 303.7539367675781, "entropy": 1.9169363975524902, "approx_kl": 0.0701930895447731, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 2, "loss": 210.82794189453125, "policy_loss": -0.029464080929756165, "value_loss": 421.7531433105469, "entropy": 1.9166346788406372, "approx_kl": 0.12554769217967987, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 3, "loss": 209.876708984375, "policy_loss": -0.022165412083268166, "value_loss": 419.83575439453125, "entropy": 1.9009802341461182, "approx_kl": 0.09135878086090088, "clip_frac": 0.02985074557363987, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 4, "loss": 207.93499755859375, "policy_loss": -0.006865628529340029, "value_loss": 415.9215393066406, "entropy": 1.8914077281951904, "approx_kl": 0.010604729875922203, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 5, "loss": 207.0156707763672, "policy_loss": -0.011893993243575096, "value_loss": 414.0925598144531, "entropy": 1.871625542640686, "approx_kl": 0.056058842688798904, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 6, "loss": 205.34213256835938, "policy_loss": 0.002154937479645014, "value_loss": 410.7173156738281, "entropy": 1.8677021265029907, "approx_kl": 0.0111995879560709, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 7, "loss": 203.6105194091797, "policy_loss": 0.0023051525931805372, "value_loss": 407.2539367675781, "entropy": 1.8747315406799316, "approx_kl": -0.009998470544815063, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 8, "loss": 201.9473419189453, "policy_loss": 0.00595353776589036, "value_loss": 403.92047119140625, "entropy": 1.8851890563964844, "approx_kl": -0.024091314524412155, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 9, "loss": 200.23870849609375, "policy_loss": 0.0038823422510176897, "value_loss": 400.5075378417969, "entropy": 1.894506812095642, "approx_kl": -0.029364898800849915, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 10, "loss": 198.5360565185547, "policy_loss": 0.0017219061264768243, "value_loss": 397.1065979003906, "entropy": 1.8967458009719849, "approx_kl": -0.0020362369250506163, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 11, "loss": 196.8311309814453, "policy_loss": 0.0015553556149825454, "value_loss": 393.6971435546875, "entropy": 1.8989057540893555, "approx_kl": -0.004051834810525179, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 12, "loss": 195.4398193359375, "policy_loss": -0.0024902091827243567, "value_loss": 390.9224548339844, "entropy": 1.892263650894165, "approx_kl": 0.052814774215221405, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 13, "loss": 193.91299438476562, "policy_loss": -0.004277195315808058, "value_loss": 387.872314453125, "entropy": 1.8890819549560547, "approx_kl": 0.02110796608030796, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 14, "loss": 192.5536346435547, "policy_loss": -0.012041451409459114, "value_loss": 385.16900634765625, "entropy": 1.8829172849655151, "approx_kl": 0.061269063502550125, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 15, "loss": 191.189697265625, "policy_loss": -0.003468114882707596, "value_loss": 382.4239196777344, "entropy": 1.8798068761825562, "approx_kl": 0.02986658178269863, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 16, "loss": 189.9631805419922, "policy_loss": -0.007516777142882347, "value_loss": 379.97894287109375, "entropy": 1.8771026134490967, "approx_kl": 0.03442990034818649, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 17, "loss": 188.74571228027344, "policy_loss": -0.0026652563828974962, "value_loss": 377.53424072265625, "entropy": 1.8735426664352417, "approx_kl": 0.015749895945191383, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 18, "loss": 187.553955078125, "policy_loss": -0.00504970271140337, "value_loss": 375.15545654296875, "entropy": 1.8729181289672852, "approx_kl": 0.03710692748427391, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 19, "loss": 186.7047119140625, "policy_loss": -0.0033714761957526207, "value_loss": 373.4536437988281, "entropy": 1.8734303712844849, "approx_kl": 0.03678299859166145, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 20, "loss": 185.66793823242188, "policy_loss": -0.0006430664798244834, "value_loss": 371.37451171875, "entropy": 1.8670754432678223, "approx_kl": 0.01446334645152092, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 21, "loss": 184.65673828125, "policy_loss": 0.0037552074063569307, "value_loss": 369.34320068359375, "entropy": 1.8616825342178345, "approx_kl": 0.016199346631765366, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 22, "loss": 183.89491271972656, "policy_loss": -0.0037192595191299915, "value_loss": 367.83441162109375, "entropy": 1.8577206134796143, "approx_kl": 0.022912943735718727, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 23, "loss": 183.03334045410156, "policy_loss": -0.0023394599556922913, "value_loss": 366.1084289550781, "entropy": 1.8534249067306519, "approx_kl": 0.0034787904005497694, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 24, "loss": 182.12289428710938, "policy_loss": -0.00017255099373869598, "value_loss": 364.2831726074219, "entropy": 1.8512232303619385, "approx_kl": -0.0017741082701832056, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 25, "loss": 181.44000244140625, "policy_loss": 0.0032319354359060526, "value_loss": 362.9105224609375, "entropy": 1.8487141132354736, "approx_kl": 0.009146508760750294, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 26, "loss": 180.92628479003906, "policy_loss": -0.002619044156745076, "value_loss": 361.8947448730469, "entropy": 1.8462096452713013, "approx_kl": 0.01311294361948967, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 27, "loss": 180.27732849121094, "policy_loss": -0.004549163393676281, "value_loss": 360.60052490234375, "entropy": 1.838907241821289, "approx_kl": 0.003705323673784733, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 28, "loss": 179.58766174316406, "policy_loss": -0.002558989217504859, "value_loss": 359.2171325683594, "entropy": 1.8340390920639038, "approx_kl": 0.00213775341399014, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 29, "loss": 179.0795440673828, "policy_loss": -0.0042334082536399364, "value_loss": 358.20416259765625, "entropy": 1.8311089277267456, "approx_kl": 0.0011348866391927004, "clip_frac": 0.0, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 30, "loss": 178.70802307128906, "policy_loss": -0.0076076555997133255, "value_loss": 357.46783447265625, "entropy": 1.8292598724365234, "approx_kl": -0.0013783263275399804, "clip_frac": 0.014925372786819935, "run": "human"}
+{"phase": "ppo_from_episodes", "epoch": 31, "loss": 178.42886352539062, "policy_loss": 0.0013227426679804921, "value_loss": 356.891357421875, "entropy": 1.814236044883728, "approx_kl": 0.0519341379404068, "clip_frac": 0.014925372786819935, "run": "human"}