jat-project
/

jat

@@ -171,10 +171,10 @@ model-index:
       type: atari
     metrics:
     - type: iqm_expert_normalized_total_reward
-      value: 0.06 [0.06, 0.06]
       name: IQM expert normalized total reward
     - type: iqm_human_normalized_total_reward
-      value: 0.17 [0.16, 0.17]
       name: IQM human normalized total reward
   - task:
       type: reinforcement-learning
@@ -214,13 +214,13 @@ model-index:
       type: atari-alien
     metrics:
     - type: total_reward
-      value: 1085.90 +/- 396.36
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.05 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.12 +/- 0.06
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -230,13 +230,13 @@ model-index:
       type: atari-amidar
     metrics:
     - type: total_reward
-      value: 41.26 +/- 28.57
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.02 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.02 +/- 0.02
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -246,13 +246,13 @@ model-index:
       type: atari-assault
     metrics:
     - type: total_reward
-      value: 772.89 +/- 59.34
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.04 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 1.06 +/- 0.11
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -262,13 +262,13 @@ model-index:
       type: atari-asterix
     metrics:
     - type: total_reward
-      value: 778.50 +/- 428.97
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.16 +/- 0.12
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.07 +/- 0.05
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -278,13 +278,13 @@ model-index:
       type: atari-asteroids
     metrics:
     - type: total_reward
-      value: 1423.60 +/- 538.79
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.00 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.02 +/- 0.01
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -294,13 +294,13 @@ model-index:
       type: atari-atlantis
     metrics:
     - type: total_reward
-      value: 23541.00 +/- 10376.72
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.03 +/- 0.03
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.66 +/- 0.64
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -310,13 +310,13 @@ model-index:
       type: atari-bankheist
     metrics:
     - type: total_reward
-      value: 685.50 +/- 157.92
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.51 +/- 0.12
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.91 +/- 0.21
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -326,13 +326,13 @@ model-index:
       type: atari-battlezone
     metrics:
     - type: total_reward
-      value: 12950.00 +/- 4306.68
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.04 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.34 +/- 0.12
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -342,13 +342,13 @@ model-index:
       type: atari-beamrider
     metrics:
     - type: total_reward
-      value: 762.04 +/- 243.25
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.02 +/- 0.01
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -358,13 +358,13 @@ model-index:
       type: atari-berzerk
     metrics:
     - type: total_reward
-      value: 523.90 +/- 161.95
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.01 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.16 +/- 0.06
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -374,13 +374,13 @@ model-index:
       type: atari-bowling
     metrics:
     - type: total_reward
-      value: 29.99 +/- 11.49
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.05 +/- 0.08
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -390,13 +390,13 @@ model-index:
       type: atari-boxing
     metrics:
     - type: total_reward
-      value: 87.00 +/- 22.57
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.89 +/- 0.23
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 7.24 +/- 1.88
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -406,13 +406,13 @@ model-index:
       type: atari-breakout
     metrics:
     - type: total_reward
-      value: 9.16 +/- 5.76
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.26 +/- 0.20
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -422,13 +422,13 @@ model-index:
       type: atari-centipede
     metrics:
     - type: total_reward
-      value: 4461.72 +/- 2188.80
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.25 +/- 0.23
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.24 +/- 0.22
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -438,13 +438,13 @@ model-index:
       type: atari-choppercommand
     metrics:
     - type: total_reward
-      value: 1497.00 +/- 723.11
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.10 +/- 0.11
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -454,13 +454,13 @@ model-index:
       type: atari-crazyclimber
     metrics:
     - type: total_reward
-      value: 52850.00 +/- 31617.86
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.25 +/- 0.19
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 1.68 +/- 1.26
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -470,13 +470,13 @@ model-index:
       type: atari-defender
     metrics:
     - type: total_reward
-      value: 10627.50 +/- 4473.21
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.02 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.49 +/- 0.28
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -486,13 +486,13 @@ model-index:
       type: atari-demonattack
     metrics:
     - type: total_reward
-      value: 315.10 +/- 279.01
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.00 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.09 +/- 0.15
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -502,13 +502,13 @@ model-index:
       type: atari-doubledunk
     metrics:
     - type: total_reward
-      value: 0.08 +/- 11.61
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.47 +/- 0.29
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.53 +/- 0.33
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -518,13 +518,13 @@ model-index:
       type: atari-enduro
     metrics:
     - type: total_reward
-      value: 111.49 +/- 27.36
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.05 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.13 +/- 0.03
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -534,13 +534,13 @@ model-index:
       type: atari-fishingderby
     metrics:
     - type: total_reward
-      value: -55.21 +/- 19.35
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.37 +/- 0.20
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.28 +/- 0.15
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -550,13 +550,13 @@ model-index:
       type: atari-freeway
     metrics:
     - type: total_reward
-      value: 24.12 +/- 1.64
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.71 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.81 +/- 0.06
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -566,13 +566,13 @@ model-index:
       type: atari-frostbite
     metrics:
     - type: total_reward
-      value: 617.30 +/- 686.11
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.04 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.13 +/- 0.16
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -582,13 +582,13 @@ model-index:
       type: atari-gopher
     metrics:
     - type: total_reward
-      value: 2947.20 +/- 1448.32
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.03 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 1.25 +/- 0.67
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -598,13 +598,13 @@ model-index:
       type: atari-gravitar
     metrics:
     - type: total_reward
-      value: 1030.50 +/- 719.20
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.22 +/- 0.19
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.27 +/- 0.23
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -614,13 +614,13 @@ model-index:
       type: atari-hero
     metrics:
     - type: total_reward
-      value: 6997.95 +/- 2562.51
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.14 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.20 +/- 0.09
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -630,13 +630,13 @@ model-index:
       type: atari-icehockey
     metrics:
     - type: total_reward
-      value: -3.77 +/- 3.10
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.20 +/- 0.09
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.61 +/- 0.26
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -646,13 +646,13 @@ model-index:
       type: atari-jamesbond
     metrics:
     - type: total_reward
-      value: 187.50 +/- 72.24
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.58 +/- 0.26
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -662,13 +662,13 @@ model-index:
       type: atari-kangaroo
     metrics:
     - type: total_reward
-      value: 124.00 +/- 156.92
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.14 +/- 0.30
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.02 +/- 0.05
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -678,13 +678,13 @@ model-index:
       type: atari-krull
     metrics:
     - type: total_reward
-      value: 8933.00 +/- 1358.65
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.75 +/- 0.14
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 6.87 +/- 1.27
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -694,13 +694,13 @@ model-index:
       type: atari-kungfumaster
     metrics:
     - type: total_reward
-      value: 100.00 +/- 142.13
       name: Total reward
     - type: expert_normalized_total_reward
-      value: -0.00 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: -0.01 +/- 0.01
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -726,13 +726,13 @@ model-index:
       type: atari-mspacman
     metrics:
     - type: total_reward
-      value: 1516.30 +/- 376.72
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.18 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.18 +/- 0.06
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -742,13 +742,13 @@ model-index:
       type: atari-namethisgame
     metrics:
     - type: total_reward
-      value: 3798.60 +/- 1361.64
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.07 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.26 +/- 0.24
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -758,13 +758,13 @@ model-index:
       type: atari-phoenix
     metrics:
     - type: total_reward
-      value: 1267.50 +/- 1013.72
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.00 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.08 +/- 0.16
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -774,13 +774,13 @@ model-index:
       type: atari-pitfall
     metrics:
     - type: total_reward
-      value: -287.36 +/- 492.82
       name: Total reward
     - type: expert_normalized_total_reward
-      value: -0.25 +/- 2.16
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: -0.01 +/- 0.07
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -790,13 +790,13 @@ model-index:
       type: atari-pong
     metrics:
     - type: total_reward
-      value: -11.03 +/- 11.29
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.23 +/- 0.27
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.27 +/- 0.32
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -806,10 +806,10 @@ model-index:
       type: atari-privateeye
     metrics:
     - type: total_reward
-      value: 96.00 +/- 19.60
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.95 +/- 0.26
       name: Expert normalized total reward
     - type: human_normalized_total_reward
       value: 0.00 +/- 0.00
@@ -822,13 +822,13 @@ model-index:
       type: atari-qbert
     metrics:
     - type: total_reward
-      value: 1701.75 +/- 1912.56
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.04 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.12 +/- 0.14
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -838,13 +838,13 @@ model-index:
       type: atari-riverraid
     metrics:
     - type: total_reward
-      value: 2793.10 +/- 693.84
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.11 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.09 +/- 0.04
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -854,13 +854,13 @@ model-index:
       type: atari-roadrunner
     metrics:
     - type: total_reward
-      value: 7699.00 +/- 3446.61
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.10 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.98 +/- 0.44
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -870,13 +870,13 @@ model-index:
       type: atari-robotank
     metrics:
     - type: total_reward
-      value: 16.36 +/- 5.24
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.18 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 1.46 +/- 0.54
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -886,13 +886,13 @@ model-index:
       type: atari-seaquest
     metrics:
     - type: total_reward
-      value: 515.20 +/- 141.51
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.18 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.01 +/- 0.00
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -902,13 +902,13 @@ model-index:
       type: atari-skiing
     metrics:
     - type: total_reward
-      value: -29396.08 +/- 3289.80
       name: Total reward
     - type: expert_normalized_total_reward
-      value: -1.93 +/- 0.52
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: -0.96 +/- 0.26
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -918,13 +918,13 @@ model-index:
       type: atari-solaris
     metrics:
     - type: total_reward
-      value: 988.20 +/- 487.42
       name: Total reward
     - type: expert_normalized_total_reward
-      value: -2.11 +/- 4.15
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: -0.02 +/- 0.04
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -934,13 +934,13 @@ model-index:
       type: atari-spaceinvaders
     metrics:
     - type: total_reward
-      value: 339.50 +/- 164.05
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.13 +/- 0.11
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -950,13 +950,13 @@ model-index:
       type: atari-stargunner
     metrics:
     - type: total_reward
-      value: 978.00 +/- 638.37
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.00 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.03 +/- 0.07
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -966,13 +966,13 @@ model-index:
       type: atari-surround
     metrics:
     - type: total_reward
-      value: -8.22 +/- 1.19
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.09 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.11 +/- 0.07
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -982,13 +982,13 @@ model-index:
       type: atari-tennis
     metrics:
     - type: total_reward
-      value: -22.38 +/- 2.22
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.04 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.04 +/- 0.07
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -998,13 +998,13 @@ model-index:
       type: atari-timepilot
     metrics:
     - type: total_reward
-      value: 9534.00 +/- 2577.76
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.09 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 3.59 +/- 1.55
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1014,13 +1014,13 @@ model-index:
       type: atari-tutankham
     metrics:
     - type: total_reward
-      value: 40.20 +/- 14.51
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.10 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.18 +/- 0.09
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1030,13 +1030,13 @@ model-index:
       type: atari-upndown
     metrics:
     - type: total_reward
-      value: 6072.00 +/- 2283.30
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.50 +/- 0.20
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1062,13 +1062,13 @@ model-index:
       type: atari-videopinball
     metrics:
     - type: total_reward
-      value: 7943.01 +/- 8351.21
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.02 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.45 +/- 0.47
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1078,13 +1078,13 @@ model-index:
       type: atari-wizardofwor
     metrics:
     - type: total_reward
-      value: 1306.00 +/- 1139.81
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.02 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.18 +/- 0.27
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1094,13 +1094,13 @@ model-index:
       type: atari-yarsrevenge
     metrics:
     - type: total_reward
-      value: 8597.41 +/- 4291.81
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.02 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.11 +/- 0.08
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1110,13 +1110,13 @@ model-index:
       type: atari-zaxxon
     metrics:
     - type: total_reward
-      value: 896.00 +/- 1172.68
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.01 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.09 +/- 0.13
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -2441,7 +2441,6 @@ This is a multi-modal and multi-task model.
 <details>
   <summary>The model was trained on the following tasks:</summary>
 - Alien
 - Amidar
 - Assault
@@ -2599,6 +2598,7 @@ This is a multi-modal and multi-task model.
 - Humanoid Standup
 - Swimmer
 - Walker 2d
 </details>
 ## How to Get Started with the Model
@@ -2610,3 +2610,4 @@ from transformers import AutoModelForCausalLM
 model = AutoModelForCausalLM.from_pretrained("jat-project/jat")
 ```

       type: atari
     metrics:
     - type: iqm_expert_normalized_total_reward
+      value: 0.14 [0.14, 0.15]
       name: IQM expert normalized total reward
     - type: iqm_human_normalized_total_reward
+      value: 0.38 [0.37, 0.38]
       name: IQM human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-alien
     metrics:
     - type: total_reward
+      value: 1474.90 +/- 588.75
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.07 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.18 +/- 0.09
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-amidar
     metrics:
     - type: total_reward
+      value: 104.89 +/- 103.52
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.05 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.06 +/- 0.06
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-assault
     metrics:
     - type: total_reward
+      value: 1650.07 +/- 820.99
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.09 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 2.75 +/- 1.58
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-asterix
     metrics:
     - type: total_reward
+      value: 800.00 +/- 584.85
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.17 +/- 0.17
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.07 +/- 0.07
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-asteroids
     metrics:
     - type: total_reward
+      value: 1385.30 +/- 507.53
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.00 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.01 +/- 0.01
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-atlantis
     metrics:
     - type: total_reward
+      value: 66980.00 +/- 158449.73
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.18 +/- 0.51
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 3.35 +/- 9.79
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-bankheist
     metrics:
     - type: total_reward
+      value: 948.30 +/- 199.86
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.71 +/- 0.15
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 1.26 +/- 0.27
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-battlezone
     metrics:
     - type: total_reward
+      value: 17420.00 +/- 6071.54
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.06 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.47 +/- 0.16
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-beamrider
     metrics:
     - type: total_reward
+      value: 797.32 +/- 328.31
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.03 +/- 0.02
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-berzerk
     metrics:
     - type: total_reward
+      value: 687.30 +/- 331.91
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.22 +/- 0.13
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-bowling
     metrics:
     - type: total_reward
+      value: 22.41 +/- 5.57
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: -0.01 +/- 0.04
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-boxing
     metrics:
     - type: total_reward
+      value: 90.10 +/- 23.05
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.92 +/- 0.24
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 7.50 +/- 1.92
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-breakout
     metrics:
     - type: total_reward
+      value: 8.82 +/- 5.63
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.25 +/- 0.20
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-centipede
     metrics:
     - type: total_reward
+      value: 5589.92 +/- 2567.26
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.37 +/- 0.27
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.35 +/- 0.26
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-choppercommand
     metrics:
     - type: total_reward
+      value: 2417.00 +/- 1489.90
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.02 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.24 +/- 0.23
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-crazyclimber
     metrics:
     - type: total_reward
+      value: 97639.00 +/- 26184.68
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.52 +/- 0.16
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 3.47 +/- 1.05
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-defender
     metrics:
     - type: total_reward
+      value: 39323.50 +/- 15202.98
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.10 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 2.30 +/- 0.96
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-demonattack
     metrics:
     - type: total_reward
+      value: 815.30 +/- 989.67
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.36 +/- 0.54
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-doubledunk
     metrics:
     - type: total_reward
+      value: 14.42 +/- 9.97
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.84 +/- 0.25
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.94 +/- 0.28
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-enduro
     metrics:
     - type: total_reward
+      value: 108.52 +/- 42.73
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.05 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.13 +/- 0.05
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-fishingderby
     metrics:
     - type: total_reward
+      value: -30.35 +/- 24.37
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.62 +/- 0.25
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.47 +/- 0.19
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-freeway
     metrics:
     - type: total_reward
+      value: 27.49 +/- 1.63
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.81 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.93 +/- 0.06
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-frostbite
     metrics:
     - type: total_reward
+      value: 2769.60 +/- 1445.61
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.21 +/- 0.11
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.63 +/- 0.34
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-gopher
     metrics:
     - type: total_reward
+      value: 5340.60 +/- 2547.07
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.06 +/- 0.03
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 2.36 +/- 1.18
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-gravitar
     metrics:
     - type: total_reward
+      value: 1269.50 +/- 902.99
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.29 +/- 0.24
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.34 +/- 0.28
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-hero
     metrics:
     - type: total_reward
+      value: 11709.65 +/- 3233.53
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.24 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.36 +/- 0.11
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-icehockey
     metrics:
     - type: total_reward
+      value: 7.48 +/- 5.60
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.51 +/- 0.15
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 1.54 +/- 0.46
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-jamesbond
     metrics:
     - type: total_reward
+      value: 327.50 +/- 123.16
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 1.09 +/- 0.45
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-kangaroo
     metrics:
     - type: total_reward
+      value: 378.00 +/- 343.97
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.62 +/- 0.66
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.11 +/- 0.12
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-krull
     metrics:
     - type: total_reward
+      value: 10720.50 +/- 1284.13
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.93 +/- 0.13
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 8.55 +/- 1.20
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-kungfumaster
     metrics:
     - type: total_reward
+      value: 288.00 +/- 255.06
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.00 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.00 +/- 0.01
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-mspacman
     metrics:
     - type: total_reward
+      value: 1573.10 +/- 483.96
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.19 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.19 +/- 0.07
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-namethisgame
     metrics:
     - type: total_reward
+      value: 7523.30 +/- 2471.38
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.25 +/- 0.12
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.91 +/- 0.43
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-phoenix
     metrics:
     - type: total_reward
+      value: 2197.90 +/- 1795.38
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.00 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.22 +/- 0.28
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-pitfall
     metrics:
     - type: total_reward
+      value: -6.68 +/- 19.05
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.98 +/- 0.08
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.03 +/- 0.00
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-pong
     metrics:
     - type: total_reward
+      value: 13.69 +/- 13.35
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.82 +/- 0.32
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.97 +/- 0.38
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-privateeye
     metrics:
     - type: total_reward
+      value: 44.00 +/- 49.64
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.25 +/- 0.66
       name: Expert normalized total reward
     - type: human_normalized_total_reward
       value: 0.00 +/- 0.00
       type: atari-qbert
     metrics:
     - type: total_reward
+      value: 1951.50 +/- 2577.24
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.04 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.13 +/- 0.19
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-riverraid
     metrics:
     - type: total_reward
+      value: 3758.50 +/- 1536.66
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.18 +/- 0.11
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.15 +/- 0.10
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-roadrunner
     metrics:
     - type: total_reward
+      value: 6407.00 +/- 4847.36
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.08 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.82 +/- 0.62
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-robotank
     metrics:
     - type: total_reward
+      value: 11.34 +/- 5.52
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.12 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.94 +/- 0.57
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-seaquest
     metrics:
     - type: total_reward
+      value: 804.00 +/- 403.33
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.29 +/- 0.16
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.02 +/- 0.01
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-skiing
     metrics:
     - type: total_reward
+      value: -16231.54 +/- 6060.48
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.14 +/- 0.95
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.07 +/- 0.47
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-solaris
     metrics:
     - type: total_reward
+      value: 1286.60 +/- 446.70
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.43 +/- 3.81
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.00 +/- 0.04
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-spaceinvaders
     metrics:
     - type: total_reward
+      value: 325.45 +/- 163.36
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.12 +/- 0.11
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-stargunner
     metrics:
     - type: total_reward
+      value: 4379.00 +/- 3027.22
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.39 +/- 0.32
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-surround
     metrics:
     - type: total_reward
+      value: 2.67 +/- 4.74
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.65 +/- 0.24
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.77 +/- 0.29
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-tennis
     metrics:
     - type: total_reward
+      value: -13.46 +/- 3.80
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.30 +/- 0.11
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.32 +/- 0.12
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-timepilot
     metrics:
     - type: total_reward
+      value: 13028.00 +/- 5222.57
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.14 +/- 0.08
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 5.69 +/- 3.14
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-tutankham
     metrics:
     - type: total_reward
+      value: 85.66 +/- 61.77
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.27 +/- 0.22
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.48 +/- 0.40
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-upndown
     metrics:
     - type: total_reward
+      value: 17768.70 +/- 10321.95
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.04 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 1.54 +/- 0.92
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-videopinball
     metrics:
     - type: total_reward
+      value: 11917.43 +/- 8204.28
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.03 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.67 +/- 0.46
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-wizardofwor
     metrics:
     - type: total_reward
+      value: 2544.00 +/- 2902.42
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.04 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.47 +/- 0.69
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-yarsrevenge
     metrics:
     - type: total_reward
+      value: 12532.70 +/- 8062.85
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.04 +/- 0.03
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.18 +/- 0.16
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-zaxxon
     metrics:
     - type: total_reward
+      value: 6902.00 +/- 3206.09
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.09 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.75 +/- 0.35
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
 <details>
   <summary>The model was trained on the following tasks:</summary>
 - Alien
 - Amidar
 - Assault
 - Humanoid Standup
 - Swimmer
 - Walker 2d
 </details>
 ## How to Get Started with the Model
 model = AutoModelForCausalLM.from_pretrained("jat-project/jat")
 ```