ARIA

Adaptive Reward & Incident Architecture

DevOps Incident Response · OpenEnv · Meta × PyTorch × HuggingFace Hackathon

Docs | Validate

Environment — 7 Tasks

EASY

Single Service OOM

One service crash-loops from a memory leak. Varies by seed.

max_steps: 15

MEDIUM

Cascading Failure

Bad deployment cascades through 3 services + red-herring.

max_steps: 20

HARD

Silent Data Corruption

No alerts. Signal in WARN logs and business metric slippage.

max_steps: 25

BONUS

Dual Simultaneous Failure

Two independent failures at once. Both must be fixed.

max_steps: 25

SECURITY

Security Incident (DDoS)

Botnet DDoS + credential stuffing. CIDR block required.

max_steps: 20

DATABASE

Database Degradation

Missing schema index causing DB CPU spike and slow queries.

max_steps: 20

FAILOVER

Multi-Region Failover

Region failure. Escalate or failover selective services.

max_steps: 25

GENERATED

Procedural Incident

Seed-based procedural incidents. Infinite unique scenarios.

max_steps: 20

Curriculum Engine

Adapts training difficulty to agent performance

Loading curriculum data...

Feed your training loop: POST /curriculum/record with {{"task_id", "score"}}

Incident Generator

Procedural incidents — infinite unique scenarios from seeds

Noise alerts:

                    POST /reset {{"task_id":"generated","seed":}}
                

Dual-Agent Mode

Split observability — Observer sees logs, Responder sees metrics

┌──────────────────┐ share_finding ┌──────────────────┐ │ AGENT A │ ────────────────▶ │ AGENT B │ │ Observer │ │ Responder │ │ │ │ │ │ Sees: │ │ Sees: │ │ · alerts │ │ · cpu/memory │ │ · logs │ │ · error_rate │ │ · evidence │ │ · dependencies │ └──────────────────┘ └──────────────────┘ │ ▲ └──────── Shared Findings Log ─────────┘

Quick Start

Single Agent

# Install
pip install openenv

# Reset environment  
curl -X POST .../reset \\
  -H "Content-Type: application/json" \\
  -d '{{"task_id":"easy","seed":42}}'

# Take an action
curl -X POST .../step \\
  -d '{{"action_type":"read_logs",
       "service":"payment-service"}}'

# Check curriculum
curl .../curriculum/next

Dual Agent

# Start session
curl -X POST .../multi-agent/reset \\
  -d '{{"task_id":"easy","seed":42}}'

# Agent A shares finding
curl -X POST .../multi-agent/step/a/{{id}} \\
  -d '{{"finding":"payment-service OOM"}}'

# Agent B responds
curl -X POST .../multi-agent/step/b/{{id}} \\
  -d '{{"action_type":"restart_service",
       "service":"payment-service"}}'