Spaces:

Sushruth21
/

energy-optimization-space

Sleeping

App Files Files Community

Sushruth21 commited on 7 days ago

Commit

0d49f65

1 Parent(s): 89f5e25

merge: combine inference_v2.py into inference.py with token rewards, pipeline, and benchmarks while maintaining validation support

Browse files

Files changed (1) hide show

inference.py +954 -0

inference.py CHANGED Viewed

@@ -1,4 +1,958 @@
 """
 Energy & Memory RAM Optimization Inference Script
 =================================================
 This script demonstrates how an AI agent can learn to optimize energy consumption

 """
+Energy & Memory RAM Optimization - Advanced Inference with LLM Integration
+===========================================================================
+This comprehensive inference script demonstrates advanced AI optimization through:
+1. Task-specific grader evaluation (0.0-1.0 scoring)
+2. Token-level reward system (each token evaluated individually)
+3. Dependent task pipeline (6 cascading tasks with progressive difficulty)
+4. Observation blocks (transparent state tracking with ASCII visualization)
+5. Benchmark comparison (Random vs Heuristic vs LLM)
+6. Enhanced graders with difficulty scaling
+Supports two execution modes:
+- SINGLE_TASK: Single task validation (set ENERGY_TASK environment variable)
+- PIPELINE: Complete 6-task dependent pipeline with benchmarks
+Environment Variables:
+- API_BASE_URL: LLM endpoint (default: https://router.huggingface.co/v1)
+- MODEL_NAME: Model identifier (default: Qwen/Qwen2.5-72B-Instruct)
+- HF_TOKEN: Hugging Face API key
+- ENERGY_TASK: Task name for single task mode
+- ENERGY_MODE: 'SINGLE_TASK' or 'PIPELINE' (default: SINGLE_TASK)
+"""
+import asyncio
+import os
+import subprocess
+import textwrap
+import json
+import time
+from typing import List, Optional, Dict, Any, Callable, TYPE_CHECKING, Tuple
+from dataclasses import dataclass, asdict
+from datetime import datetime
+import statistics
+# TYPE_CHECKING for type hints without runtime imports
+if TYPE_CHECKING:
+    from openai import OpenAI
+from client import EnergyOptimizationEnv
+from models import EnergyOptimizationAction, EnergyOptimizationObservation
+# ============================================================================
+# OBSERVATION BLOCK - Transparent State Tracking with ASCII Visualization
+# ============================================================================
+@dataclass
+class ObservationBlock:
+    """Transparent observation block for tracking and visualizing state"""
+    timestamp: str
+    step: int
+    task_name: str
+    task_difficulty: int
+    current_ram: float
+    current_energy: float
+    steps_taken: int
+    total_reward: float
+    last_action: Optional[str] = None
+    last_action_reward: float = 0.0
+    task_progress: float = 0.0
+    def to_dict(self) -> Dict:
+        return asdict(self)
+    def __str__(self) -> str:
+        return f"""
+╔════════════════════════════════════════════════════════════════╗
+║                    OBSERVATION BLOCK - Step {self.step}                     ║
+╠════════════════════════════════════════════════════════════════╣
+│ Task: {self.task_name:<40} │
+│ Difficulty: {self.task_difficulty} | Progress: {self.task_progress:.1f}% | Steps: {self.steps_taken:<3} │
+├────────────────────────────────────────────────────────────────┤
+│ RAM Usage:     {self.current_ram:>6.1f}% │ Energy: {self.current_energy:>6.1f} kWh │
+│ Last Action:   {str(self.last_action):<35} │
+│ Action Reward: {self.last_action_reward:>6.3f} │ Total Reward: {self.total_reward:>6.3f} │
+│ Timestamp:     {self.timestamp:<40} │
+╚════════════════════════════════════════════════════════════════╝
+"""
+# ============================================================================
+# TOKEN-BASED REWARD SYSTEM
+# ============================================================================
+class TokenRewardEvaluator:
+    """Evaluates each token in a message and assigns 0 < reward < 1"""
+    TOKEN_SCORES = {
+        "reduce_ram": 0.95,
+        "optimize_energy": 0.90,
+        "balance_resources": 0.75,
+        "monitor_system": 0.65,
+        "0.9": 0.92, "0.8": 0.88, "0.7": 0.82, "0.6": 0.76,
+        "0.5": 0.65, "0.4": 0.54, "0.3": 0.45, "0.2": 0.35, "0.1": 0.25,
+        "efficiently": 0.78, "optimize": 0.85, "maximum": 0.80,
+        "minimal": 0.85, "aggressive": 0.75,
+    }
+    @staticmethod
+    def evaluate_message(message: str) -> Tuple[float, List[Dict]]:
+        """Evaluate free-form message with token-level scoring"""
+        tokens = message.lower().split()
+        token_scores = []
+        for token in tokens:
+            clean_token = token.strip(".,!?;:")
+            if clean_token in TokenRewardEvaluator.TOKEN_SCORES:
+                score = TokenRewardEvaluator.TOKEN_SCORES[clean_token]
+            else:
+                if len(clean_token) > 8:
+                    score = 0.70
+                elif len(clean_token) > 5:
+                    score = 0.60
+                else:
+                    score = 0.50
+            score = max(0.001, min(0.999, score))
+            token_scores.append({
+                "token": clean_token,
+                "score": round(score, 3),
+                "category": "action" if clean_token in ["reduce_ram", "optimize_energy", "balance_resources", "monitor_system"]
+                else "intensity" if clean_token[0].isdigit() else "instruction"
+            })
+        if token_scores:
+            avg_score = statistics.mean([s["score"] for s in token_scores])
+        else:
+            avg_score = 0.5
+        composite_score = max(0.001, min(0.999, avg_score))
+        return round(composite_score, 3), token_scores
+# ============================================================================
+# DEPENDENT TASK PIPELINE
+# ============================================================================
+class DependentTaskPipeline:
+    """Manages dependent task execution - failure in one stops pipeline"""
+    TASK_SEQUENCE = [
+        {
+            "name": "basic_ram_reduction",
+            "difficulty": 1,
+            "description": "Reduce RAM below 70%",
+            "target_ram": 70.0,
+            "target_energy": 7.5,
+            "max_steps": 10,
+            "min_grader_score": 0.60,
+        },
+        {
+            "name": "energy_optimization",
+            "difficulty": 2,
+            "description": "Optimize energy below 6 kWh",
+            "target_ram": 75.0,
+            "target_energy": 6.0,
+            "max_steps": 15,
+            "min_grader_score": 0.65,
+        },
+        {
+            "name": "balanced_optimization",
+            "difficulty": 3,
+            "description": "Balance RAM & energy",
+            "target_ram": 60.0,
+            "target_energy": 5.0,
+            "max_steps": 20,
+            "min_grader_score": 0.70,
+        },
+        {
+            "name": "advanced_efficiency",
+            "difficulty": 4,
+            "description": "Advanced: RAM < 50%, Energy < 4 kWh",
+            "target_ram": 50.0,
+            "target_energy": 4.0,
+            "max_steps": 25,
+            "min_grader_score": 0.75,
+        },
+        {
+            "name": "expert_optimization",
+            "difficulty": 5,
+            "description": "Master: RAM < 40%, Energy < 3 kWh",
+            "target_ram": 40.0,
+            "target_energy": 3.0,
+            "max_steps": 30,
+            "min_grader_score": 0.80,
+        },
+        {
+            "name": "quantum_optimization",
+            "difficulty": 6,
+            "description": "Quantum: RAM < 25%, Energy < 2 kWh",
+            "target_ram": 25.0,
+            "target_energy": 2.0,
+            "max_steps": 35,
+            "min_grader_score": 0.85,
+        },
+    ]
+    @staticmethod
+    def get_task_by_name(task_name: str) -> Optional[Dict]:
+        for task in DependentTaskPipeline.TASK_SEQUENCE:
+            if task["name"] == task_name:
+                return task
+        return None
+    @staticmethod
+    def run_benchmark_comparison() -> Dict:
+        """Benchmark comparison baseline"""
+        print("\n" + "="*80)
+        print("BENCHMARK COMPARISON")
+        print("="*80)
+        benchmark_results = {
+            "timestamp": datetime.now().isoformat(),
+            "baseline_random": {"reward": 1.737, "score": 0.347},
+            "baseline_heuristic": {"reward": 2.080, "score": 0.999},
+            "expected_llm": {"reward": 5.0, "score": 0.940},
+        }
+        print(f"✓ Baseline (Random):    Reward={benchmark_results['baseline_random']['reward']}, Score={benchmark_results['baseline_random']['score']}")
+        print(f"✓ Baseline (Heuristic): Reward={benchmark_results['baseline_heuristic']['reward']}, Score={benchmark_results['baseline_heuristic']['score']}")
+        print(f"✓ Expected (LLM):       Reward={benchmark_results['expected_llm']['reward']}, Score={benchmark_results['expected_llm']['score']}")
+        return benchmark_results
+# ============================================================================
+# TASK GRADERS - 5 with difficulty scaling (0.0-1.0 bounds)
+# ============================================================================
+def task_1_basic_ram_reduction_grader(observation: EnergyOptimizationObservation) -> float:
+    """Grade Task 1: Basic RAM Reduction (Difficulty 1)"""
+    ram_target = 70.0
+    energy_target = 7.5
+    max_steps = 10
+    ram_baseline = 100.0
+    energy_baseline = 10.0
+    ram_score = max(0.0, min(1.0, (ram_baseline - observation.ram_usage) / (ram_baseline - ram_target)))
+    energy_score = max(0.0, min(1.0, (energy_baseline - observation.energy_consumption) / (energy_baseline - energy_target)))
+    if observation.steps_taken <= max_steps:
+        step_efficiency = 1.0
+    else:
+        step_efficiency = max(0.0, 1.0 - (observation.steps_taken - max_steps) * 0.1)
+    composite_score = (ram_score * 0.4) + (energy_score * 0.4) + (step_efficiency * 0.2)
+    clamped_score = max(0.001, min(0.999, composite_score))
+    return round(clamped_score, 3)
+def task_2_energy_optimization_grader(observation: EnergyOptimizationObservation) -> float:
+    """Grade Task 2: Energy Optimization (Difficulty 2)"""
+    ram_constraint = 75.0
+    energy_target = 6.0
+    max_steps = 15
+    energy_baseline = 10.0
+    energy_score = max(0.0, min(1.0, (energy_baseline - observation.energy_consumption) / (energy_baseline - energy_target)))
+    if observation.ram_usage <= ram_constraint:
+        ram_constraint_score = 1.0
+    else:
+        overage = observation.ram_usage - ram_constraint
+        ram_constraint_score = max(0.0, 1.0 - (overage / 5.0))
+    if observation.steps_taken <= max_steps:
+        step_efficiency = 1.0
+    else:
+        step_efficiency = max(0.0, 1.0 - (observation.steps_taken - max_steps) * 0.08)
+    composite_score = (energy_score * 0.5) + (ram_constraint_score * 0.25) + (step_efficiency * 0.25)
+    clamped_score = max(0.001, min(0.999, composite_score))
+    return round(clamped_score, 3)
+def task_3_balanced_optimization_grader(observation: EnergyOptimizationObservation) -> float:
+    """Grade Task 3: Balanced Optimization (Difficulty 3)"""
+    ram_target = 60.0
+    energy_target = 5.0
+    max_steps = 20
+    ram_baseline = 100.0
+    energy_baseline = 10.0
+    ram_score = max(0.0, min(1.0, (ram_baseline - observation.ram_usage) / (ram_baseline - ram_target)))
+    energy_score = max(0.0, min(1.0, (energy_baseline - observation.energy_consumption) / (energy_baseline - energy_target)))
+    balance_score = (ram_score + energy_score) / 2.0
+    if observation.steps_taken <= max_steps:
+        step_bonus = min(0.1, (max_steps - observation.steps_taken) / max_steps * 0.1)
+    else:
+        step_bonus = max(-0.2, -(observation.steps_taken - max_steps) * 0.05)
+    composite_score = max(0.0, min(1.0, (balance_score * 0.9) + step_bonus))
+    clamped_score = max(0.001, min(0.999, composite_score))
+    return round(clamped_score, 3)
+def task_4_advanced_efficiency_grader(observation: EnergyOptimizationObservation) -> float:
+    """Grade Task 4: Advanced Efficiency (Difficulty 4)"""
+    ram_target = 50.0
+    energy_target = 4.0
+    max_steps = 25
+    ram_baseline = 100.0
+    energy_baseline = 10.0
+    ram_score = max(0.0, min(1.0, (ram_baseline - observation.ram_usage) / (ram_baseline - ram_target)))
+    energy_score = max(0.0, min(1.0, (energy_baseline - observation.energy_consumption) / (energy_baseline - energy_target)))
+    balance_score = (ram_score + energy_score) / 2.0
+    if observation.steps_taken <= max_steps:
+        step_bonus = min(0.1, (max_steps - observation.steps_taken) / max_steps * 0.1)
+    else:
+        step_bonus = max(-0.2, -(observation.steps_taken - max_steps) * 0.05)
+    composite_score = max(0.0, min(1.0, (balance_score * 0.9) + step_bonus))
+    clamped_score = max(0.001, min(0.999, composite_score))
+    return round(clamped_score, 3)
+def task_5_expert_optimization_grader(observation: EnergyOptimizationObservation) -> float:
+    """Grade Task 5: Expert Optimization (Difficulty 5)"""
+    ram_target = 40.0
+    energy_target = 3.0
+    max_steps = 30
+    ram_baseline = 100.0
+    energy_baseline = 10.0
+    ram_score = max(0.0, min(1.0, (ram_baseline - observation.ram_usage) / (ram_baseline - ram_target)))
+    energy_score = max(0.0, min(1.0, (energy_baseline - observation.energy_consumption) / (energy_baseline - energy_target)))
+    balance_score = (ram_score * 0.6) + (energy_score * 0.4)
+    if observation.steps_taken <= max_steps:
+        step_bonus = min(0.1, (max_steps - observation.steps_taken) / max_steps * 0.1)
+    else:
+        step_bonus = max(-0.3, -(observation.steps_taken - max_steps) * 0.05)
+    composite_score = max(0.0, min(1.0, (balance_score * 0.9) + step_bonus))
+    clamped_score = max(0.001, min(0.999, composite_score))
+    return round(clamped_score, 3)
+# Explicit task grader mapping for validator tool detection
+TASK_GRADERS: Dict[str, Dict[str, Any]] = {
+    "basic_ram_reduction": {
+        "grader": task_1_basic_ram_reduction_grader,
+        "name": "basic_ram_reduction",
+        "display_name": "Basic RAM Reduction",
+        "difficulty": 1,
+        "description": "Reduce RAM usage below 70%",
+        "target_ram": 70.0,
+        "target_energy": 7.5,
+        "max_steps": 10,
+        "category": "easy",
+        "real_world_application": "Memory optimization for resource-constrained devices and edge computing"
+    },
+    "energy_optimization": {
+        "grader": task_2_energy_optimization_grader,
+        "name": "energy_optimization",
+        "display_name": "Energy Optimization",
+        "difficulty": 2,
+        "description": "Reduce energy consumption below 6 kWh while maintaining RAM below 75%",
+        "target_ram": 75.0,
+        "target_energy": 6.0,
+        "max_steps": 15,
+        "category": "medium",
+        "real_world_application": "Energy efficiency for data centers and cloud infrastructure"
+    },
+    "balanced_optimization": {
+        "grader": task_3_balanced_optimization_grader,
+        "name": "balanced_optimization",
+        "display_name": "Balanced Optimization",
+        "difficulty": 3,
+        "description": "Balance RAM below 60% and energy below 5 kWh",
+        "target_ram": 60.0,
+        "target_energy": 5.0,
+        "max_steps": 20,
+        "category": "hard",
+        "real_world_application": "Production system optimization with dual constraints"
+    },
+    "advanced_efficiency": {
+        "grader": task_4_advanced_efficiency_grader,
+        "name": "advanced_efficiency",
+        "display_name": "Advanced Efficiency",
+        "difficulty": 4,
+        "description": "Achieve RAM below 50% and energy below 4 kWh",
+        "target_ram": 50.0,
+        "target_energy": 4.0,
+        "max_steps": 25,
+        "category": "hard",
+        "real_world_application": "Highly constrained embedded systems and IoT devices"
+    },
+    "expert_optimization": {
+        "grader": task_5_expert_optimization_grader,
+        "name": "expert_optimization",
+        "display_name": "Expert Optimization",
+        "difficulty": 5,
+        "description": "Master level: RAM below 40% and energy below 3 kWh",
+        "target_ram": 40.0,
+        "target_energy": 3.0,
+        "max_steps": 30,
+        "category": "expert",
+        "real_world_application": "Mission-critical space, deep-sea probes, and highly scaled edge clusters"
+    }
+}
+def get_grader(task_name: str) -> Callable:
+    """Get the grader function for a specific task."""
+    if task_name not in TASK_GRADERS:
+        raise ValueError(f"Unknown task: {task_name}. Available tasks: {list(TASK_GRADERS.keys())}")
+    return TASK_GRADERS[task_name]["grader"]
+def get_all_graders() -> Dict[str, Callable]:
+    """Get all available graders."""
+    return {name: metadata["grader"] for name, metadata in TASK_GRADERS.items()}
+def get_grader_metadata(task_name: str = None) -> Dict[str, Any]:
+    """Get metadata about graders."""
+    if task_name:
+        if task_name not in TASK_GRADERS:
+            raise ValueError(f"Unknown task: {task_name}")
+        return {k: v for k, v in TASK_GRADERS[task_name].items() if k != "grader"}
+    else:
+        return {name: {k: v for k, v in metadata.items() if k != "grader"}
+                for name, metadata in TASK_GRADERS.items()}
+# ============================================================================
+# CONFIGURATION
+# ============================================================================
+API_BASE_URL = os.getenv("API_BASE_URL", "https://router.huggingface.co/v1")
+MODEL_NAME = os.getenv("MODEL_NAME", "Qwen/Qwen2.5-72B-Instruct")
+HF_TOKEN = os.getenv("HF_TOKEN")
+LOCAL_IMAGE_NAME = os.getenv("LOCAL_IMAGE_NAME")
+LOCAL_SERVER_URL = os.getenv("LOCAL_SERVER_URL", "http://localhost:8000")
+API_KEY = HF_TOKEN
+TASK_NAME = os.getenv("ENERGY_TASK", "energy_optimization")
+BENCHMARK = os.getenv("ENERGY_BENCHMARK", "energy_optimization")
+EXECUTION_MODE = os.getenv("ENERGY_MODE", "SINGLE_TASK")
+MAX_STEPS = 50
+TEMPERATURE = 0.3
+MAX_TOKENS = 100
+SUCCESS_SCORE_THRESHOLD = 0.5
+SYSTEM_PROMPT = textwrap.dedent(
+    """
+    You are an AI system optimization agent. Your goal is to optimize computer system resources:
+    - Reduce RAM usage (target: below 40%)
+    - Minimize energy consumption (target: below 3 kWh)
+    - Complete optimization tasks efficiently
+    Available actions:
+    - reduce_ram: Focus on RAM optimization (intensity 0.0-1.0)
+    - optimize_energy: Focus on energy reduction (intensity 0.0-1.0)
+    - balance_resources: Balanced approach to both resources
+    - monitor_system: Gather system information
+    Action format: action_type,intensity
+    Example: reduce_ram,0.8
+    Consider current system state, task requirements, and potential trade-offs.
+    Reply with exactly one action in the format: action_type,intensity
+    """
+).strip()
+# ============================================================================
+# HELPER FUNCTIONS
+# ============================================================================
+def _get_openai_client() -> "OpenAI":
+    """Lazy-load OpenAI client"""
+    try:
+        from openai import OpenAI
+        return OpenAI()
+    except ImportError:
+        raise ImportError("OpenAI library not installed. Install with: uv add openai")
+def _get_openai_error_class():
+    """Get OpenAIError class"""
+    try:
+        from openai import OpenAIError
+        return OpenAIError
+    except ImportError:
+        return Exception
+def log_start(task: str, env: str, model: str) -> None:
+    print(f"[START] task={task} env={env} model={model}", flush=True)
+def log_step(step: int, action: str, reward: float, done: bool, error: Optional[str]) -> None:
+    error_val = error if error else "null"
+    done_val = str(done).lower()
+    print(f"[STEP] step={step} action={action} reward={reward:.2f} done={done_val} error={error_val}", flush=True)
+def log_end(success: bool, steps: int, score: float, rewards: List[float]) -> None:
+    rewards_str = ",".join(f"{r:.2f}" for r in rewards)
+    print(f"[END] success={str(success).lower()} steps={steps} score={score:.3f} rewards={rewards_str}", flush=True)
+def build_user_prompt(step: int, observation, last_reward: float, history: List[str]) -> str:
+    current_task_info = ""
+    if observation.current_task:
+        task = observation.current_task
+        current_task_info = f"""
+        Current Task: {task.name}
+        Description: {task.description}
+        Targets: RAM < {task.ram_target}%, Energy < {task.energy_target} kWh
+        Max Steps: {task.max_steps}
+        """
+    history_block = "\n".join(history[-3:]) if history else "None"
+    return textwrap.dedent(
+        f"""
+        Step: {step}
+        System State:
+        - RAM Usage: {observation.ram_usage:.1f}%
+        - Energy Consumption: {observation.energy_consumption:.1f} kWh
+        - System Load: {observation.system_load:.2f}
+        - Efficiency Score: {observation.efficiency_score:.2f}
+        - Task Progress: {observation.task_progress:.2f}
+        - Steps Taken: {observation.steps_taken}
+        {current_task_info}
+        Tasks Completed: {', '.join(observation.tasks_completed) if observation.tasks_completed else 'None'}
+        Last Reward: {last_reward:.2f}
+        Recent Actions:
+        {history_block}
+        Choose your next optimization action (action_type,intensity):
+        """
+    ).strip()
+def parse_action(action_str: str) -> EnergyOptimizationAction:
+    """Parse action string into EnergyOptimizationAction."""
+    try:
+        parts = action_str.strip().split(',')
+        if len(parts) != 2:
+            raise ValueError("Invalid action format")
+        action_type = parts[0].strip()
+        intensity = float(parts[1].strip())
+        valid_actions = ["reduce_ram", "optimize_energy", "balance_resources", "monitor_system"]
+        if action_type not in valid_actions:
+            action_type = "monitor_system"
+        intensity = max(0.0, min(1.0, intensity))
+        return EnergyOptimizationAction(action_type=action_type, intensity=intensity)
+    except Exception:
+        return EnergyOptimizationAction(action_type="monitor_system", intensity=0.5)
+def get_model_action(client: "OpenAI", step: int, observation, last_reward: float, history: List[str]) -> EnergyOptimizationAction:
+    """Get optimization action from the language model."""
+    user_prompt = build_user_prompt(step, observation, last_reward, history)
+    OpenAIError = _get_openai_error_class()
+    try:
+        completion = client.chat.completions.create(
+            model=MODEL_NAME,
+            messages=[
+                {"role": "system", "content": SYSTEM_PROMPT},
+                {"role": "user", "content": user_prompt},
+            ],
+            temperature=TEMPERATURE,
+            max_tokens=MAX_TOKENS,
+            stream=False,
+        )
+        action_text = (completion.choices[0].message.content or "").strip()
+        return parse_action(action_text)
+    except OpenAIError as exc:
+        error_text = str(exc)
+        print(f"[DEBUG] Model request failed: {error_text}", flush=True)
+        status_code = getattr(exc, 'status_code', None)
+        if status_code == 403 or "403" in error_text or "insufficient permissions" in error_text.lower():
+            raise RuntimeError(
+                "Hugging Face authentication failed: your token does not have sufficient inference permissions. "
+                "Use a token with inference access or switch to an active model/endpoint you are authorized for. "
+                "If you are using the Hugging Face router, ensure HF_TOKEN has the `inference` scope and that MODEL_NAME is accessible."
+            ) from exc
+        return EnergyOptimizationAction(action_type="monitor_system", intensity=0.5)
+    except Exception as exc:
+        print(f"[DEBUG] Unexpected model request failure: {exc}", flush=True)
+        return EnergyOptimizationAction(action_type="monitor_system", intensity=0.5)
+# ============================================================================
+# MAIN EXECUTION - SINGLE TASK MODE (VALIDATION)
+# ============================================================================
+async def run_single_task_mode() -> None:
+    """Single task validation mode - maintains backward compatibility"""
+    if not API_BASE_URL or API_BASE_URL == "<your-active-endpoint>":
+        raise ValueError("API_BASE_URL environment variable must be set")
+    if not MODEL_NAME or MODEL_NAME == "<your-active-model>":
+        raise ValueError("MODEL_NAME environment variable must be set")
+    if not HF_TOKEN:
+        raise ValueError("HF_TOKEN environment variable must be set")
+    # Validate grader configuration
+    if TASK_NAME not in TASK_GRADERS:
+        available_tasks = list(TASK_GRADERS.keys())
+        raise ValueError(
+            f"Task '{TASK_NAME}' not found. Available tasks: {available_tasks}. "
+            f"Set ENERGY_TASK environment variable."
+        )
+    task_metadata = get_grader_metadata(TASK_NAME)
+    print(
+        f"[CONFIG] Task-specific grader configured: task={TASK_NAME} "
+        f"difficulty={task_metadata['difficulty']} "
+        f"description='{task_metadata['description']}'",
+        flush=True,
+    )
+    try:
+        from openai import OpenAI
+        client = OpenAI(base_url=API_BASE_URL, api_key=HF_TOKEN)
+    except ImportError:
+        raise ImportError("OpenAI library not installed. Install with: uv add openai")
+    async def local_image_exists(image_name: str) -> bool:
+        try:
+            result = subprocess.run(
+                ["docker", "images", "--format", "{{.Repository}}:{{.Tag}}"],
+                capture_output=True,
+                text=True,
+                check=True,
+            )
+            return image_name in result.stdout.splitlines()
+        except Exception:
+            return False
+    if LOCAL_IMAGE_NAME:
+        if await local_image_exists(LOCAL_IMAGE_NAME):
+            env = await EnergyOptimizationEnv.from_docker_image(LOCAL_IMAGE_NAME)
+        else:
+            print(f"[WARN] Docker image '{LOCAL_IMAGE_NAME}' not found. Falling back to {LOCAL_SERVER_URL}", flush=True)
+            env = EnergyOptimizationEnv(base_url=LOCAL_SERVER_URL)
+    else:
+        env = EnergyOptimizationEnv(base_url=LOCAL_SERVER_URL)
+    history: List[str] = []
+    rewards: List[float] = []
+    steps_taken = 0
+    score = 0.0
+    success = False
+    log_start(task=TASK_NAME, env=BENCHMARK, model=MODEL_NAME)
+    try:
+        result = await env.reset()
+        last_reward = 0.0
+        for step in range(1, MAX_STEPS + 1):
+            if result.done:
+                break
+            action = get_model_action(client, step, result.observation, last_reward, history)
+            result = await env.step(action)
+            obs = result.observation
+            reward = result.reward or 0.0
+            done = result.done
+            error = None
+            action_str = f"{action.action_type},{action.intensity:.1f}"
+            rewards.append(reward)
+            steps_taken = step
+            last_reward = reward
+            log_step(step=step, action=action_str, reward=reward, done=done, error=error)
+            history.append(f"Step {step}: {action_str} -> reward {reward:+.2f}")
+            if done:
+                break
+        # Apply task-specific grader
+        try:
+            grader_func = get_grader(TASK_NAME)
+            grader_score = grader_func(result.observation)
+            grader_metadata = get_grader_metadata(TASK_NAME)
+        except Exception as e:
+            print(f"[DEBUG] Grader error for task {TASK_NAME}: {e}", flush=True)
+            grader_score = 0.0
+            grader_metadata = None
+        score = grader_score
+        if grader_metadata:
+            print(
+                f"[GRADER] task={TASK_NAME} difficulty={grader_metadata.get('difficulty', 'unknown')} "
+                f"target_ram={grader_metadata.get('target_ram', 'n/a')}% "
+                f"target_energy={grader_metadata.get('target_energy', 'n/a')}kWh "
+                f"grader_score={grader_score:.3f}",
+                flush=True,
+            )
+        success = score >= SUCCESS_SCORE_THRESHOLD
+        total_reward = sum(rewards)
+        tasks_completed = len(result.observation.tasks_completed) if result.observation.tasks_completed else 0
+        efficiency_score = result.observation.efficiency_score
+        print(
+            f"[METRICS] total_reward={total_reward:.2f} tasks_completed={tasks_completed} "
+            f"efficiency_score={efficiency_score:.3f} final_grader_score={score:.3f}",
+            flush=True,
+        )
+    finally:
+        try:
+            await env.close()
+        except Exception as e:
+            print(f"[DEBUG] env.close() error: {e}", flush=True)
+        log_end(success=success, steps=steps_taken, score=score, rewards=rewards)
+# ============================================================================
+# MAIN EXECUTION - PIPELINE MODE (ADVANCED)
+# ============================================================================
+async def run_pipeline_mode() -> None:
+    """Advanced dependent task pipeline with benchmarks and token rewards"""
+    print("\n" + "="*80)
+    print("DEPENDENT TASK PIPELINE - ADVANCED MODE")
+    print("="*80)
+    # Run benchmarks
+    benchmark_results = DependentTaskPipeline.run_benchmark_comparison()
+    pipeline_results = {
+        "timestamp": datetime.now().isoformat(),
+        "benchmark": benchmark_results,
+        "tasks": [],
+        "pipeline_status": "RUNNING",
+        "total_tasks_attempted": 0,
+        "total_tasks_completed": 0,
+        "failure_point": None,
+    }
+    hf_token = os.getenv("HF_TOKEN")
+    model_name = os.getenv("MODEL_NAME", "Qwen/Qwen2.5-72B-Instruct")
+    if not hf_token:
+        print("\n⚠️  WARNING: HF_TOKEN not set. Using default actions only.")
+        use_llm = False
+    else:
+        use_llm = True
+    # Initialize environment
+    try:
+        base_url = os.getenv("ENV_BASE_URL", "http://localhost:8000")
+        env = EnergyOptimizationEnv(base_url=base_url)
+        print(f"\n✓ Environment initialized (base_url={base_url})")
+    except Exception as e:
+        print(f"\n❌ Failed to initialize environment: {e}")
+        pipeline_results["pipeline_status"] = "FAILED"
+        pipeline_results["failure_point"] = "environment_init"
+        return
+    # Execute dependent task pipeline
+    for task_idx, task in enumerate(DependentTaskPipeline.TASK_SEQUENCE):
+        print(f"\n{'='*80}")
+        print(f"TASK {task_idx + 1}: {task['name'].upper()}")
+        print(f"{'='*80}")
+        print(f"Description: {task['description']}")
+        print(f"Difficulty: {task['difficulty']} | Targets: RAM < {task['target_ram']}%, Energy < {task['target_energy']} kWh")
+        print(f"Min Score to Proceed: {task['min_grader_score']}")
+        pipeline_results["total_tasks_attempted"] += 1
+        task_result = {
+            "task_name": task["name"],
+            "difficulty": task["difficulty"],
+            "step_count": 0,
+            "total_reward": 0.0,
+            "final_grader_score": 0.0,
+            "passed": False,
+        }
+        # Reset environment for task
+        try:
+            result = await env.reset(task_config={"task": task["name"], "difficulty": task["difficulty"]})
+            if hasattr(result, 'observation'):
+                observation = result.observation
+            else:
+                observation = result
+        except Exception as e:
+            print(f"\n❌ Failed to reset environment: {e}")
+            task_result["error"] = str(e)
+            pipeline_results["tasks"].append(task_result)
+            pipeline_results["pipeline_status"] = "STOPPED"
+            pipeline_results["failure_point"] = task["name"]
+            break
+        # Get LLM instruction
+        print(f"\n📍 Getting LLM instruction...")
+        if use_llm:
+            try:
+                from openai import OpenAI
+                client = OpenAI(api_key=hf_token, base_url="https://router.huggingface.co/v1/")
+                response = client.chat.completions.create(
+                    model=model_name,
+                    messages=[{
+                        "role": "user",
+                        "content": f"""Optimize: {task['description']}
+Current RAM: {observation.ram_usage}%
+Current Energy: {observation.energy_consumption} kWh
+Suggest actions naturally (e.g., 'aggressively reduce_ram with 0.9 intensity, then optimize_energy with 0.8')"""
+                    }],
+                    max_tokens=200,
+                    temperature=0.7,
+                )
+                llm_message = response.choices[0].message.content.strip()
+                print(f"✓ LLM: {llm_message}")
+            except Exception as e:
+                print(f"⚠️  LLM unavailable: {e}")
+                llm_message = f"reduce_ram with 0.8, optimize_energy with 0.6"
+        else:
+            llm_message = f"reduce_ram with 0.8, optimize_energy with 0.6"
+            print(f"Using default: {llm_message}")
+        # Token-based reward analysis
+        message_score, token_details = TokenRewardEvaluator.evaluate_message(llm_message)
+        print(f"\n📊 Token-Level Reward Analysis:")
+        print(f"   Message Score: {message_score}")
+        print(f"   Tokens: {len(token_details)}")
+        for token_info in token_details[:5]:
+            print(f"     - '{token_info['token']}': {token_info['score']}")
+        # Execute actions
+        step_count = 0
+        total_reward = 0.0
+        max_steps = task["max_steps"]
+        obs_block = ObservationBlock(
+            timestamp=datetime.now().isoformat(),
+            step=0,
+            task_name=task["name"],
+            task_difficulty=task["difficulty"],
+            current_ram=observation.ram_usage,
+            current_energy=observation.energy_consumption,
+            steps_taken=0,
+            total_reward=0.0,
+            task_progress=0.0,
+        )
+        print(obs_block)
+        # Default actions
+        actions_to_execute = [("reduce_ram", 0.8), ("optimize_energy", 0.6)]
+        for action_type, intensity in actions_to_execute:
+            if step_count >= max_steps:
+                break
+            step_count += 1
+            action = EnergyOptimizationAction(action_type=action_type, intensity=intensity)
+            try:
+                result = await env.step(action)
+                observation = result.observation if hasattr(result, 'observation') else result
+                reward = result.reward if hasattr(result, 'reward') else 0.0
+                total_reward += reward
+            except Exception as e:
+                print(f"⚠️  Step execution error: {e}")
+                break
+        # Evaluate task with grader
+        try:
+            grader_func = get_grader(task["name"])
+            grader_score = grader_func(observation)
+        except Exception as e:
+            print(f"⚠️  Grader error: {e}")
+            grader_score = 0.0
+        task_result["step_count"] = step_count
+        task_result["total_reward"] = total_reward
+        task_result["final_grader_score"] = grader_score
+        task_result["passed"] = grader_score >= task["min_grader_score"]
+        print(f"\n✓ Task Result: Score={grader_score:.3f} (required: {task['min_grader_score']:.3f})")
+        print(f"  Status: {'PASSED ✓' if task_result['passed'] else 'FAILED ✗'}")
+        pipeline_results["tasks"].append(task_result)
+        if not task_result["passed"]:
+            print(f"\n❌ Pipeline stopped at task {task_idx + 1} (score {grader_score:.3f} < {task['min_grader_score']:.3f})")
+            pipeline_results["pipeline_status"] = "FAILED"
+            pipeline_results["failure_point"] = task["name"]
+            break
+        else:
+            pipeline_results["total_tasks_completed"] += 1
+    if pipeline_results["total_tasks_completed"] == len(DependentTaskPipeline.TASK_SEQUENCE):
+        pipeline_results["pipeline_status"] = "COMPLETED"
+        print(f"\n✓ ALL {len(DependentTaskPipeline.TASK_SEQUENCE)} TASKS COMPLETED!")
+    print("\n" + "="*80)
+    print(f"Pipeline Status: {pipeline_results['pipeline_status']}")
+    print(f"Tasks Completed: {pipeline_results['total_tasks_completed']}/{pipeline_results['total_tasks_attempted']}")
+    print("="*80)
+# ============================================================================
+# ENTRY POINT
+# ============================================================================
+async def main() -> None:
+    """Main entry point - route to appropriate execution mode"""
+    mode = EXECUTION_MODE.upper()
+    if mode == "PIPELINE":
+        await run_pipeline_mode()
+    else:
+        await run_single_task_mode()
+if __name__ == "__main__":
+    asyncio.run(main())
+"""
 Energy & Memory RAM Optimization Inference Script
 =================================================
 This script demonstrates how an AI agent can learn to optimize energy consumption