Buckets:
Title: Efficient Reinforcement Learning for Global Decision Making in the Presence of Local Agents at Scale
URL Source: https://arxiv.org/html/2403.00222
Markdown Content: Abstract 1Introduction 2Preliminaries 3Method and Theoretical Results 4Proof Outline 5Experiments 6Conclusion, Limitations, and Future Work 7Acknowledgements References Efficient Reinforcement Learning for Global Decision Making in the Presence of Local Agents at Scale Emile Anand Computing and Mathematical Sciences California Institute of Technology eanand@caltech.edu &Guannan Qu Department of Electrical and Computer Engineering Carnegie Mellon University gqu@andrew.cmu.edu Work done while author was a visiting student at Carnegie Mellon University. Abstract
We study reinforcement learning for global decision-making in the presence of local agents, where the global decision-maker makes decisions affecting all local agents, and the objective is to learn a policy that maximizes the joint rewards of all the agents. Such problems find many applications, e.g. demand response, EV charging, queueing, etc. In this setting, scalability has been a long-standing challenge due to the size of the state space which can be exponential in the number of agents. This work proposes the SUBSAMPLE-Q algorithm where the global agent subsamples ๐ โค ๐ local agents to compute a policy in time that is polynomial in ๐ . We show that this learned policy converges to the optimal policy in the order of ๐ ~ โข ( 1 / ๐ + ๐ ๐ , ๐ ) as the number of sub-sampled agents ๐ increases, where ๐ ๐ , ๐ is the Bellman noise. Finally, we validate the theory through numerical simulations in a demand-response setting and a queueing setting.
1Introduction
Global decision-making for local agents, where a global agent makes decisions that affect a large number of local agents, is a classical problem that has been widely studied in many forms (Foster et al., 2022; Qin et al., 2023; Foster et al., 2023) and can be found in many applications, e.g. network optimization, power management, and electric vehicle charging (Kim & Giannakis, 2017; Zhang & Pavone, 2016; Molzahn et al., 2017). However, a critical challenge is the uncertain nature of the underlying system, which can be very hard to model precisely. Reinforcement Learning (RL) has seen an impressive performance in a wide array of applications, such as the game of Go (Silver et al., 2016), autonomous driving (Kiran et al., 2022), and robotics (Kober et al., 2013). More recently, RL has emerged as a powerful tool for learning to control unknown systems (Ghai et al., 2023; Lin et al., 2023; 2024a; 2024b), and hence has great potential for decision-making for multi-agent systems, including the problem of global decision making for local agents.
However, RL for multi-agent systems, where the number of agents increases, is intractable due to the curse of dimensionality (Blondel & Tsitsiklis, 2000). For instance, RL algorithms such as tabular ๐ -learning and temporal difference (TD) learning require storing a ๐ -function (Bertsekas & Tsitsiklis, 1996; Powell, 2007) that is as large as the state-action space. However, even if the individual agentsโ state space is small, the global state space can take values from a set of size exponentially large in the number of agents. In the case where the systemโs rewards are not discounted, reinforcement learning on multi-agent systems is provably NP-hard (Blondel & Tsitsiklis, 2000), This problem of scalability has been observed in a variety of settings (Papadimitriou & Tsitsiklis, 1999; Guestrin et al., 2003). A promising line of research that has emerged over recent years constrains the problem to a networked instance to enforce local interactions between agents (Lin et al., 2020; 2021; Qu et al., 2020b; Jing et al., 2022; Chu et al., 2020). This has led to scalable algorithms where each agent only needs to consider the agents in its neighborhood to derive approximately optimal solutions. However, these results do not apply to our setting where one global agent interacts with many local agents. This can be viewed as a star graph, where the neighborhood of the central decision-making agent is large.
Beyond the networked formulation, another exciting line of work that addresses this intractability is mean-field RL (Yang et al., 2018). The mean-field RL approach assumes that all the agents are homogeneous in their state and action spaces, which allows the interactions between agents to be approximated by a representative โmeanโ agent. This reduces the complexity of ๐ -learning to polynomial in the number of agents, and learns an approximately optimal policy where the approximation error decays with the number of agents (Gu et al., 2021; 2022a). However, mean-field RL does not directly transfer to our setting as the global decision-making agent is heterogeneous to the local agents. Further, when the number of local agents is large, it might still be impractical to store a polynomially-large ๐ -table (where the polynomialโs degree is the size of the state space for a single agent). This motivates the following fundamental question: can we design a fast and competitive policy-learning algorithm for a global decision-making agent in a system with many local agents?
Contributions. We answer this question affirmatively. Our key contributions are outlined below.
โข
Subsampling Algorithm. We propose SUBSAMPLE-Q, an algorithm designed to address the challenge of global decision-making in systems with a large number of pseudo-heterogeneous local agents. We model the problem as a Markov Decision Process with a global decision-making agent and ๐ local agents. SUBSAMPLE-Q (Algorithms 1 and 2) first chooses ๐ local agents to learn a deterministic policy ๐ ^ ๐ , ๐ est , where ๐ is the number of samples used to update the ๐ -functionโs estimates, by performing mean-field value iteration on the ๐ local agents to learn ๐ ๐ , ๐ est , which can be viewed as a smaller ๐ function of size polynomial in ๐ , instead of polynomial in ๐ (as done in the mean-field RL literature). It then deploys a stochastic policy ๐ ๐ , ๐ est that chooses ๐ local agents, uniformly at random, at each step to find an action for the global agent using ๐ ^ ๐ , ๐ est .
โข
Theoretical Guarantee. Theorem 3.4 shows that the performance gap between ๐ ๐ , ๐ est and the optimal policy ๐ โ is ๐ โข ( 1 ๐ + ๐ ๐ , ๐ ) , where ๐ ๐ , ๐ is the Bellman noise in ๐ ๐ , ๐ est . The choice of ๐ reveals a fundamental trade-off between the size of the ๐ -table stored and the optimality of ๐ ๐ , ๐ est . For ๐
๐ โข ( log โก ๐ ) , SUBSAMPLE-Q runs in time polylogarithmic in ๐ , creating an exponential speedup from the previously best-known polytime mean-field RL methods, with a decaying optimality gap.
โข
Numerical Simulations. We demonstrate the effectiveness of SUBSAMPLE-Q in a power system demand-response problem in Example 5.1, and in a queueing problem in Example 5.2. A key inspiration of our approach is the power-of-two-choices in the queueing theory literature (Mitzenmacher & Sinclair, 1996), where a dispatcher subsamples two queues to make decisions. Our work generalizes this to a broader decision-making problem.
While our result is theoretical in nature, it is our hope that SUBSAMPLE-Q will lead to further investigation into the power of sampling in Markov games and inspire practical algorithms.
2Preliminaries
Notation. For ๐ , ๐ โ โ where ๐ โค ๐ , let ( [ ๐ ] ๐ ) denote the set of ๐ -sized subsets of [ ๐ ]
{ 1 , โฆ , ๐ } . Let [ ๐ ] ยฏ
{ 0 } โช [ ๐ ] . For any vector ๐ง โ โ ๐ , let โ ๐ง โ 1 and โ ๐ง โ โ denote the standard โ 1 and โ โ norms of ๐ง respectively. Let โ ๐ โ 1 denote the matrix โ 1 -norm of ๐ โ โ ๐ ร ๐ . Given a collection of variables ๐ 1 , โฆ , ๐ ๐ the shorthand ๐ ฮ denotes the set { ๐ ๐ : ๐ โ ฮ } for ฮ โ [ ๐ ] . We use ๐ ~ โข ( โ ) to suppress polylogarithmic factors in all problem parameters except ๐ . For any discrete measurable space ( ๐ฎ , โฑ ) , the total variation distance between probability measures ๐ 1 , ๐ 2 is given by TV โข ( ๐ 1 , ๐ 2 )
1 2 โข โ ๐ โ ๐ฎ | ๐ 1 โข ( ๐ ) โ ๐ 2 โข ( ๐ ) | . Finally, for ๐ถ โ โ , ฮ ๐ถ : โ โ ๐ถ denotes a projection onto ๐ถ in โ 1 -norm.
2.1Problem Formulation
Problem Statement. We consider a system of ๐ + 1 agents given by ๐ฉ
{ 0 } โช [ ๐ ] . Let agent 0 be the โglobal agentโ decision-maker, and agents [ ๐ ] be the โlocalโ agents. In this model, each agent ๐ โ [ ๐ ] is associated with a state ๐ ๐ โ ๐ฎ ๐ , where ๐ฎ ๐ is the local agentโs state space. The global agent is associated with a state ๐ ๐ โ ๐ฎ ๐ and action ๐ ๐ โ ๐ ๐ , where ๐ฎ ๐ is the global agentโs state space and ๐ ๐ is the global agentโs action space. The global state of all agents is given by ( ๐ ๐ , ๐ 1 , โฆ , ๐ ๐ ) โ ๐ฎ := ๐ฎ ๐ ร ๐ฎ ๐ ๐ . At each time-step ๐ก , the next state for all the agents is independently generated by stochastic transition kernels ๐ ๐ : ๐ฎ ๐ ร ๐ฎ ๐ ร ๐ ๐ โ [ 0 , 1 ] and ๐ ๐ : ๐ฎ ๐ ร ๐ฎ ๐ ร ๐ฎ ๐ โ [ 0 , 1 ] as follows:
๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) ) ,
(1)
๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) ) , โ ๐ โ [ ๐ ]
(2)
The global agent selects ๐ ๐ โข ( ๐ก ) โ ๐ ๐ . Next, the agents receive a structured reward ๐ : ๐ฎ ร ๐ ๐ โ โ , given by Equation 3, where the choice of functions ๐ ๐ and ๐ ๐ is flexible and application-specific.
๐ โข ( ๐ , ๐ ๐ )
๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) โ global component + 1 ๐ โข โ ๐ โ [ ๐ ] ๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) โ local component
(3)
We define a policy ๐ : ๐ฎ โ ๐ซ โข ( ๐ ๐ ) as a map from states to distributions of actions such that ๐ ๐ โผ ๐ ( โ | ๐ ) . When a policy is executed, it generates a trajectory ( ๐ 0 , ๐ ๐ 0 , ๐ 0 ) , โฆ , ( ๐ ๐ , ๐ ๐ ๐ , ๐ ๐ ) via the process ๐ ๐ ๐ก โผ ๐ โข ( ๐ ๐ก ) , ๐ ๐ก + 1 โผ ( ๐ ๐ , ๐ ๐ ) โข ( ๐ ๐ก , ๐ ๐ ๐ก ) , initialized at ๐ 1 โผ ๐ 0 . We write โ ๐ โข [ โ ] and ๐ผ ๐ โข [ โ ] to denote the law and corresponding expectation for the trajectory under this process. The goal of the problem is to then learn a policy ๐ that maximizes the value function ๐ : ๐ ร ๐ฎ โ โ which is the expected discounted reward for each ๐ โ ๐ฎ given by ๐ ๐ โข ( ๐ )
๐ผ ๐ โข [ โ ๐ก
0 โ ๐พ ๐ก โข ๐ โข ( ๐ โข ( ๐ก ) , ๐ ๐ โข ( ๐ก ) ) | ๐ โข ( 0 )
๐ ] , where ๐พ โ ( 0 , 1 ) is a discounting factor. We write ๐ โ as the optimal deterministic policy, which maximizes ๐ ๐ โข ( ๐ ) at all states. This model characterizes a crucial decision-making process in the presence of multiple agents where the information of all local agents is concentrated towards the decision maker, the global agent. So, the goal of the problem is to learn an approximately optimal policy which jointly minimizes the sample and computational complexities of learning the policy.
We make the following standard assumptions:
Assumption 2.1 (Finite state/action spaces).
We assume that the state spaces of all the agents and the action space of the global agent are finite: | ๐ฎ ๐ | , | ๐ฎ ๐ | , | ๐ ๐ | < โ .
Assumption 2.2 (Bounded rewards).
The global and local components of the reward function are bounded. Specifically, โ ๐ ๐ โข ( โ , โ ) โ โ โค ๐ ~ ๐ , and โ ๐ ๐ โข ( โ , โ ) โ โ โค ๐ ~ ๐ . Then, โ ๐ โข ( โ , โ ) โ โ โค ๐ ~ ๐ + ๐ ~ ๐ := ๐ ~ .
Definition 2.1 ( ๐ -optimal policy).
Given a policy simplex ฮ , a policy ๐ โ ฮ is ๐ -optimal if for all ๐ โ ๐ฎ , ๐ ๐ โข ( ๐ ) โฅ sup ๐ โ โ ฮ ๐ ๐ โ โข ( ๐ ) โ ๐ .
Remark 2.2.
While this model requires the ๐ local agents to have homogeneous transition and reward functions, it allows heterogeneous initial states, which captures a pseudo-heterogeneous setting. For this, we assign a type to each local agent by letting ๐ฎ ๐
๐ต ร ๐ฎ ๐ ยฏ , where ๐ต is a set of different types for each local agent, which is treated as part of the state for each local agent. This type state will be heterogeneous and will remain unchanged throughout the transitions. Hence, the transition and reward function will be different for different types of agents. Further, by letting ๐ ๐ โ ๐ฎ ๐ := โ ๐ง โ ๐ต [ ๐ ยฏ ๐ ] ๐ง and ๐ ๐ โ ๐ ๐ := โ ๐ง โ ๐ต [ ๐ด ยฏ ๐ ] ๐ง correspond to a state/action vector where each element corresponds to a type ๐ง โ ๐ต , the global agent can uniquely signal agents of each type.
2.2Related Work
This paper relates to two major lines of work which we describe below.
Multi-agent RL (MARL). MARL has a rich history starting with early works on Markov games used to characterize the decision-making process (Shapley, 1953; Littman, 1994), which can be regarded as a multi-agent extension to the Markov Decision Process (MDP). MARL has since been actively studied (Zhang et al., 2021) in a broad range of settings, such as cooperative and competitive agents. MARL is most similar to the category of โsuccinctly describedโ MDPs (Blondel & Tsitsiklis, 2000) where the state/action space is a product space formed by the individual state/action spaces of multiple agents, and where the agents interact to maximize an objective function. Our work, which can be viewed as an essential stepping stone to MARL, also shares the curse of dimensionality.
A line of celebrated works (Qu et al., 2020b; Chu et al., 2020; Lin et al., 2020; 2021; Jing et al., 2022) constrain the problem to networked instances to enforce local agent interactions and find policies that maximize the objective function which is the expected cumulative discounted reward. By exploiting Gamarnikโs spatial exponential decay property from combinatorial optimization (Gamarnik et al., 2009), they overcome the curse of dimensionality by truncating the problem to only searching over the policy space derived from the local neighborhood of agents that are atmost ๐ away from each other to find an ๐ โข ( ๐ ๐ + 1 ) approximation of the maximized objective function for ๐ โ ( 0 , 1 ) . However, since their algorithms have a complexity that is exponential in the size of the neighborhood, they are only tractable for sparse graphs. Therefore, these algorithms do not apply to our decision-making problem which can be viewed as a dense star graph (see Appendix A). The recently popular work on V-learning (Jin et al., 2021) reduces the dependence of the product action space to an additive dependence. However, since our work focuses on the action of the global decision-maker, the complexity in the action space is already minimal. Instead, our work focuses on reducing the complexity of the joint state space which has not been generally accomplished for dense networks.
Mean-Field RL. Under assumptions of homogeneity in the state/action spaces of the agents, the problem of densely networked multi-agent RL was answered in Yang et al. (2018); Gu et al. (2021; 2022a; 2022b); Subramanian et al. (2022) which approximates the learning problem with a mean-field control approach where the approximation error scales in ๐ โข ( 1 / ๐ ) . To overcome the problem of designing algorithms on probability measure spaces, they study MARL under Pareto optimality and use the (functional) strong law of large numbers to consider a lifted state/action space with a representative agent where the rewards and dynamics of the system are aggregated. Cui & Koeppl (2022); Hu et al. (2023); Carmona et al. (2023) introduce heterogeneity to the mean-field approach using graphon mean-field games; however, there is a loss in topological information when using graphons to approximate finite graphs, as graphons correspond to infinitely large adjacency matrices. Additionally, graphon mean-field RL imposes a critical assumption of the existence of graphon sequences that converge in cut-norm to the problem instance. Another mean-field RL approach that partially introduces heterogeneity is in a line of work considering major and minor agents. This has been well studied in the competitive setting (Carmona & Zhu, 2016; Carmona & Wang, 2016). In the cooperative setting, Mondal et al. (2022); Cui et al. (2023) are most related to our work, which collectively consider a setting with ๐ classes of homogeneous agents, but their mean-field analytic approaches does not converge to the optimal policy upon introducing a global decision-making agent. Typically, these works require Lipschitz continuity assumptions on the reward functions which we relax in our work. Finally, the algorithms underlying mean-field RL have a runtime that is polynomial in ๐ , whereas our SUBSAMPLE-Q algorithm has a runtime that is polynomial in ๐ .
Other Related Works. A line of works have similarly exploited the star-shaped network in cooperative multi-agent systems. Min et al. (2023); Chaudhari et al. (2024) studied the communication complexity and mixing times of various learning settings with purely homogeneous agents, and Do et al. (2023) studied the setting of heterogeneous linear contextual bandits to yield a no-regret guarantee. We extend this work to the more challenging setting in reinforcement learning.
2.3Technical Background Q-learning.
To provide background for the analysis in this paper, we review a few key technical concepts in RL. At the core of the standard Q-learning framework (Watkins & Dayan, 1992) for offline-RL is the ๐ -function ๐ : ๐ฎ ร ๐ ๐ โ โ . Intuitively, ๐ -learning seeks to produce a policy ๐ โ ( โ | ๐ ) that maximizes the expected infinite horizon discounted reward. For any policy ๐ , ๐ ๐ โข ( ๐ , ๐ )
๐ผ ๐ โข [ โ ๐ก
0 โ ๐พ ๐ก โข ๐ โข ( ๐ โข ( ๐ก ) , ๐ โข ( ๐ก ) ) | ๐ โข ( 0 )
๐ , ๐ โข ( 0 )
๐ ] . One approach to learn the optimal policy ๐ โ ( โ | ๐ ) is dynamic programming, where the ๐ -function is iteratively updated using value-iteration: ๐ 0 โข ( ๐ , ๐ )
0 , for all ( ๐ , ๐ ) โ ๐ฎ ร ๐ ๐ . Then, for all ๐ก โ [ ๐ ] , ๐ ๐ก + 1 โข ( ๐ , ๐ )
๐ฏ โข ๐ ๐ก โข ( ๐ , ๐ ) , where ๐ฏ is the Bellman operator defined as ๐ฏ โข ๐ ๐ก โข ( ๐ , ๐ )
๐ โข ( ๐ , ๐ ) + ๐พ โข ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ) , ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , โ ๐ โ [ ๐ ] โข max ๐ โฒ โ ๐ ๐ โก ๐ ๐ก โข ( ๐ โฒ , ๐ โฒ ) . The Bellman operator ๐ฏ satisfies a ๐พ -contractive property, ensuring the existence of a unique fixed-point ๐ โ such that ๐ฏ โข ๐ โ
๐ โ , by the Banach-Caccioppoli fixed-point theorem (Banach, 1922). Here, the optimal policy is the deterministic greedy policy ๐ โ : ๐ฎ ๐ ร ๐ฎ ๐ ๐ โ ๐ ๐ , where ๐ โ โข ( ๐ )
arg โก max ๐ โ ๐ ๐ โก ๐ โ โข ( ๐ , ๐ ) . However, in this solution, the complexity of a single update to the ๐ -function is ๐ โข ( | ๐ฎ ๐ | โข | ๐ฎ ๐ | ๐ โข | ๐ ๐ | ) , which grows exponentially with ๐ . For practical purposes, even for small ๐ , this complexity renders ๐ -learning impractical (see Example 5.2).
Mean-field Transformation. To address this, Yang et al. (2018); Gu et al. (2021) developed a mean-field approach which, under assumptions of homogeneity in the agents, considers the distribution function ๐น [ ๐ ] : ๐ฎ ๐ โ โ given by ๐น [ ๐ ] โข ( ๐ฅ )
โ ๐
1 ๐ ๐ โข { ๐ ๐
๐ฅ } ๐ , for ๐ฅ โ ๐ฎ ๐ . Define ฮ ๐
{ ๐ / ๐ : ๐ โ [ ๐ ] ยฏ } . With abuse of notation, let ๐น [ ๐ ] โ ฮ | ๐ฎ ๐ | be a vector storing the proportion of agents in each state. As the local agents are homogeneous, the ๐ -function is permutation-invariant in the local agents as permuting the labels of local agents with the same state will not change the global agentโs decision. Hence, the ๐ -function only depends on ๐ [ ๐ ] through ๐น [ ๐ ] : ๐ โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ )
๐ ^ โข ( ๐ ๐ , ๐น [ ๐ ] , ๐ ๐ ) . Here, ๐ ^ : ๐ฎ ๐ ร ฮ | ๐ฎ ๐ | ร ๐ ๐ โ โ is a reparameterized ๐ -function learned by mean-field value iteration, where ๐ ^ 0 โข ( ๐ ๐ , ๐น [ ๐ ] , ๐ ๐ )
0 , โ ( ๐ , ๐ ๐ ) โ ๐ฎ ร ๐ ๐ , and for all ๐ก โ [ ๐ ] , ๐ ^ ๐ก + 1 โข ( ๐ , ๐น [ ๐ ] , ๐ )
๐ฏ ^ โข ๐ ^ ๐ โข ( ๐ ๐ , ๐น [ ๐ ] , ๐ ) . Here, ๐ฏ ^ is the Bellman operator in distribution space, which is given by Equation 4:
๐ฏ ^ โข ๐ ^ ๐ก โข ( ๐ ๐ , ๐น [ ๐ ] , ๐ ๐ )
๐ โข ( ๐ , ๐ ) + ๐พ โข ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , โ ๐ โ [ ๐ ] โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ก โข ( ๐ โฒ , ๐น [ ๐ ] โฒ , ๐ ๐ โฒ ) .
(4)
Then, since ๐ฏ has a ๐พ -contractive property, so does ๐ฏ ^ ; hence ๐ ^ has a unique fixed-point ๐ ^ โ such that ๐ ^ โ โข ( ๐ ๐ , ๐น [ ๐ ] , ๐ ๐ )
๐ โ โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ ) . Finally, the optimal policy is the deterministic greedy policy ๐ ^ โ โข ( ๐ ๐ , ๐น [ ๐ ] )
arg โก max ๐ ๐ โ ๐ ๐ โก ๐ ^ โ โข ( ๐ ๐ , ๐น [ ๐ ] , ๐ ๐ ) . Here, the complexity of a single update to the ๐ ^ -function is ๐ โข ( | ๐ฎ ๐ | โข | ๐ ๐ | โข ๐ | ๐ฎ ๐ | ) , which scales polynomially in ๐ .
However, for practical purposes, for larger values of ๐ , the update complexity of mean-field value iteration can still be computationally intensive, and a subpolynomial-time policy learning algorithm would be desirable. Hence, we introduce the SUBSAMPLE-Q algorithm in Section 3 to attain this.
3Method and Theoretical Results 3.1Proposed Method: SUBSAMPLE-Q
In this work, we propose algorithm SUBSAMPLE-Q to overcome the poly โข ( ๐ ) update time of mean-field ๐ -learning. In our algorithm, the global agent randomly samples a subset of local agents ฮ โ ๐ฐ โข ( [ ๐ ] ๐ ) for ๐ โ [ ๐ ] . It ignores all other agents [ ๐ ] โ ฮ and uses an empirical mean-field value iteration to learn the ๐ -function ๐ ^ ๐ โ and policy ๐ ^ ๐ , ๐ est for this surrogate system of ๐ local agents. The surrogate reward gained by the system at each time step is ๐ ฮ : ๐ฎ ร ๐ ๐ โ โ , given by Equation 5:
๐ ฮ โข ( ๐ , ๐ ๐ )
๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) + 1 | ฮ | โข โ ๐ โ ฮ ๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) .
(5)
We then derive a randomized policy ๐ ๐ , ๐ est which samples ฮ โ ๐ฐ โข ( [ ๐ ] ๐ ) at each time-step to derive action ๐ ๐ โ ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐ ฮ ) . We show that the policy ๐ ๐ , ๐ est converges to the optimal policy ๐ โ as ๐ โ ๐ and ๐ โ โ in Theorem 3.4. More formally, we present Algorithm 1 (SUBSAMPLE-Q: Learning) and Algorithm 2 (SUBSAMPLE-Q: Execution), which we describe below. A characterization that is crucial to our result is the notion of empirical distribution.
Definition 3.1 (Empirical Distribution Function).
For any population ( ๐ 1 , โฆ , ๐ ๐ ) โ ๐ฎ ๐ ๐ , define the empirical distribution function ๐น ๐ ฮ : ๐ฎ ๐ โ โ for ฮ โ [ ๐ ] by:
๐น ๐ ฮ โข ( ๐ฅ ) := 1 | ฮ | โข โ ๐ โ ฮ ๐ โข { ๐ ๐
๐ฅ } .
(6)
Since the local agents in the system are homogeneous in their state spaces, transitions, and reward functions, the ๐ function is permutation-invariant in the local agents as permuting the labels of local agents with the same state does not change the global agentโs decision making process. Define ฮ ๐
{ ๐ / ๐ : ๐ โ [ ๐ ] ยฏ } . Then, ๐ ^ ๐ depends on ๐ ฮ through ๐น ๐ ฮ โ ฮ ๐ | ๐ฎ ๐ | . We denote this by Equation 7:
๐ ^ ๐ โข ( ๐ ๐ , ๐ ฮ , ๐ ๐ )
๐ ^ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) , ๐ โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ )
๐ ^ ๐ โข ( ๐ ๐ , ๐น ๐ [ ๐ ] , ๐ ๐ ) .
(7)
Algorithm 1 (Offline learning). We empirically learn the optimal mean-field Q-function for a subsystem with ๐ local agents that we denote by ๐ ^ ๐ , ๐ est : ๐ฎ ๐ ร ฮ ๐ | ๐ฎ ๐ | ร ๐ ๐ โ โ , where ๐ is the sample size. As in Section 2.3, we set ๐ ^ ๐ , ๐ 0 โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
0 for all ๐ ๐ โ ๐ฎ ๐ , ๐น ๐ ฮ โ ฮ ๐ | ๐ฎ ๐ | , ๐ ๐ โ ๐ ๐ . For ๐ก โ โ , we set ๐ ^ ๐ , ๐ ๐ก + 1 โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
๐ฏ ^ ๐ , ๐ โข ๐ ^ ๐ , ๐ ๐ก โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) where ๐ฏ ^ ๐ , ๐ is the empirically adapted Bellman operator defined for ๐ โค ๐ and ๐ โ โ in Equation 8. ๐ฏ ^ ๐ , ๐ draws ๐ random samples ๐ ๐ ๐ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) for ๐ โ [ ๐ ] and ๐ ๐ ๐ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) for ๐ โ [ ๐ ] , ๐ โ ฮ . Here, the operator ๐ฏ ^ ๐ , ๐ is:
๐ฏ ^ ๐ , ๐ โข ๐ ^ ๐ , ๐ ๐ก โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
๐ ฮ โข ( ๐ , ๐ ๐ ) + ๐พ ๐ โข โ ๐ โ [ ๐ ] max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ , ๐ ๐ก โข ( ๐ ๐ ๐ , ๐น ๐ ฮ ๐ , ๐ ๐ โฒ ) .
(8)
๐ฏ ^ ๐ , ๐ satisfies a ๐พ -contraction property (see Lemma A.10). So, Algorithm 1 (SUBSAMPLE-Q: Learning) performs mean-field value iteration where it repeatedly applies ๐ฏ ^ ๐ , ๐ to the same ฮ โ [ ๐ ] until ๐ ^ ๐ , ๐ converges to its fixed point ๐ ^ ๐ , ๐ est satisfying ๐ฏ ^ ๐ , ๐ โข ๐ ^ ๐ , ๐ est
๐ ^ ๐ , ๐ est . We then obtain a deterministic policy ๐ ^ ๐ , ๐ est : ๐ฎ ๐ ร ฮ ๐ | ๐ฎ ๐ | given by ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ )
arg โก max ๐ ๐ โ ๐ ๐ โก ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) .
Algorithm 2 (Online implementation). Here, Algorithm 2 (SUBSAMPLE-Q: Execution) randomly samples ฮ โผ ๐ฐ โข ( [ ๐ ] ๐ ) at each time step and uses action ๐ ๐ โผ ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ ) to get reward ๐ โข ( ๐ , ๐ ๐ ) . This procedure of first sampling ฮ and then applying ๐ ^ ๐ , ๐ is denoted by a stochastic policy ๐ ๐ , ๐ est โข ( ๐ ๐ | ๐ ) :
๐ ๐ , ๐ est โข ( ๐ ๐ | ๐ )
1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ โข ( ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ )
๐ ๐ ) .
(9)
Then, each agent transitions to their next state based on Equation 1.
Algorithm 1 SUBSAMPLE-Q: Learning 0: A multi-agent system as described in Section 2. Parameter ๐ for the number of iterations in the initial value iteration step. Sampling parameters ๐ โ [ ๐ ] and ๐ โ โ . Discount parameter ๐พ โ ( 0 , 1 ) . Oracle ๐ช to sample ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) and ๐ ๐ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) for all ๐ โ [ ๐ ] . 1: Uniformly choose ฮ โ [ ๐ ] such that | ฮ |
๐ . 2: Set ๐ ^ ๐ , ๐ 0 โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
0 , for ๐ ๐ โ ๐ฎ ๐ , ๐น ๐ ฮ โ ฮ ๐ | ๐ฎ ๐ | , ๐ ๐ โ ๐ ๐ , where ฮ ๐
{ ๐ / ๐ : ๐ โ [ ๐ ] ยฏ } . 3: for ๐ก
1 to ๐ do 4: ๐ ^ ๐ , ๐ ๐ก + 1 โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
๐ฏ ^ ๐ , ๐ โข ๐ ^ ๐ , ๐ ๐ก โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) , for all ๐ ๐ โ ๐ฎ ๐ , ๐น ๐ ฮ โ ฮ ๐ | ๐ฎ ๐ | , ๐ ๐ โ ๐ ๐ 5: For all ( ๐ ๐ , ๐น ๐ ฮ ) โ ๐ฎ ๐ ร ฮ ๐ | ๐ฎ ๐ | , let ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ )
arg โก max ๐ ๐ โ ๐ ๐ โก ๐ ^ ๐ , ๐ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) . Algorithm 2 SUBSAMPLE-Q: Execution 0: A multi-agent system as described in Section 2. Parameter ๐ โฒ for the number of rounds in the game. Hyperparameter ๐ โ [ ๐ ] . Discount parameter ๐พ . Policy ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ ) . 1: Initialize ( ๐ ๐ โข ( 0 ) , ๐ [ ๐ ] โข ( 0 ) ) โผ ๐ 0 , where ๐ 0 is a distribution on the initial global state ( ๐ ๐ , ๐ [ ๐ ] ) , 2: Initialize the total reward: ๐ 0 โ 0 . 3: Policy ๐ ๐ , ๐ est โข ( ๐ ) : 4: for ๐ก
0 to ๐ โฒ do 5: Sample ฮ uniformly at random from from ( [ ๐ ] ๐ ) . 6: Let ๐ ๐ โข ( ๐ก ) โผ ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โข ( ๐ก ) , ๐ ฮ โข ( ๐ก ) ) . 7: Let ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) ) and ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) ) , for all ๐ โ [ ๐ ] . 8: ๐ ๐ก + 1
๐ ๐ก + ๐พ ๐ก โ ๐ โข ( ๐ , ๐ ๐ ) Remark 3.2.
Algorithm 1 assumes the existence of a generative model ๐ช (Kearns & Singh, 1998) to sample ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) and ๐ ๐ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) . This is generalizable to the online reinforcement learning setting using techniques from (Jin et al., 2018), and we leave this for future investigations.
3.2Theoretical Guarantee
This subsection shows that the value of the expected discounted cumulative reward produced by ๐ ๐ , ๐ est is approximately optimal, where the optimality gap decays as ๐ โ ๐ and ๐ โ โ .
Bellman noise. We first introduce the notion of Bellman noise, which is used in the main theorem. Firstly, clearly ๐ฏ ^ ๐ , ๐ is an unbiased estimator of the generalized adapted Bellman operator ๐ฏ ^ ๐ ,
๐ฏ ^ ๐ โข ๐ ^ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
๐ ฮ โข ( ๐ , ๐ ๐ ) + ๐พ โข ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , โ ๐ โ ฮ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) .
(10)
For all ๐ ๐ โ ๐ฎ ๐ , ๐น ๐ ฮ โ ฮ ๐ | ๐ฎ ๐ | , ๐ ๐ โ ๐ ๐ , ๐ ^ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
0 . For ๐ก โ โ , let ๐ ^ ๐ ๐ก + 1
๐ฏ ^ ๐ โข ๐ ^ ๐ ๐ก , where ๐ฏ ^ ๐ is defined for ๐ โค ๐ in Equation 10. Similarly to ๐ฏ ^ ๐ , ๐ , ๐ฏ ^ ๐ satisfies a ๐พ -contraction property (Lemma A.9) with fixed-point ๐ ^ ๐ โ . By the law of large numbers, lim ๐ โ โ ๐ฏ ^ ๐ , ๐
๐ฏ ^ ๐ . Hence, the gap โ ๐ ^ ๐ , ๐ est โ ๐ ^ ๐ โ โ โ converges to 0 as ๐ โ โ . For finite ๐ , โฅ ๐ ^ ๐ , ๐ est โ ๐ ^ ๐ โ โฅ โ
: ๐ ๐ , ๐ is called the Bellman noise. Bounding ๐ ๐ , ๐ has been well studied in the literature. One such bound is:
Lemma 3.3 (Theorem 1 of Li et al. (2022)).
For all ๐ โ [ ๐ ] and ๐ โ โ , where ๐ is the number of samples in Equation 8, there exists a Bellman noise ๐ ๐ , ๐ such that โ ๐ฏ ^ ๐ , ๐ โข ๐ ^ ๐ , ๐ est โ ๐ฏ ^ ๐ โข ๐ ^ ๐ โ โ โ
โ ๐ ^ ๐ , ๐ est โ ๐ ^ ๐ โ โ โ โค ๐ ๐ , ๐ โค ๐ โข ( 1 / ๐ ) .
With the above preparations, we are now primed to present our main result: a bound on the optimality gap for our learned policy ๐ ๐ , ๐ est that decays with ๐ . Section 4 outlines the proof of Theorem 3.4.
Theorem 3.4.
For any state ๐ โ ๐ฎ ๐ ร ๐ฎ ๐ ๐ ,
๐ ๐ โ โข ( ๐ ) โ ๐ ๐ ๐ , ๐ est โข ( ๐ )
โค 2 โข ๐ ~ ( 1 โ ๐พ ) 2 โข ( ๐ โ ๐ + 1 2 โข ๐ โข ๐ โข ln โก ( 2 โข | ๐ฎ ๐ | โข | ๐ ๐ | โข ๐ ) + 1 ๐ ) + 2 โข ๐ ๐ , ๐ 1 โ ๐พ .
Corollary 3.5.
Theorem 3.4 implies an asymptotically decaying optimality gap for our learned policy ๐ ~ ๐ , ๐ est . Further, from Lemma 3.3, ๐ ๐ , ๐ โค ๐ โข ( 1 / ๐ ) . Hence,
๐ ๐ โ โข ( ๐ ) โ ๐ ๐ ๐ , ๐ est โข ( ๐ ) โค ๐ ~ โข ( 1 / ๐ + 1 / ๐ ) .
(11) Discussion 3.6.
The size of ๐ ^ ๐ , ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) is ๐ โข ( | ๐ฎ ๐ | โข | ๐ ๐ | โข ๐ | ๐ฎ ๐ | ) . From Theorem 3.4, as ๐ โ ๐ , the optimality gap decays, revealing a trade-off in the choice of ๐ , between the size of the ๐ -function and the optimality of the policy ๐ ๐ , ๐ est . We demonstrate this trade-off further in our experiments. For ๐
๐ โข ( log โก ๐ ) and ๐ โ โ , we get an exponential speedup on the complexity from mean-field value iteration (from poly โข ( ๐ ) to poly โข ( log โก ๐ ) ), and a super-exponential speedup from traditional value-iteration (from exp โข ( ๐ ) to poly โข ( log โก ๐ ) , with a decaying ๐ โข ( 1 / log โก ๐ ) optimality gap. This gives a competitive policy-learning algorithm with polylogarithmic run-time.
Discussion 3.7.
One could replace the ๐ -learning algorithm with an arbitrary value-based RL method that learns ๐ ^ ๐ with function approximation (Sutton et al., 1999) such as deep ๐ -networks (Silver et al., 2016). Doing so introduces a further error that factors into the bound in Corollary 3.5.
4Proof Outline
This section details an outline for the proof of Theorem 3.4, as well as some key ideas. At a high level, our SUBSAMPLE-Q framework in Algorithms 1 and 2 recovers exact mean-field ๐ learning (and therefore, traditional value iteration) when ๐
๐ and as ๐ โ โ . Further, as ๐ โ ๐ , ๐ ^ ๐ โ should intuitively get closer to ๐ โ from which the optimal policy is derived. Thus, the proof is divided into three steps. We first prove a Lipschitz continuity bound between ๐ ^ ๐ โ and ๐ ^ ๐ โ in terms of the total variation (TV) distance between ๐น ๐ ฮ and ๐น ๐ [ ๐ ] . Secondly, we bound the TV distance between ๐น ๐ ฮ and ๐น ๐ [ ๐ ] . Finally, we bound the value differences between ๐ ~ ๐ , ๐ est and ๐ โ by bounding ๐ โ โข ( ๐ , ๐ โ ) โ ๐ โ โข ( ๐ , ๐ ^ ๐ , ๐ est ) and then using the performance difference lemma (Kakade & Langford, 2002).
Step 1: Lipschitz Continuity Bound. To compare ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) with ๐ โ โข ( ๐ , ๐ ๐ ) , we prove a Lipschitz continuity bound between ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) and ๐ ^ ๐ โฒ โ โข ( ๐ ๐ , ๐น ๐ ฮ โฒ , ๐ ๐ ) with respect to the TV distance measure between ๐ ฮ โ ( ๐ [ ๐ ] ๐ ) and ๐ ฮ โฒ โ ( ๐ [ ๐ ] ๐ โฒ ) . Specifically, we show:
Theorem 4.1 (Lipschitz continuity in ๐ ^ ๐ โ ).
For all ( ๐ , ๐ ) โ ๐ฎ ร ๐ ๐ , ฮ โ ( [ ๐ ] ๐ ) and ฮ โฒ โ ( [ ๐ ] ๐ โฒ ) ,
| ๐ ^ ๐ โ ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
โ ๐ ^ ๐ โฒ โ ( ๐ ๐ , ๐น ๐ ฮ โฒ , ๐ ๐ ) | โค 2 ( 1 โ ๐พ ) โ 1 โฅ ๐ ๐ ( โ , โ ) โฅ โ โ TV ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
We defer the proof of Theorem 4.1 to Appendix C.6. See Figure 3 for a comparison between the ๐ ^ ๐ โ learning and estimation process, and the exact ๐ -learning framework.
Step 2: Bounding Total Variation (TV) Distance.
We bound the TV distance between ๐น ๐ ฮ and ๐น ๐ [ ๐ ] , where ฮ โ ๐ฐ โข ( [ ๐ ] ๐ ) . Bounding this TV distance is equivalent to bounding the discrepancy between the empirical distribution and the distribution of the underlying finite population. Since each ๐ โ ฮ is chosen uniformly at random and without replacement, standard concentration inequalities do not apply as they require the random variables to be i.i.d. Further, standard TV distance bounds that use the KL divergence produce a suboptimal decay as | ฮ | โ ๐ (Lemma C.7). Therefore, we prove the following probabilistic result (which generalizes the DvoretzkyโKieferโWolfowitz (DKW) concentration inequality (Dvoretzky et al., 1956) to the regime of sampling without replacement:
Theorem 4.2.
Given a finite population ๐ณ
( ๐ฅ 1 , โฆ , ๐ฅ ๐ ) for ๐ณ โ ๐ฎ ๐ ๐ , let ฮ โ [ ๐ ] be a uniformly random sample from ๐ณ of size ๐ chosen without replacement. Fix ๐
0 . Then, for all ๐ฅ โ ๐ฎ ๐ :
Pr [ sup ๐ฅ โ ๐ฎ ๐ | 1 | ฮ | โ ๐ โ ฮ ๐ { ๐ฅ ๐
๐ฅ
}
โ
1
๐
โ
๐
โ
[
๐
]
๐
{
๐ฅ
๐
๐ฅ } | โค ๐ ] โฅ 1 โ 2 | ๐ฎ ๐ | ๐ โ 2 โข | ฮ | โข ๐ โข ๐ 2 ๐ โ | ฮ | + 1 .
Then, by Theorem 4.2 and the definition of TV distance from Section 2, we have that for ๐ฟ โ ( 0 , 1 ] ,
Pr โก ( TV โข ( ๐น ๐ ฮ , ๐น ๐ [ ๐ ] ) โค ๐ โ | ฮ | + 1 8 โข ๐ โข | ฮ | โข ln โก 2 โข | ๐ฎ ๐ | ๐ฟ ) โฅ 1 โ ๐ฟ .
(12)
We then apply this result to our global decision-making problem by studying the rate of decay of the objective function between our learned policy ๐ ๐ , ๐ est and the optimal policy ๐ โ (Theorem 3.4).
Step 3: Performance Difference Lemma to Complete the Proof. As a consequence of the prior two steps and Lemma 3.3, ๐ โ โข ( ๐ , ๐ ๐ โฒ ) and ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ โฒ ) become similar as ๐ โ ๐ (see Theorem C.6). We further prove that the value generated by their policies ๐ โ and ๐ ๐ , ๐ est must also be very close (where the residue shrinks as ๐ โ ๐ ). We then use the well-known performance difference lemma (Kakade & Langford, 2002) which we restate and explain in D.2 in the appendix. A crucial theorem needed to use the performance difference lemma is a bound on ๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) โ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐ ฮ โฒ ) ) . Therefore, we formulate and prove Theorem 4.3 which yields a probabilistic bound on this difference, where the randomness is over the choice of ฮ โ ( [ ๐ ] ๐ ) .
Theorem 4.3.
For a fixed ๐ โฒ โ ๐ฎ := ๐ฎ ๐ ร ๐ฎ ๐ ๐ and for ๐ฟ โ ( 0 , 1 ] , with probability atleast 1 โ 2 โข | ๐ ๐ | โข ๐ฟ :
๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) โ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ 1 โ ๐พ โข ๐ โ ๐ + 1 2 โข ๐ โข ๐ โข ln โก ( 2 โข | ๐ฎ ๐ | ๐ฟ ) + 2 โข ๐ ๐ , ๐ .
We defer the proof of Theorem 4.3 and finding optimal value of the parameters ๐ฟ 1 , ๐ฟ 2 to D.5 in the Appendix. Using Theorem 4.3 and the performance difference lemma leads to Theorem 3.4.
5Experiments
This section provides examples and numerical simulation results to validate our theoretical framework. All numerical experiments were run on a 3-core CPU server equipped with a 12GB RAM. We chose parameters with complexity sufficient to only validate the theory, such as the computational speedups, pseudo-heterogeneity of each local agent, and the decaying optimality gap.
Example 5.1 (Demand-Response (DR)).
DR is a pathway in the transformation towards a sustainable electricity grid where users (local agents) are compensated to lower their electricity consumption to a level set by a regulator (global agent). DR has applications ranging from pricing strategies for EV charging stations, regulating the supply of any product in a market with fluctuating demands, and maximizing the efficiency of allocating resources. We ran a small-scale simulation with ๐
8 local agents, and a large-scale simulation with ๐
50 local agents, where the goal was to learn an optimal policy for the global agent to moderate supply in the presence of fluctuating demand.
Let each local agent ๐ โ [ ๐ ] have a state ๐ ๐ โข ( ๐ก )
( ๐ ๐ , ๐ ๐ โ โข ( ๐ก ) , ๐ ยฏ ๐ โข ( ๐ก ) ) โ ๐ฎ ๐ := ฮจ ร ๐ ๐ ร ๐ ๐ โ โค 3 . Here, ๐ ๐ is the agentโs type, ๐ ๐ โ โข ( ๐ก ) is agent ๐ โs consumption, and ๐ ยฏ ๐ โข ( ๐ก ) is its desired consumption level. Let ๐ ๐ โข ( ๐ก ) โ ๐ฎ ๐ , ๐ ๐ โข ( ๐ก ) โ ๐ ๐ where ๐ ๐ โข ( ๐ก ) is the DR signal (target consumption set by the regulator). The global agent transition is given by ๐ ๐ โข ( ๐ก + 1 )
ฮ ๐ฎ ๐ โข ( ๐ ๐ โข ( ๐ก ) + ๐ ๐ โข ( ๐ก ) ) , i.e., ๐ ๐ โข ( ๐ก ) changes the DR signal. Then, ๐ ๐ โข ( ๐ก + 1 )
( ๐ ๐ , ๐ ยฏ ๐ โข ( ๐ก + 1 ) , ๐ ๐ โ โข ( ๐ก + 1 ) ) , where intuitively, ๐ ยฏ ๐ โข ( ๐ก + 1 ) fluctuates based on ๐ ๐ and ๐ ยฏ ๐ โข ( ๐ก ) . If ๐ ยฏ ๐ โข ( ๐ก ) < ๐ ๐ โข ( ๐ก ) , then ๐ ๐ โ โข ( ๐ก + 1 )
๐ ยฏ ๐ โข ( ๐ก ) (the local agent chases its desired consumption). If not, the local agent either follows ๐ ยฏ ๐ โข ( ๐ก ) or reduces its consumption to match ๐ ๐ โข ( ๐ก ) . Formally, if ๐ ๐
1 , then ๐ ยฏ ๐ โข ( ๐ก + 1 )
๐ ยฏ ๐ โข ( ๐ก ) + ๐ฐ โข { 0 , 1 } . If ๐ ๐
2 , ๐ ยฏ ๐ โข ( ๐ก + 1 )
๐ฐ โข { ๐ ๐ } . If ๐ ยฏ ๐ โข ( ๐ก ) โค ๐ ๐ โข ( ๐ก ) , then ๐ ยฏ ๐ โ โข ( ๐ก + 1 )
๐ ยฏ ๐ โข ( ๐ก ) . If ๐ ยฏ ๐ โข ( ๐ก ) > ๐ ๐ โข ( ๐ก ) , then ๐ ยฏ ๐ โ โข ( ๐ก + 1 )
ฮ ๐ ๐ โข [ ๐ ยฏ ๐ โข ( ๐ก ) + ( ๐ ๐ โข ( ๐ก ) โ ๐ ๐ โ โข ( ๐ก ) ) โข ๐ฐ โข { 0 , 1 } ] . The reward of the system at each step is given by ๐ ๐ โข ( ๐ ๐ , ๐ ๐ )
15 / ๐ ๐ โ ๐ โข { ๐ ๐
โ 1 } and ๐ ๐ โข ( ๐ ๐ , ๐ ๐ )
๐ ๐ โ โ 1 2 โข ๐ โข { ๐ ๐ โ > ๐ ๐ } . We set ๐ ๐
๐ ๐
[ 5 ] , ฮจ
{ 1 , 2 } , ๐พ
0.9 , ๐
50 , and the length of the decision game to be ๐ โฒ
300 .
We use ๐
300 empirical adapted Bellman iterations for the small-scale simulation, and ๐
50 iterations for the large scale simulation. For the small-scale simulation, Figure 1a illustrates the polynomial speedup of Algorithm 1 (note that ๐
๐ exactly recovers mean-field value iteration Yang et al. (2018), which we treat as our baseline comparison). Figure 1b plots the reward-optimality gap for varying ๐ , illustrating that the gap decreases monotonically as ๐ โ ๐ , as shown in Theorem 3.4. Figure 1c plots the cumulative reward of the large-scale experiment. We observe that the rewards (on average) grow monotonically as they obey our worst-case guarantee in Theorem 3.4.
Example 5.2 (Queueing).
We model a system with ๐ queues, ๐ ๐ โข ( ๐ก ) โ ๐ฎ ๐ := โ at time ๐ก denotes the number of jobs at time ๐ก for queue ๐ โ [ ๐ ] . We model the job allocation mechanism as a global agent where ๐ ๐ โข ( ๐ก ) โ ๐ฎ ๐
๐ ๐
[ ๐ ] , where ๐ ๐ โข ( ๐ก ) denotes the queue to which the next job should be delivered. We choose the state transitions to capture the stochastic job arrival and departure: ๐ ๐ โข ( ๐ก + 1 )
๐ ๐ โข ( ๐ก ) , and ๐ ๐ โข ( ๐ก + 1 )
min โก { ๐ , max โก { 0 , ๐ ๐ โข ( ๐ก ) + ๐ โข { ๐ ๐ โข ( ๐ก )
๐ } โ Bern โข ( ๐ ) } } . For the rewards, we set ๐ ๐ โข ( ๐ ๐ โข ( ๐ก ) , ๐ ๐ โข ( ๐ก ) )
0 , ๐ ๐ โข ( ๐ ๐ โข ( ๐ก ) , ๐ ๐ โข ( ๐ก ) )
โ ๐ ๐ โข ( ๐ก ) โ 10 โ ๐ โข { ๐ ๐ โข ( ๐ก ) > ๐ } , where ๐
0.8 is the probability of finishing a job, ๐
30 is the capacity of each queue, and ๐พ
0.9 .
This simulation ran on a system of ๐
50 local agents. The goal was to learn an optimal policy for a dispatcher to send incoming jobs to. We ran Algorithm 1 for ๐
300 empirical adapted Bellman iterations with ๐
30 , and ran Algorithm 2 for ๐ โฒ
100 iterations. Figure 2 illustrates the log-scale reward-optimality gap for varying ๐ , showing that the gap decreases monotonically as ๐ โ ๐ with a decay rate that is consistent with the ๐ โข ( 1 / ๐ ) upper bound in Theorem 3.4.
Figure 1:Demand-Response simulation. a) Computation time to learn ๐ ^ ๐ , ๐ est for ๐ โค ๐
8 . b) Reward optimality gap (log scale) with ๐ ๐ , ๐ est running 300 iterations for ๐ โค ๐
8 , c) Discounted cumulative rewards for ๐ โค ๐
50 . We note that ๐
๐ recovers the mean-field RL iteration solution.
Figure 2:Reward optimality gap (log scale) with ๐ ๐ , ๐ est running 300 iterations. 6Conclusion, Limitations, and Future Work
Conclusion. This work considers a global decision-making agent in the presence of ๐ local homogeneous agents. We propose SUBSAMPLE-Q which derives a policy ๐ ๐ , ๐ est where ๐ โค ๐ and ๐ โ โ are tunable parameters, and show that ๐ ๐ , ๐ est converges to the optimal policy ๐ โ with a decay rate of ๐ โข ( 1 / ๐ + ๐ ๐ , ๐ ) , where ๐ ๐ , ๐ is the Bellman noise. To establish the result, we develop an adapted Bellman operator ๐ฏ ^ ๐ and show a Lipschitz-continuity result for ๐ ^ ๐ โ and generalize the DKW inequality. Finally, we validate our theoretical result through numerical experiments.
Limitations and Future Work. We recognize several future directions. This model studies a โstar-graphโ setting to model a single source of density. It would be fascinating to extend to general graphs. We believe expander-graph decomposition methods (Anand & Umans, 2023) are amenable for this. Another direction is to find connections between our sub-sampling method to algorithms in federated learning, where the rewards can be stochastic and to incorporate learning rates Lin et al. (2021) to attain numerical stability. Another limitation of this work is that we have only partially resolved the problem for truly heterogeneous local agents by adding a โtypeโ property to each local agent to model some pseudoheterogeneity in the state space of each agent. Additionally, it would be interesting to extend this work to the online setting without a generative oracle simulator. Finally, our model assumes finite state/action spaces as in the fundamental tabular MDP setting. However, to increase the applicability of the model, it would be interesting to replace the ๐ -learning algorithm with a deep- ๐ learning or a value-based RL method where the state/action spaces can be continuous.
7Acknowledgements
This work is supported by a research assistantship at Carnegie Mellon University and a fellowship from the Caltech Associates. We thank ComputeX for allowing usage of their server to run numerical experiments and gratefully acknowledge insightful conversations with Yiheng Lin, Ishani Karmarkar, Elia Gorokhovsky, David Hou, Sai Maddipatla, Alexis Wang, and Chris Zhou.
References Anand & Umans (2023) Emile Anand and Chris Umans.Pseudorandomness of the sticky random walk.arXiv preprint arXiv:2307.11104, 2023. Anand et al. (2024) Emile Anand, Jan van den Brand, Mehrdad Ghadiri, and Daniel J. Zhang.The Bit Complexity of Dynamic Algebraic Formulas and Their Determinants.In Karl Bringmann, Martin Grohe, Gabriele Puppis, and Ola Svensson (eds.), 51st International Colloquium on Automata, Languages, and Programming (ICALP 2024), volume 297 of Leibniz International Proceedings in Informatics (LIPIcs), pp. 10:1โ10:20, Dagstuhl, Germany, 2024. Schloss Dagstuhl โ Leibniz-Zentrum fรผr Informatik.ISBN 978-3-95977-322-5.doi: 10.4230/LIPIcs.ICALP.2024.10. Banach (1922) Stefan Banach.Sur les opรฉrations dans les ensembles abstraits et leur application aux รฉquations intรฉgrales.Fundamenta Mathematicae, 3(1):133โ181, 1922. Bertsekas & Tsitsiklis (1996) Dimitri P. Bertsekas and John N. Tsitsiklis.Neuro-Dynamic Programming.Athena Scientific, 1st edition, 1996.ISBN 1886529108. Blondel & Tsitsiklis (2000) Vincent D. Blondel and John N. Tsitsiklis.A Survey of Computational Complexity Results in Systems and Control.Automatica, 36(9):1249โ1274, 2000.ISSN 0005-1098.doi: https://doi.org/10.1016/S0005-1098(00)00050-9. Carmona & Wang (2016) Rene Carmona and Peiqi Wang.Finite State Mean Field Games with Major and Minor Players, 2016. Carmona et al. (2023) Renรฉ Carmona, Mathieu Lauriรจre, and Zongjun Tan.Model-free Mean-Field Reinforcement Learning: Mean-field MDP and mean-field Q-learning.The Annals of Applied Probability, 33(6B):5334 โ 5381, 2023.doi: 10.1214/23-AAP1949. Carmona & Zhu (2016) Renรฉ Carmona and Xiuneng Zhu.A probabilistic approach to mean field games with major and minor players.The Annals of Applied Probability, 26(3):1535โ1580, 2016.ISSN 10505164. Chaudhari et al. (2024) Shreyas Chaudhari, Srinivasa Pranav, Emile Anand, and Josรฉ M. F. Moura.Peer-to-peer learning dynamics of wide neural networks, 2024. Chen & Theja Maguluri (2022) Zaiwei Chen and Siva Theja Maguluri.Sample complexity of policy-based methods under off-policy sampling and linear function approximation.In Gustau Camps-Valls, Francisco J. R. Ruiz, and Isabel Valera (eds.), Proceedings of The 25th International Conference on Artificial Intelligence and Statistics, volume 151 of Proceedings of Machine Learning Research, pp. 11195โ11214. PMLR, 28โ30 Mar 2022. Chu et al. (2020) Tianshu Chu, Sandeep Chinchali, and Sachin Katti.Multi-agent Reinforcement Learning for Networked System Control.In International Conference on Learning Representations, 2020. Cui & Koeppl (2022) Kai Cui and Heinz Koeppl.Learning Graphon Mean Field Games and Approximate Nash Equilibria.In International Conference on Learning Representations, 2022. Cui et al. (2023) Kai Cui, Christian Fabian, and Heinz Koeppl.Multi-Agent Reinforcement Learning via Mean Field Control: Common Noise, Major Agents and Approximation Properties, 2023. Do et al. (2023) Anh Do, Thanh Nguyen-Tang, and Raman Arora.Multi-Agent Learning with Heterogeneous Linear Contextual Bandits.In Thirty-seventh Conference on Neural Information Processing Systems, 2023. Dvoretzky et al. (1956) A. Dvoretzky, J. Kiefer, and J. Wolfowitz.Asymptotic Minimax Character of the Sample Distribution Function and of the Classical Multinomial Estimator.The Annals of Mathematical Statistics, 27(3):642 โ 669, 1956.doi: 10.1214/aoms/1177728174. Foster et al. (2022) Dylan J Foster, Alexander Rakhlin, Ayush Sekhari, and Karthik Sridharan.On the Complexity of Adversarial Decision Making.In Alice H. Oh, Alekh Agarwal, Danielle Belgrave, and Kyunghyun Cho (eds.), Advances in Neural Information Processing Systems, 2022. Foster et al. (2023) Dylan J Foster, Noah Golowich, Jian Qian, Alexander Rakhlin, and Ayush Sekhari.Model-Free Reinforcement Learning with the Decision-Estimation Coefficient.In Thirty-seventh Conference on Neural Information Processing Systems, 2023. Gamarnik et al. (2009) David Gamarnik, David Goldberg, and Theophane Weber.Correlation Decay in Random Decision Networks, 2009. Ghai et al. (2023) Udaya Ghai, Arushi Gupta, Wenhan Xia, Karan Singh, and Elad Hazan.Online Nonstochastic Model-Free Reinforcement Learning.In Thirty-seventh Conference on Neural Information Processing Systems, 2023. Gu et al. (2021) Haotian Gu, Xin Guo, Xiaoli Wei, and Renyuan Xu.Mean-Field Controls with Q-Learning for Cooperative MARL: Convergence and Complexity Analysis.SIAM Journal on Mathematics of Data Science, 3(4):1168โ1196, 2021.doi: 10.1137/20M1360700. Gu et al. (2022a) Haotian Gu, Xin Guo, Xiaoli Wei, and Renyuan Xu.Dynamic Programming Principles for Mean-Field Controls with Learning, 2022a. Gu et al. (2022b) Haotian Gu, Xin Guo, Xiaoli Wei, and Renyuan Xu.Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network Approach, 2022b. Guestrin et al. (2003) Carlos Guestrin, Daphne Koller, Ronald Parr, and Shobha Venkataraman.Efficient Solution Algorithms for Factored MDPs.J. Artif. Int. Res., 19(1):399โ468, oct 2003.ISSN 1076-9757. Hoeffding (1963) Wassily Hoeffding.Probability Inequalities for Sums of Bounded Random Variables.Journal of the American Statistical Association, 58(301):13โ30, 1963.ISSN 01621459. Hu et al. (2023) Yuanquan Hu, Xiaoli Wei, Junji Yan, and Hengxi Zhang.Graphon Mean-Field Control for Cooperative Multi-Agent Reinforcement Learning.Journal of the Franklin Institute, 360(18):14783โ14805, 2023.ISSN 0016-0032. Jin et al. (2018) Chi Jin, Zeyuan Allen-Zhu, Sebastien Bubeck, and Michael I Jordan.Is q-learning provably efficient?In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett (eds.), Advances in Neural Information Processing Systems, volume 31. Curran Associates, Inc., 2018. Jin et al. (2021) Chi Jin, Qinghua Liu, Yuanhao Wang, and Tiancheng Yu.V-learning โ a simple, efficient, decentralized algorithm for multiagent rl, 2021. Jing et al. (2022) Gangshan Jing, He Bai, Jemin George, Aranya Chakrabortty, and Piyush. K. Sharma.Distributed Cooperative Multi-Agent Reinforcement Learning with Directed Coordination Graph.In 2022 American Control Conference (ACC), pp. 3273โ3278, 2022.doi: 10.23919/ACC53348.2022.9867152. Kakade & Langford (2002) Sham Kakade and John Langford.Approximately Optimal Approximate Reinforcement Learning.In Claude Sammut and Achim Hoffman (eds.), Proceedings of the Nineteenth International Conference on Machine Learning (ICML 2002), pp. 267โ274, San Francisco, CA, USA, 2002. Morgan Kauffman.ISBN 1-55860-873-7. Kearns & Singh (1998) Michael Kearns and Satinder Singh.Finite-Sample Convergence Rates for Q-Learning and Indirect Algorithms.In M. Kearns, S. Solla, and D. Cohn (eds.), Advances in Neural Information Processing Systems, volume 11. MIT Press, 1998. Kim & Giannakis (2017) Seung-Jun Kim and Geogios B. Giannakis.An Online Convex Optimization Approach to Real-time Energy Pricing for Demand Response.IEEE Transactions on Smart Grid, 8(6):2784โ2793, 2017.doi: 10.1109/TSG.2016.2539948. Kiran et al. (2022) B Ravi Kiran, Ibrahim Sobh, Victor Talpaert, Patrick Mannion, Ahmad A. Al Sallab, Senthil Yogamani, and Patrick Pรฉrez.Deep Reinforcement Learning for Autonomous Driving: A Survey.IEEE Transactions on Intelligent Transportation Systems, 23(6):4909โ4926, 2022.doi: 10.1109/TITS.2021.3054625. Kober et al. (2013) Jens Kober, J. Andrew Bagnell, and Jan Peters.Reinforcement Learning in Robotics: A Survey.The International Journal of Robotics Research, 32(11):1238โ1274, 2013.doi: 10.1177/0278364913495721. Li et al. (2022) Gen Li, Yuting Wei, Yuejie Chi, Yuantao Gu, and Yuxin Chen.Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and Variance Reduction.IEEE Transactions on Information Theory, 68(1):448โ473, 2022.doi: 10.1109/TIT.2021.3120096. Lin et al. (2020) Yiheng Lin, Guannan Qu, Longbo Huang, and Adam Wierman.Distributed Reinforcement Learning in Multi-Agent Networked Systems.CoRR, abs/2006.06555, 2020. Lin et al. (2021) Yiheng Lin, Guannan Qu, Longbo Huang, and Adam Wierman.Multi-Agent Reinforcement Learning in Stochastic Networked Systems.In Thirty-fifth Conference on Neural Information Processing Systems, 2021. Lin et al. (2023) Yiheng Lin, James A. Preiss, Emile Anand, Yingying Li, Yisong Yue, and Adam Wierman.Online adaptive policy selection in time-varying systems: No-regret via contractive perturbations.In A. Oh, T. Neumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine (eds.), Advances in Neural Information Processing Systems, volume 36, pp. 53508โ53521. Curran Associates, Inc., 2023. Lin et al. (2024a) Yiheng Lin, James A Preiss, Fengze Xie, Emile Anand, Soon-Jo Chung, Yisong Yue, and Adam Wierman.Online policy optimization in unknown nonlinear systems.arXiv preprint arXiv:2404.13009, 2024a. Lin et al. (2024b) Yiheng Lin, James A. Preiss, Fengze Xie, Emile Anand, Soon-Jo Chung, Yisong Yue, and Adam Wierman.Online policy optimization in unknown nonlinear systems.In Shipra Agrawal and Aaron Roth (eds.), Proceedings of Thirty Seventh Conference on Learning Theory, volume 247 of Proceedings of Machine Learning Research, pp. 3475โ3522. PMLR, 30 Junโ03 Jul 2024b. Littman (1994) Michael L. Littman.Markov Games as a Framework for Multi-Agent Reinforcement Learning.In Machine learning proceedings, Elsevier, pp. 157โ163, 1994. Massart (1990) P. Massart.The Tight Constant in the Dvoretzky-Kiefer-Wolfowitz Inequality.The Annals of Probability, 18(3):1269 โ 1283, 1990.doi: 10.1214/aop/1176990746. Min et al. (2023) Yifei Min, Jiafan He, Tianhao Wang, and Quanquan Gu.Cooperative Multi-Agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation.In Andreas Krause, Emma Brunskill, Kyunghyun Cho, Barbara Engelhardt, Sivan Sabato, and Jonathan Scarlett (eds.), Proceedings of the 40th International Conference on Machine Learning, volume 202 of Proceedings of Machine Learning Research, pp. 24785โ24811. PMLR, 23โ29 Jul 2023. Mitzenmacher & Sinclair (1996) Michael David Mitzenmacher and Alistair Sinclair.The Power of Two Choices in Randomized Load Balancing.PhD thesis, University of California, Berkeley, 1996.AAI9723118. Molzahn et al. (2017) Daniel K. Molzahn, Florian Dรถrfler, Henrik Sandberg, Steven H. Low, Sambuddha Chakrabarti, Ross Baldick, and Javad Lavaei.A Survey of Distributed Optimization and Control Algorithms for Electric Power Systems.IEEE Transactions on Smart Grid, 8(6):2941โ2962, 2017.doi: 10.1109/TSG.2017.2720471. Mondal et al. (2022) Washim Uddin Mondal, Mridul Agarwal, Vaneet Aggarwal, and Satish V. Ukkusuri.On the Approximation of Cooperative Heterogeneous Multi-Agent Reinforcement Learning (MARL) Using Mean Field Control (MFC).Journal of Machine Learning Research, 23(1), jan 2022.ISSN 1532-4435. Naaman (2021) Michael Naaman.On the Tight Constant in the Multivariate DvoretzkyโKieferโWolfowitz Inequality.Statistics & Probability Letters, 173:109088, 2021.ISSN 0167-7152.doi: https://doi.org/10.1016/j.spl.2021.109088. Papadimitriou & Tsitsiklis (1999) Christos H. Papadimitriou and John N. Tsitsiklis.The Complexity of Optimal Queuing Network Control.Mathematics of Operations Research, 24(2):293โ305, 1999.ISSN 0364765X, 15265471. Powell (2007) Warren B. Powell.Approximate Dynamic Programming: Solving the Curses of Dimensionality (Wiley Series in Probability and Statistics).Wiley-Interscience, USA, 2007.ISBN 0470171553. Qin et al. (2023) Aoyang Qin, Feng Gao, Qing Li, Song-Chun Zhu, and Sirui Xie.Learning non-Markovian Decision-Making from State-only Sequences.In Thirty-seventh Conference on Neural Information Processing Systems, 2023. Qu et al. (2020a) Guannan Qu, Yiheng Lin, Adam Wierman, and Na Li.Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward.In Proceedings of the 34th International Conference on Neural Information Processing Systems, NIPSโ20, Red Hook, NY, USA, 2020a. Curran Associates Inc.ISBN 9781713829546. Qu et al. (2020b) Guannan Qu, Adam Wierman, and Na Li.Scalable Reinforcement Learning of Localized Policies for Multi-Agent Networked Systems.In Alexandre M. Bayen, Ali Jadbabaie, George Pappas, Pablo A. Parrilo, Benjamin Recht, Claire Tomlin, and Melanie Zeilinger (eds.), Proceedings of the 2nd Conference on Learning for Dynamics and Control, volume 120 of Proceedings of Machine Learning Research, pp. 256โ266. PMLR, 10โ11 Jun 2020b. Serfling (1974) R. J. Serfling.Probability Inequalities for the Sum in Sampling without Replacement.The Annals of Statistics, 2(1):39โ48, 1974.ISSN 00905364. Shapley (1953) L. S. Shapley.Stochastic Games*.Proceedings of the National Academy of Sciences, 39(10):1095โ1100, 1953.doi: 10.1073/pnas.39.10.1095. Silver et al. (2016) David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel, and Demis Hassabis.Mastering the Game of Go with Deep Neural Networks and Tree Search.Nature, 529(7587):484โ489, January 2016.ISSN 1476-4687.doi: 10.1038/nature16961. Subramanian et al. (2022) Sriram Ganapathi Subramanian, Matthew E. Taylor, Mark Crowley, and Pascal Poupart.Decentralized mean field games, 2022. Sutton et al. (1999) Richard S Sutton, David McAllester, Satinder Singh, and Yishay Mansour.Policy gradient methods for reinforcement learning with function approximation.In S. Solla, T. Leen, and K. Mรผller (eds.), Advances in Neural Information Processing Systems, volume 12. MIT Press, 1999. Tsybakov (2008) Alexandre B. Tsybakov.Introduction to Nonparametric Estimation.Springer Publishing Company, Incorporated, 1st edition, 2008.ISBN 0387790519. Watkins & Dayan (1992) Christopher J. C. H. Watkins and Peter Dayan.Q-learning.Machine Learning, 8(3):279โ292, May 1992.ISSN 1573-0565.doi: 10.1007/BF00992698. Yang et al. (2018) Yaodong Yang, Rui Luo, Minne Li, Ming Zhou, Weinan Zhang, and Jun Wang.Mean Field Multi-Agent Reinforcement Learning.In Jennifer Dy and Andreas Krause (eds.), Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pp. 5571โ5580. PMLR, 10โ15 Jul 2018. Zhang et al. (2021) Kaiqing Zhang, Zhuoran Yang, and Tamer Baลar.Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms, 2021. Zhang & Pavone (2016) Rick Zhang and Marco Pavone.Control of Robotic Mobility-on-Demand Systems: A Queueing-Theoretical Perspective.The International Journal of Robotics Research, 35(1-3):186โ203, 2016.doi: 10.1177/0278364915581863.
Outline of the Appendices.
โข
Appendix A presents additional definitions and remarks that support the main body.
โข
Appendix B-C contains a detailed proof of the Lipschitz continuity bound in Theorem 4.1 and total variation distance bound in Theorem 4.2.
โข
Appendix D contains a detailed proof of the main result in Theorem 3.4.
Appendix AMathematical Background and Additional Remarks Definition A.1 (Lipschitz continuity).
Given two metric spaces ( ๐ณ , ๐ ๐ณ ) and ( ๐ด , ๐ ๐ด ) and a constant ๐ฟ โ โ + , a mapping ๐ : ๐ณ โ ๐ด is ๐ฟ -Lipschitz continuous if for all ๐ฅ , ๐ฆ โ ๐ณ , ๐ ๐ด โข ( ๐ โข ( ๐ฅ ) , ๐ โข ( ๐ฆ ) ) โค ๐ฟ โ ๐ ๐ณ โข ( ๐ฅ , ๐ฆ ) .
Theorem A.2 (Banach-Caccioppoli fixed point theorem Banach (1922)).
Consider the metric space ( ๐ณ , ๐ ๐ณ ) , and ๐ : ๐ณ โ ๐ณ such that ๐ is a ๐พ -Lipschitz continuous mapping for ๐พ โ ( 0 , 1 ) . Then, by the Banach-Cacciopoli fixed-point theorem, there exists a unique fixed point ๐ฅ โ โ ๐ณ for which ๐ โข ( ๐ฅ โ )
๐ฅ โ . Additionally, ๐ฅ โ
lim ๐ โ โ ๐ ๐ โข ( ๐ฅ 0 ) for any ๐ฅ 0 โ ๐ณ .
For convenience, we restate below the various Bellman operators under consideration.
Definition A.3 (Bellman Operator ๐ฏ ).
๐ฏ โข ๐ ๐ก โข ( ๐ , ๐ ๐ ) := ๐ [ ๐ ] โข ( ๐ , ๐ ๐ ) + ๐พ โข ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) ,
๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , โ ๐ โ [ ๐ ] โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ๐ก โข ( ๐ โฒ , ๐ ๐ โฒ )
(13) Definition A.4 (Adapted Bellman Operator ๐ฏ ^ ๐ ).
The adapted Bellman operator updates a smaller ๐ function (which we denote by ๐ ^ ๐ ), for a surrogate system with the global agent and ๐ โ [ ๐ ] local agents, using mean-field value iteration:
๐ฏ ^ ๐ โข ๐ ^ ๐ ๐ก โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) := ๐ ฮ โข ( ๐ , ๐ ๐ ) + ๐พ โข ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) ,
๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , โ ๐ โ ฮ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ก โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ )
(14) Definition A.5 (Empirical Adapted Bellman Operator ๐ฏ ^ ๐ , ๐ ).
The empirical adapted Bellman operator ๐ฏ ^ ๐ , ๐ empirically estimates the adapted Bellman operator update using mean-field value iteration by drawing ๐ random samples of ๐ ๐ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) and ๐ ๐ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) for ๐ โ ฮ , where for ๐ โ [ ๐ ] , the ๐ โth random sample is given by ๐ ๐ ๐ and ๐ ฮ ๐ :
๐ฏ ^ ๐ , ๐ โข ๐ ^ ๐ , ๐ ๐ก โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) := ๐ ฮ โข ( ๐ , ๐ ๐ ) + ๐พ ๐ โข โ ๐ โ [ ๐ ] max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ , ๐ ๐ก โข ( ๐ ๐ ๐ , ๐น ๐ ฮ ๐ , ๐ ๐ โฒ )
(15) Remark A.6.
We remark on the following relationships between the variants of the Bellman operators from Definitions A.3, A.4 and A.5. First, by the law of large numbers, we have lim ๐ โ โ ๐ฏ ^ ๐ , ๐
๐ฏ ^ ๐ , where the error decays in ๐ โข ( 1 / ๐ ) by the Chernoff bound. Secondly, by comparing Definition A.4 and Definition A.3, we have ๐ฏ ๐
๐ฏ .
Lemma A.7.
For any ฮ โ [ ๐ ] such that | ฮ |
๐ , suppose 0 โค ๐ ฮ โข ( ๐ , ๐ ๐ ) โค ๐ ~ . Then, ๐ ^ ๐ ๐ก โค ๐ ~ 1 โ ๐พ .
Proof.
We prove this by induction on ๐ก โ โ . The base case is satisfied as ๐ ^ ๐ 0
0 . Assume that โ ๐ ^ ๐ ๐ก โ 1 โ โ โค ๐ ~ 1 โ ๐พ . We bound ๐ ^ ๐ ๐ก + 1 from the Bellman update at each time step as follows, for all ๐ ๐ โ ๐ฎ ๐ , ๐น ๐ ฮ โ ฮ ๐ | ๐ฎ ๐ | , ๐ ๐ โ ๐ ๐ :
๐ ^ ๐ ๐ก + 1 โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
๐ ฮ โข ( ๐ , ๐ ๐ ) + ๐พ โข ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) ,
๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , โ ๐ โ ฮ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ก โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ )
โค ๐ ~ + ๐พ โข max ๐ ๐ โฒ โ ๐ ๐ , ๐ ๐ โฒ โ ๐ฎ ๐ , ๐น ๐ ฮ โฒ โ ฮ ๐ | ๐ฎ ๐ | โก ๐ ^ ๐ ๐ก โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โค ๐ ~ 1 โ ๐พ
Here, the first inequality follows by noting that the maximum value of a random variable is at least as large as its expectation. The second inequality follows from the inductive hypothesis.โ
Remark A.8.
Lemma A.7 is independent of the choice of ๐ . Therefore, for ๐
๐ , this implies an identical bound on ๐ ๐ก . A similar argument as Lemma A.7 implies an identical bound on ๐ ^ ๐ , ๐ ๐ก .
Recall that the original Bellman operator ๐ฏ satisfies a ๐พ -contractive property under the infinity norm. We similarly show that ๐ฏ ^ ๐ and ๐ฏ ^ ๐ , ๐ satisfy a ๐พ -contractive property under infinity norm in Lemma A.9 and Lemma A.10.
Lemma A.9.
๐ฏ ^ ๐ satisfies the ๐พ -contractive property under infinity norm:
โ ๐ฏ ^ ๐ โข ๐ ^ ๐ โฒ โ ๐ฏ ^ ๐ โข ๐ ^ ๐ โ โ โค ๐พ โข โ ๐ ^ ๐ โฒ โ ๐ ^ ๐ โ โ
Proof.
Suppose we apply ๐ฏ ^ ๐ to ๐ ^ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) and ๐ ^ ๐ โฒ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) for | ฮ |
๐ . Then:
โ ๐ฏ ^ ๐ โข ๐ ^ ๐ โฒ โ ๐ฏ ^ ๐ โข ๐ ^ ๐ โ โ
๐พ โข max ๐ ๐ โ ๐ฎ ๐ ,
๐ ๐ โ ๐ ๐ ,
๐น ๐ ฮ โ ฮ ๐ | ๐ฎ ๐ | โก | ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) ,
๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) ,
โ ๐ ๐ โฒ โ ๐ ฮ โฒ , โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ โฒ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) ,
๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) ,
โ
๐
๐
โฒ
โ
๐
ฮ
โฒ
โข
max
๐
๐
โฒ
โ
๐
๐
โก
๐
^
๐
โข
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
,
๐
๐
โฒ
)
|
โค
๐พ
โข
max
๐
๐
โฒ
โ
๐ฎ
๐
,
๐น
๐
ฮ
โฒ
โ
ฮ
๐
|
๐ฎ
๐
|
,
๐
๐
โฒ
โ
๐
๐
โก
|
๐
^
๐
โฒ
โข
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
,
๐
๐
โฒ
)
โ
๐
^
๐
โข
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
,
๐
๐
โฒ
)
|
๐พ โข โ ๐ ^ ๐ โฒ โ ๐ ^ ๐ โ โ
The equality implicitly cancels the common ๐ ฮ โข ( ๐ , ๐ ๐ ) terms from each application of the adapted-Bellman operator. The inequality follows from Jensenโs inequality, maximizing over the actions, and bounding the expected value with the maximizers of the random variables. The last line recovers the definition of infinity norm. โ
Lemma A.10.
๐ฏ ^ ๐ , ๐ satisfies the ๐พ -contractive property under infinity norm.
Proof.
Similarly to Lemma A.9, suppose we apply ๐ฏ ^ ๐ , ๐ to ๐ ^ ๐ , ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) and ๐ ^ ๐ , ๐ โฒ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) . Then:
โ ๐ฏ ^ ๐ , ๐ โข ๐ ^ ๐ โ ๐ฏ ^ ๐ , ๐ โข ๐ ^ ๐ โฒ โ โ
๐พ ๐ โข โ โ ๐ โ [ ๐ ] ( max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ โข ( ๐ ๐ ๐ , ๐น ๐ ฮ ๐ , ๐ ๐ โฒ ) โ max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ โฒ โข ( ๐ ๐ ๐ , ๐น ๐ ฮ ๐ , ๐ ๐ โฒ ) ) โ โ
โค ๐พ โข max ๐ ๐ โฒ โ ๐ ๐ , ๐ ๐ โฒ โ ๐ฎ ๐ , ๐ ฮ โ ๐ฎ ๐ ๐ โก | ๐ ^ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ ^ ๐ โฒ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) |
โค ๐พ โข โ ๐ ^ ๐ โ ๐ ^ ๐ โฒ โ โ
The first inequality uses the triangle inequality and the general property | max ๐ โ ๐ด โก ๐ โข ( ๐ ) โ max ๐ โ ๐ด โก ๐ โข ( ๐ ) | โค max ๐ โ ๐ด โก | ๐ โข ( ๐ ) โ ๐ โข ( ๐ ) | . In the last line, we recover the definition of infinity norm.โ
Remark A.11.
Intuitively, the ๐พ -contractive property of ๐ฏ ^ ๐ and ๐ฏ ^ ๐ , ๐ causes the trajectory of two ๐ ^ ๐ and ๐ ^ ๐ , ๐ functions on the same state-action tuple to decay by ๐พ at each time step such that repeated applications of their corresponding Bellman operators produce a unique fixed-point from the Banach-Cacciopoli fixed-point theorem which we introduce in Definitions A.12 and A.13.
Definition A.12 ( ๐ ^ ๐ โ ).
Suppose ๐ ^ ๐ 0 := 0 and let ๐ ^ ๐ ๐ก + 1 โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
๐ฏ ^ ๐ โข ๐ ^ ๐ ๐ก โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) for ๐ก โ โ . Denote the fixed-point of ๐ฏ ^ ๐ by ๐ ^ ๐ โ such that ๐ฏ ^ ๐ โข ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) .
Definition A.13 ( ๐ ^ ๐ , ๐ est ).
Suppose ๐ ^ ๐ , ๐ 0 := 0 and let ๐ ^ ๐ , ๐ ๐ก + 1 โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
๐ฏ ^ ๐ , ๐ โข ๐ ^ ๐ , ๐ ๐ก โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) for ๐ก โ โ . Denote the fixed-point of ๐ฏ ^ ๐ , ๐ by ๐ ^ ๐ , ๐ est such that ๐ฏ ^ ๐ , ๐ โข ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) .
Furthermore, recall the assumption on our empirical approximation of ๐ ^ ๐ โ :
Lemma 3.3. For all ๐ โ [ ๐ ] and ๐ โ โ , we assume that:
โ ๐ ^ ๐ , ๐ est โ ๐ ^ ๐ โ โ โ โค ๐ ๐ , ๐
Corollary A.14.
Observe that by backpropagating results of the ๐พ -contractive property for ๐ time steps:
โ ๐ ^ ๐ โ โ ๐ ^ ๐ ๐ โ โ โค ๐พ ๐ โ โ ๐ ^ ๐ โ โ ๐ ^ ๐ 0 โ โ
(16)
โ ๐ ^ ๐ , ๐ est โ ๐ ^ ๐ , ๐ ๐ โ โ โค ๐พ ๐ โ โ ๐ ^ ๐ , ๐ est โ ๐ ^ ๐ , ๐ 0 โ โ
(17)
Further, noting that ๐ ^ ๐ 0
๐ ^ ๐ , ๐ 0 := 0 , โ ๐ ^ ๐ โ โ โ โค ๐ ~ 1 โ ๐พ , and โ ๐ ^ ๐ , ๐ est โ โ โค ๐ ~ 1 โ ๐พ from Lemma A.7:
โ ๐ ^ ๐ โ โ ๐ ^ ๐ ๐ โ โ โค ๐พ ๐ โข ๐ ~ 1 โ ๐พ
(18)
โ ๐ ^ ๐ , ๐ est โ ๐ ^ ๐ , ๐ ๐ โ โ โค ๐พ ๐ โข ๐ ~ 1 โ ๐พ
(19) Remark A.15.
Corollary A.14 characterizes the error decay between ๐ ^ ๐ ๐ and ๐ ^ ๐ โ as well as between ๐ ^ ๐ , ๐ ๐ and ๐ ^ ๐ , ๐ est and shows that it decays exponentially in the number of corresponding Bellman iterations with the ๐พ ๐ multiplicative factor.
Furthermore, we characterize the maximal policies greedy policies obtained from ๐ โ , ๐ ^ ๐ โ , and ๐ ^ ๐ , ๐ est .
Definition A.16 ( ๐ โ ).
The greedy policy derived from ๐ โ is
๐ โ โข ( ๐ ) := arg โก max ๐ ๐ โ ๐ ๐ โก ๐ โ โข ( ๐ , ๐ ๐ ) .
Definition A.17 ( ๐ ^ ๐ โ ).
The greedy policy from ๐ ^ ๐ โ is
๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ ) := arg โก max ๐ ๐ โ ๐ ๐ โก ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) .
Definition A.18 ( ๐ ^ ๐ , ๐ est ).
The greedy policy from ๐ ^ ๐ , ๐ est is given by
๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ ) := arg โก max ๐ ๐ โ ๐ ๐ โก ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) .
Figure 3 details the analytic flow on how we use the empirical adapted Bellman operator to perform value iteration on ๐ ^ ๐ , ๐ to get ๐ ^ ๐ , ๐ est which approximates ๐ โ .
๐ ^ ๐ , ๐ 0 โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ [ ๐ ] , ๐ ๐ ) ๐ โ โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ ) ( 1 ) ( 2 )
= ( 3 )
โ ( 4 )
=
Figure 3:Flow of the algorithm and relevant analyses in learning
๐
โ
. Here, (1) follows by performing Algorithm 1 (SUBSAMPLE-Q: Learning) on
๐
^
๐
,
๐
0
. (2) follows from Lemma 3.3. (3) follows from the Lipschitz continuity and total variation distance bounds in Theorems 4.1 and 4.2. Finally, (4) follows from noting that
๐
^
๐
โ
๐ โ .
Algorithm 3 provides a stable implementation of Algorithm 1: SUBSAMPLE-Q: Learning, where we incorporate a sequence of learning rates { ๐ ๐ก } ๐ก โ [ ๐ ] into the framework Watkins & Dayan (1992). Algorithm 3 is also provably numerical stable under fixed-point arithmetic Anand et al. (2024).
Algorithm 3 Stable (Practical) Implementation of Algorithm 1: SUBSAMPLE-Q: Learning 0: A multi-agent system as described in Section 2. Parameter ๐ for the number of iterations in the initial value iteration step. Hyperparameter ๐ โ [ ๐ ] . Discount parameter ๐พ โ ( 0 , 1 ) . Oracle ๐ช to sample ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) and ๐ ๐ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) for all ๐ โ [ ๐ ] . Sequence of learning rates { ๐ ๐ก } ๐ก โ [ ๐ ] where ๐ ๐ก โ ( 0 , 1 ] . 1: Choose any ฮ โ [ ๐ ] such that | ฮ |
๐ . 2: Set ๐ ^ ๐ , ๐ 0 โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
0 for ๐ ๐ โ ๐ฎ ๐ , ๐น ๐ ฮ โ ฮ ๐ | ๐ฎ ๐ | , ๐ ๐ โ ๐ ๐ . 3: for ๐ก
1
to
๐
do
4: for
(
๐
๐
,
๐น
๐
ฮ
)
โ
๐ฎ
๐
ร
ฮ
๐
|
๐ฎ
๐
|
do
5: for
๐
๐
โ
๐
๐
do
6:
๐
^
๐
,
๐
๐ก
+
1
โข
(
๐
๐
,
๐น
๐
ฮ
,
๐
๐
)
โ
(
1
โ
๐
๐ก
)
โข
๐
^
๐
,
๐
๐ก
โข
(
๐
๐
,
๐น
๐
ฮ
,
๐
๐
)
+
๐
๐ก
โข
๐ฏ
^
๐
,
๐
โข
๐
^
๐
,
๐
๐ก
โข
(
๐
๐
,
๐น
๐
ฮ
,
๐
๐
)
7: For all
(
๐
๐
,
๐น
๐
ฮ
)
โ
๐ฎ
๐
ร
ฮ
๐
|
๐ฎ
๐
|
, let the approximate policy be
๐
^
๐
,
๐
๐
โข
(
๐
๐
,
๐น
๐
ฮ
)
arg โก max ๐ ๐ โ ๐ ๐ โก ๐ ^ ๐ , ๐ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) .
Notably, ๐ ^ ๐ , ๐ ๐ก in Algorithm 3 due to a similar ๐พ -contractive property as in Lemma A.9, given an appropriately conditioned sequence of learning rates ๐ ๐ก :
Theorem A.19.
As ๐ โ โ , if โ ๐ก
1 ๐ ๐ ๐ก
โ , and โ ๐ก
1 ๐ ๐ ๐ก 2 < โ , then ๐ -learning converges to the optimal ๐ function asymptotically with probability 1 .
Furthermore, finite-time guarantees with the learning rate and sample complexity have been shown recently in Chen & Theja Maguluri (2022), which when adapted to our ๐ ^ ๐ , ๐ framework in Algorithm 3 yields:
Theorem A.20 (Chen & Theja Maguluri (2022)).
For all ๐ก โ [ ๐ ] and ๐ > 0 , if ๐ ๐ก
( 1 โ ๐พ ) 4 โข ๐ 2 and ๐
๐ | ๐ฎ ๐ | โข | ๐ฎ ๐ | โข | ๐ ๐ | / ( 1 โ ๐พ ) 5 โข ๐ 2 ,
โ ๐ ^ ๐ , ๐ ๐ โ ๐ ^ ๐ , ๐ est โ โค ๐ .
This global decision-making problem can be viewed as a generalization of the network setting to a specific type of dense graph: the star graph (Figure 4). We briefly elaborate more on this connection below.
Definition A.21 (Star Graph ๐ ๐ ).
For ๐ โ โ , the star graph ๐ ๐ is the complete bipartite graph ๐พ 1 , ๐ .
๐ ๐ captures the graph density notion by saturating the set of neighbors for the central node. Furthermore, it models interactions between agents identically to our setting, where the central node is a global agent and the peripheral nodes are local agents. The cardinality of the search space simplex for the optimal policy is | ๐ฎ ๐ | โข | ๐ฎ ๐ | ๐ โข | ๐ ๐ | , which is exponential in ๐ . Hence, this problem cannot be naively modeled by an MDP: we need to exploit the symmetry of the local agents. This intuition allows our subsampling algorithm to run in polylogarithmic time (in ๐ ). Further, works that leverage the exponential decaying property that truncates the search space for policies over immediate neighborhoods of agents still rely on the assumption that the graph neighborhood for the agent is sparse Lin et al. (2021); Qu et al. (2020a; b); Lin et al. (2020); however, the graph ๐ ๐ violates this local sparsity condition; hence, previous methods do not apply to this problem instance.
1 2 0 3 โฆ ๐ Figure 4:Star graph ๐ ๐ Appendix BProof of Lipschitz-Continuity Bound
This section proves the Lipschitz-continuity bound Theorem 4.1 between ๐ ^ ๐ โ and ๐ โ in Theorem B.2 and includes a framework to compare 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) and ๐ โ โข ( ๐ , ๐ ๐ ) in Lemma B.12. The following definition will be relevant to the proof of Theorem 4.1.
Definition B.1.
[Joint Stochastic Kernels] The joint stochastic kernel on ( ๐ ๐ , ๐ ฮ ) for ฮ โ [ ๐ ] where | ฮ |
๐ is defined as ๐ฅ ๐ : ๐ฎ ๐ ร ๐ฎ ๐ ๐ ร ๐ฎ ๐ ร ๐ ๐ ร ๐ฎ ๐ ๐ โ [ 0 , 1 ] , where
๐ฅ
๐
โข
(
๐
๐
โฒ
,
๐
ฮ
โฒ
|
๐
๐
,
๐
๐
,
๐
ฮ
)
:=
Pr
โก
[
(
๐
๐
โฒ
,
๐
ฮ
โฒ
)
|
๐
๐
,
๐
๐
,
๐
ฮ
]
(20)
Theorem B.2 (
๐
^
๐
๐
is
(
โ
๐ก
0 ๐ โ 1 2 โข ๐พ ๐ก ) โข โ ๐ ๐ โข ( โ , โ ) โ โ -Lipschitz continuous with respect to ๐น ๐ ฮ in total variation distance).
Suppose ฮ , ฮ โฒ โ [ ๐ ] such that | ฮ |
๐ and | ฮ โฒ |
๐ โฒ . Then:
| ๐ ^ ๐ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) โ ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ โฒ , ๐ ๐ ) | โค ( โ ๐ก
0 ๐ โ 1 2 โข ๐พ ๐ก ) โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
Proof.
We prove this inductively. Note that ๐ ^ ๐ 0 โข ( โ , โ , โ )
๐ ^ ๐ โฒ 0 โข ( โ , โ , โ )
0 from the initialization step in Algorithm 1, which proves the lemma for ๐
0 since TV โข ( โ , โ ) โฅ 0 . For the remainder of this proof, we adopt the shorthand ๐ผ ๐ ๐ โฒ , ๐ ฮ โฒ to refer to ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , โ ๐ โ ฮ .
Then, at ๐
1 :
|
๐
^
๐
1
(
๐
๐
,
๐น
๐
ฮ
,
๐
๐
)
โ
๐
^
๐
โฒ
1
(
๐
๐
,
๐น
๐
ฮ
โฒ
,
๐
๐
)
|
| ๐ฏ ^ ๐ โข ๐ ^ ๐ 0 โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) โ ๐ฏ ^ ๐ โฒ โข ๐ ^ ๐ โฒ 0 โข ( ๐ ๐ , ๐น ๐ ฮ โฒ , ๐ ๐ ) |
|
๐
(
๐
๐
,
๐น
๐
ฮ
,
๐
๐
)
+
๐พ
๐ผ
๐
๐
โฒ
,
๐
ฮ
โฒ
max
๐
๐
โฒ
โ
๐
๐
๐
^
๐
0
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
,
๐
๐
โฒ
)
โ
๐
(
๐
๐
,
๐น
๐
ฮ
โฒ
,
๐
๐
)
โ
๐พ
๐ผ
๐
๐
โฒ
,
๐
ฮ
โฒ
โฒ
max
๐
๐
โฒ
โ
๐
๐
๐
^
๐
โฒ
0
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
โฒ
,
๐
๐
โฒ
)
|
| ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) โ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ โฒ , ๐ ๐ ) |
| 1 ๐ โข โ ๐ โ ฮ ๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) โ 1 ๐ โฒ โข โ ๐ โ ฮ โฒ ๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) |
| ๐ผ ๐ ๐ โผ ๐น ๐ ฮ โข ๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) โ ๐ผ ๐ ๐ โฒ โผ ๐น ๐ ฮ โฒ โข ๐ ๐ โข ( ๐ ๐ , ๐ ๐ โฒ ) |
In the first and second equalities, we use the time evolution property of ๐ ^ ๐ 1 and ๐ ^ ๐ โฒ 1 by applying the adapted Bellman operators ๐ฏ ^ ๐ and ๐ฏ ^ ๐ โฒ to ๐ ^ ๐ 0 and ๐ ^ ๐ โฒ 0 , respectively, and expanding. In the third and fourth equalities, we note that ๐ ^ ๐ 0 โข ( โ , โ , โ )
๐ ^ ๐ โฒ 0 โข ( โ , โ , โ )
0 , and subtract the common โglobal componentโ of the reward function.
Then, noting the general property that for any function ๐ : ๐ณ โ ๐ด for | ๐ณ | < โ we can write ๐ โข ( ๐ฅ )
โ ๐ฆ โ ๐ณ ๐ โข ( ๐ฆ ) โข ๐ โข { ๐ฆ
๐ฅ } , we have:
|
๐
^
๐
1
(
๐
๐
,
๐น
๐
ฮ
,
๐
๐
)
โ
๐
^
๐
โฒ
1
(
๐
๐
,
๐น
๐
ฮ
โฒ
,
๐
๐
)
|
| ๐ผ ๐ ๐ โผ ๐น ๐ ฮ โข [ โ ๐ง โ ๐ฎ ๐ ๐ ๐ โข ( ๐ ๐ , ๐ง ) โข ๐ โข { ๐ ๐
๐ง } ] โ ๐ผ ๐ ๐ โฒ โผ ๐น ๐ ฮ โฒ โข [ โ ๐ง โ ๐ฎ ๐ ๐ ๐ โข ( ๐ ๐ , ๐ง ) โข ๐ โข { ๐ ๐ โฒ
๐ง } ] |
| โ ๐ง โ ๐ฎ ๐ ๐ ๐ โข ( ๐ ๐ , ๐ง ) โ ( ๐ผ ๐ ๐ โผ ๐น ๐ ฮ โข ๐ โข { ๐ ๐
๐ง } โ ๐ผ ๐ ๐ โฒ โผ ๐น ๐ ฮ โฒ โข ๐ โข { ๐ ๐ โฒ
๐ง } ) |
| โ ๐ง โ ๐ฎ ๐ ๐ ๐ โข ( ๐ ๐ , ๐ง ) โ ( ๐น ๐ ฮ โข ( ๐ง ) โ ๐น ๐ ฮ โฒ โข ( ๐ง ) ) |
โค | max ๐ง โ ๐ฎ ๐ โก ๐ ๐ โข ( ๐ ๐ , ๐ง ) | โ โ ๐ง โ ๐ฎ ๐ | ๐น ๐ ฮ โข ( ๐ง ) โ ๐น ๐ ฮ โฒ โข ( ๐ง ) |
โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
The second equality follows from the linearity of expectations, and the third equality follows by noting that for any random variable ๐ โผ ๐ณ , ๐ผ ๐ โข ๐ โข [ ๐
๐ฅ ]
Pr โก [ ๐
๐ฅ ] . Then, the first inequality follows from an application of the triangle inequality and the Cauchy-Schwarz inequality, and the second inequality follows by the definition of total variation distance. Thus, when ๐
1 , ๐ ^ is ( 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ ) -Lipschitz continuous with respect to total variation distance, proving the base case.
We now assume that for ๐ โค ๐ก โฒ โ โ :
| ๐ ^ ๐ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) โ ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ โฒ , ๐ ๐ ) | โค ( โ ๐ก
0 ๐ โ 1 2 โข ๐พ ๐ก ) โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
Then, inductively we have:
| ๐ ^ ๐ ๐ + 1 ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
โ ๐ ^ ๐ โฒ ๐ + 1 ( ๐ ๐ , ๐น ๐ ฮ โฒ , ๐ ๐ ) |
โค | 1 | ฮ | โข โ ๐ โ ฮ ๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) โ 1 | ฮ โฒ | โข โ ๐ โ ฮ โฒ ๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) |
- ๐พ โข | ๐ผ ๐ ๐ โฒ , ๐ ฮ โฒ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ผ ๐ ๐ โฒ , ๐ ฮ โฒ โฒ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ ) |
โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
- ๐พ โข | ๐ผ ๐ ๐ โฒ , ๐ ฮ โฒ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ผ ๐ ๐ โฒ , ๐ ฮ โฒ โฒ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ ) |
In the first equality, we use the time evolution property of ๐ ^ ๐ ๐ + 1 and ๐ ^ ๐ โฒ ๐ + 1 by applying the adapted-Bellman operators ๐ฏ ^ ๐ and ๐ฏ ^ ๐ โฒ to ๐ ^ ๐ ๐ and ๐ ^ ๐ โฒ ๐ , respectively. We then expand and use the triangle inequality. In the first term of the second inequality, we use our Lipschitz bound from the base case. For the second term, we now rewrite the expectation over the states ๐ ๐ โฒ , ๐ ฮ โฒ , ๐ ฮ โฒ โฒ into an expectation over the joint transition probabilities ๐ฅ ๐ and ๐ฅ ๐ โฒ from Definition B.1.
Therefore, using the shorthand ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โผ ๐ฅ ๐ to denote ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โผ ๐ฅ ๐ ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ ) , we have:
|
๐
^
๐
๐
+
1
โข
(
๐
๐
,
๐น
๐
ฮ
,
๐
๐
)
โ
๐
^
๐
โฒ
๐
+
1
โข
(
๐
๐
,
๐น
๐
ฮ
โฒ
,
๐
๐
)
|
โค
2
โข
โ
๐
๐
โข
(
โ
,
โ
)
โ
โ
โ
TV
โข
(
๐น
๐
ฮ
,
๐น
๐
ฮ
โฒ
)
+
๐พ
โข
|
๐ผ
(
๐
๐
โฒ
,
๐
ฮ
โฒ
)
โผ
๐ฅ
๐
โข
max
๐
๐
โฒ
โ
๐
๐
โก
๐
^
๐
๐
โข
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
,
๐
๐
โฒ
)
โ
๐ผ
(
๐
๐
โฒ
,
๐
ฮ
โฒ
โฒ
)
โผ
๐ฅ
๐
โฒ
โข
max
๐
๐
โฒ
โ
๐
๐
โก
๐
^
๐
โฒ
๐
โข
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
โฒ
,
๐
๐
โฒ
)
|
โค
2
โข
โ
๐
๐
โข
(
โ
,
โ
)
โ
โ
โ
TV
โข
(
๐น
๐
ฮ
,
๐น
๐
ฮ
โฒ
)
+
๐พ
โข
max
๐
๐
โฒ
โ
๐
๐
โก
|
๐ผ
(
๐
๐
โฒ
,
๐
ฮ
โฒ
)
โผ
๐ฅ
๐
โข
๐
^
๐
๐
โข
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
,
๐
๐
โฒ
)
โ
๐ผ
(
๐
๐
โฒ
,
๐
ฮ
โฒ
โฒ
)
โผ
๐ฅ
๐
โฒ
โข
๐
^
๐
โฒ
๐
โข
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
โฒ
,
๐
๐
โฒ
)
|
โค
2
โข
โ
๐
๐
โข
(
โ
,
โ
)
โ
โ
โ
TV
โข
(
๐น
๐
ฮ
,
๐น
๐
ฮ
โฒ
)
+
๐พ
โข
(
โ
๐
0 ๐ โ 1 2 โข ๐พ ๐ ) โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
( โ ๐
0 ๐ 2 โข ๐พ ๐ ) โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
In the first inequality, we rewrite the expectations over the states as the expectation over the joint transition probabilities. The second inequality then follows from Lemma B.9. To apply it to Lemma B.9, we superficially conflate the joint expectation over ( ๐ ๐ , ๐ ฮ โช ฮ โฒ ) and reduce it back to the original form of its expectation. Finally, the third inequality follows from Lemma B.3.
Then, by the inductive hypothesis, the claim is proven.โ
Lemma B.3.
For all ๐ โ โ , for any ๐ ๐ , ๐ ๐ โฒ โ ๐ ๐ , ๐ ๐ โ ๐ฎ ๐ , ๐ ฮ โ ๐ฎ ๐ ๐ , and for all joint stochastic kernels ๐ฅ ๐ as defined in Definition B.1, we have that ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โผ ๐ฅ ๐ ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ ) โข ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) is ( โ ๐ก
0 ๐ก โ 1 ) 2 ๐พ ๐ก ) โฅ ๐ ๐ ( โ , โ ) โฅ โ ) -Lipschitz continuous with respect to ๐น ๐ ฮ in total variation distance:
|
๐ผ
(
๐
๐
โฒ
,
๐
ฮ
โฒ
)
โผ
๐ฅ
๐
(
โ
,
โ
|
๐
๐
,
๐
๐
,
๐
ฮ
)
๐
^
๐
๐
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
,
๐
๐
โฒ
)
โ
๐ผ
(
๐
๐
โฒ
,
๐
ฮ
โฒ
โฒ
)
โผ
๐ฅ
๐
โฒ
(
โ
,
โ
|
๐
๐
,
๐
๐
,
๐
ฮ
โฒ
)
๐
^
๐
โฒ
๐
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
โฒ
,
๐
๐
โฒ
)
|
โค
(
โ
๐
0 ๐ โ 1 2 โข ๐พ ๐ ) โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
Proof.
We prove this inductively. At ๐
0 , the statement is true since ๐ ^ ๐ 0 โข ( โ , โ , โ )
๐ ^ ๐ โฒ 0 โข ( โ , โ , โ )
0 and TV โข ( โ , โ ) โฅ 0 . For ๐
1 , applying the adapted Bellman operator yields:
| ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โผ ๐ฅ ๐ ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ ) โข ๐ ^ ๐ 1 โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ โฒ ) โผ ๐ฅ ๐ โฒ ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ โฒ ) โข ๐ ^ ๐ โฒ 1 โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ ) |
| ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ ) โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) โข [ 1 | ฮ | โข โ ๐ โ ฮ ๐ ๐ โข ( ๐ ๐ โฒ , ๐ ๐ โฒ ) โ 1 | ฮ โฒ | โข โ ๐ โ ฮ โฒ ๐ ๐ โข ( ๐ ๐ โฒ , ๐ ๐ โฒ ) ] |
| ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ ) โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) โข [ โ ๐ง โ ๐ฎ ๐ ๐ ๐ โข ( ๐ ๐ โฒ , ๐ง ) โ ( ๐น ๐ ฮ โฒ โข ( ๐ง ) โ ๐น ๐ ฮ โฒ โฒ โข ( ๐ง ) ) ] |
Similarly to Theorem B.2, we implicitly write the result as an expectation over the reward functions and use the general property that for any function ๐ : ๐ณ โ ๐ด for | ๐ณ | < โ , we can write ๐ โข ( ๐ฅ )
โ ๐ฆ โ ๐ณ ๐ โข ( ๐ฆ ) โข ๐ โข { ๐ฆ
๐ฅ } . Then, taking the expectation over the indicator variable yields the second equality. As a shorthand, let ๐ denote the distribution of ๐ ๐ โฒ โผ โ ๐ ฮ โช ฮ โฒ โฒ โ ๐ฎ ๐ | ฮ โช ฮ โฒ | ๐ฅ | ฮ โช ฮ | โข ( โ , ๐ ฮ โช ฮ โฒ โฒ | ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) . Then, by the law of total expectation,
| ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โผ ๐ฅ ๐ ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ ) โข ๐ ^ ๐ 1 โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ โฒ ) โผ ๐ฅ ๐ โฒ ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ โฒ ) โข ๐ ^ ๐ โฒ 1 โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ ) |
| ๐ผ ๐ ๐ โฒ โผ ๐ โข โ ๐ง โ ๐ฎ ๐ ๐ ๐ โข ( ๐ ๐ โฒ , ๐ง ) โข ๐ผ ๐ ฮ โช ฮ โฒ โฒ โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ | ๐ ๐ โฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) โข ( ๐น ๐ ฮ โฒ โข ( ๐ง ) โ ๐น ๐ ฮ โฒ โฒ โข ( ๐ง ) ) |
โค โ ๐ ๐ โข ( โ , โ ) โ โ โ ๐ผ ๐ ๐ โฒ โผ ๐ โข โ ๐ง โ ๐ฎ ๐ | ๐ผ ๐ ฮ โช ฮ โฒ โฒ โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ | ๐ ๐ โฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) โข ( ๐น ๐ ฮ โฒ โข ( ๐ง ) โ ๐น ๐ ฮ โฒ โฒ โข ( ๐ง ) ) |
โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ โ ๐ผ ๐ ๐ โฒ โผ ๐ โข TV โข ( ๐ผ ๐ ฮ โช ฮ โฒ โฒ | ๐ ๐ โฒ โข ๐น ๐ ฮ โฒ , ๐ผ ๐ ฮ โช ฮ โฒ โฒ | ๐ ๐ โฒ โข ๐น ๐ ฮ โฒ โฒ )
โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
In the ensuing inequalities, we first use Jensenโs inequality and the triangle inequality to pull out ๐ผ ๐ ๐ โฒ โข โ ๐ง โ ๐ฎ ๐ from the absolute value, and then use Cauchy-Schwarz to further factor โ ๐ ๐ โข ( โ , โ ) โ โ . The second inequality follows from Lemma B.5 and does not have a dependence on ๐ ๐ โฒ thus eliminating ๐ผ ๐ ๐ โฒ and proving the base case.
We now assume that for ๐ โค ๐ก โฒ โ โ , for all joint stochastic kernels ๐ฅ ๐ and ๐ฅ ๐ โฒ , and for all ๐ ๐ โฒ โ ๐ ๐ :
|
๐ผ
(
๐
๐
โฒ
,
๐
ฮ
โฒ
)
โผ
๐ฅ
๐
(
โ
,
โ
|
๐
๐
,
๐
๐
,
๐
ฮ
)
๐
^
๐
๐
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
,
๐
๐
โฒ
)
โ
๐ผ
(
๐
๐
โฒ
,
๐
ฮ
โฒ
โฒ
)
โผ
๐ฅ
๐
โฒ
(
โ
,
โ
|
๐
๐
,
๐
๐
,
๐
ฮ
โฒ
)
๐
^
๐
โฒ
๐
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
โฒ
,
๐
๐
โฒ
)
|
โค
(
โ
๐ก
0 ๐ โ 1 2 โข ๐พ ๐ก ) โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
For the remainder of the proof, we adopt the shorthand ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โผ ๐ฅ to denote ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โผ ๐ฅ | ฮ | ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ ) , and ๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ ) โผ ๐ฅ to denote ๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ ) โผ ๐ฅ | ฮ | ( โ , โ | ๐ ๐ โฒ , ๐ ๐ โฒ , ๐ ฮ โฒ ) .
Then, inductively, we have:
| ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โผ ๐ฅ โข ๐ ^ ๐ ๐ + 1 โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ โฒ ) โผ ๐ฅ โข ๐ ^ ๐ โฒ ๐ + 1 โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ ) |
| ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ ) โผ ๐ฅ [ ๐ ( ๐ ๐ โฒ , ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ ( ๐ ๐ โฒ , ๐ ฮ โฒ โฒ , ๐ ๐ โฒ )
- ๐พ ๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โช ฮ โฒ โฒโฒ ) โผ ๐ฅ [ max ๐ ๐ โฒโฒ โ ๐ ๐ ๐ ^ ๐ ๐ ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒโฒ , ๐ ๐ โฒโฒ ) โ max ๐ ๐ โฒโฒ โ ๐ ๐ ๐ ^ ๐ โฒ ๐ ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒ โฒโฒ , ๐ ๐ โฒโฒ ) ] ] |
โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
- ๐พ โข | ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ ) โผ ๐ฅ โข [ ๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โช ฮ โฒ โฒโฒ ) โผ ๐ฅ โข [ max ๐ ๐ โฒโฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒโฒ , ๐ ๐ โฒโฒ ) โ max ๐ ๐ โฒโฒ โ ๐ ๐ โก ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒ โฒโฒ , ๐ ๐ โฒโฒ ) ] ] |
Here, we expand out ๐ ^ ๐ ๐ + 1 and ๐ ^ ๐ โฒ ๐ + 1 using the adapted Bellman operator. In the ensuing inequality, we apply the triangle inequality and bound the first term using the base case. Then, note that
๐ผ ( ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ ) โผ ๐ฅ ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) โข ๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โช ฮ โฒ โฒโฒ ) โผ ๐ฅ ( โ , โ | ๐ ๐ โฒ , ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ ) โข max ๐ ๐ โฒโฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒโฒ , ๐ ๐ โฒโฒ )
is, for some stochastic function ๐ฅ | ฮ โช ฮ โฒ | โฒ , equal to
๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โช ฮ โฒ โฒโฒ ) โผ ๐ฅ | ฮ โช ฮ โฒ | โฒ ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) โข max ๐ ๐ โฒโฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒโฒ , ๐ ๐ โฒโฒ ) ,
where ๐ฅ โฒ is implicitly a function of ๐ ๐ โฒ which is fixed from the beginning.
In the special case where ๐ ๐
๐ ๐ โฒ , we can derive an explicit form of ๐ฅ โฒ which we show in Lemma B.11. As a shorthand, we denote ๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โช ฮ โฒ โฒโฒ ) โผ ๐ฅ | ฮ โช ฮ โฒ | โฒ ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) by ๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โช ฮ โฒ โฒโฒ ) โผ ๐ฅ โฒ .
Therefore,
|
๐ผ
(
๐
๐
โฒ
,
๐
ฮ
โฒ
)
โผ
๐ฅ
๐
^
๐
๐
+
1
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
,
๐
๐
โฒ
)
โ
๐ผ
(
๐
๐
โฒ
,
๐
ฮ
โฒ
โฒ
)
โผ
๐ฅ
๐
^
๐
โฒ
๐
+
1
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
โฒ
,
๐
๐
โฒ
)
|
โค
2
โข
โ
๐
๐
โข
(
โ
,
โ
)
โ
โ
โ
TV
โข
(
๐น
๐
ฮ
,
๐น
๐
ฮ
โฒ
)
+
๐พ
|
๐ผ
(
๐
๐
โฒโฒ
,
๐
ฮ
โช
ฮ
โฒ
โฒโฒ
)
โผ
๐ฅ
โฒ
โข
max
๐
๐
โฒโฒ
โ
๐
๐
โก
๐
^
๐
๐
โข
(
๐
๐
โฒโฒ
,
๐น
๐
ฮ
โฒโฒ
,
๐
๐
โฒโฒ
)
โ
๐ผ
(
๐
๐
โฒโฒ
,
๐
ฮ
โช
ฮ
โฒ
โฒโฒ
)
โผ
๐ฅ
โฒ
max
๐
๐
โฒโฒ
โ
๐
๐
๐
^
๐
โฒ
๐
(
๐
๐
โฒโฒ
,
๐น
๐
ฮ
โฒ
โฒโฒ
,
๐
๐
โฒโฒ
)
|
โค
2
โข
โ
๐
๐
โข
(
โ
,
โ
)
โ
โ
โ
TV
โข
(
๐น
๐
ฮ
,
๐น
๐
ฮ
โฒ
)
+
๐พ
โข
max
๐
๐
โฒโฒ
โ
๐
๐
|
๐ผ
(
๐
๐
โฒโฒ
,
๐
ฮ
โช
ฮ
โฒ
โฒโฒ
)
โผ
๐ฅ
โฒ
โข
๐
^
๐
๐
โข
(
๐
๐
โฒโฒ
,
๐น
๐
ฮ
โฒโฒ
,
๐
๐
โฒโฒ
)
โ
๐ผ
(
๐
๐
โฒโฒ
,
๐
ฮ
โช
ฮ
โฒ
โฒโฒ
)
โผ
๐ฅ
โฒ
๐
^
๐
โฒ
๐
(
๐
๐
โฒโฒ
,
๐น
๐
ฮ
โฒ
โฒโฒ
,
๐
๐
โฒโฒ
)
|
โค
2
โข
โ
๐
๐
โข
(
โ
,
โ
)
โ
โ
โ
TV
โข
(
๐น
๐
ฮ
,
๐น
๐
ฮ
โฒ
)
+
๐พ
โข
(
โ
๐ก
0 ๐ โ 1 2 โข ๐พ ๐ก ) โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
( โ ๐ก
0 ๐ 2 โข ๐พ ๐ก ) โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
The second inequality follows from Lemma B.9 where we set the joint stochastic kernel to be ๐ฅ | ฮ โช ฮ โฒ | โฒ . In the ensuing lines, we concentrate the expectation towards the relevant terms and use the induction assumption for the transition probability functions ๐ฅ ๐ โฒ and ๐ฅ ๐ โฒ โฒ . This proves the lemma. โ
Remark B.4.
Given a joint transition probability function ๐ฅ | ฮ โช ฮ โฒ | as defined in Definition B.1, we can recover the transition function for a single agent ๐ โ ฮ โช ฮ โฒ given by ๐ฅ 1 using the law of total probability and the conditional independence between ๐ ๐ and ๐ ๐ โช ๐ [ ๐ ] โ ๐ in Equation 21. This characterization is crucial in Lemma B.5 and Lemma B.6.
๐ฅ 1 ( โ | ๐ ๐ โฒ , ๐ ๐ , ๐ ๐ , ๐ ๐ )
โ ๐ ฮ โช ฮ โฒ โ ๐ โฒ โผ ๐ฎ ๐ | ฮ โช ฮ โฒ | โ 1 ๐ฅ | ฮ โช ฮ โฒ | ( ๐ ฮ โช ฮ โฒ โ ๐ โฒ , ๐ ๐ โฒ | ๐ ๐ โฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ )
(21) Lemma B.5.
Given a joint transition probability ๐ฅ | ฮ โช ฮ โฒ | as defined in Definition B.1,
TV โข ( ๐ผ ๐ ฮ โช ฮ โฒ โฒ โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ | ๐ ๐ โฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) โข ๐น ๐ ฮ โฒ , ๐ผ ๐ ฮ โช ฮ โฒ โฒ โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ | ๐ ๐ โฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) โข ๐น ๐ ฮ โฒ โฒ ) โค TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
Proof.
Note that from Lemma B.6:
๐ผ ๐ ฮ โช ฮ โฒ โฒ โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ , โ | ๐ ๐ โฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) โข ๐น ๐ ฮ โฒ
๐ผ ๐ ฮ โฒ โผ ๐ฅ | ฮ | ( โ , โ | ๐ ๐ โฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ ) โข ๐น ๐ ฮ โฒ
๐ฅ 1 ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , โ ) ๐น ๐ ฮ
Then, by expanding the TV distance in โ 1 -norm:
TV
(
๐ผ
๐
ฮ
โช
ฮ
โฒ
โฒ
โผ
๐ฅ
|
ฮ
โช
ฮ
โฒ
|
(
โ
|
๐
๐
โฒ
,
๐
๐
,
๐
๐
,
๐
ฮ
โช
ฮ
โฒ
)
โข
๐น
๐
ฮ
โฒ
,
๐ผ
๐
ฮ
โช
ฮ
โฒ
โฒ
โผ
๐ฅ
|
ฮ
โช
ฮ
โฒ
|
(
โ
|
๐
๐
โฒ
,
๐
๐
,
๐
๐
,
๐
ฮ
โช
ฮ
โฒ
)
โข
๐น
๐
ฮ
โฒ
โฒ
)
1
2
โฅ
๐ฅ
1
(
โ
|
๐
๐
(
๐ก
+
1
)
,
๐
๐
(
๐ก
)
,
๐
๐
(
๐ก
)
,
โ
)
๐น
๐
ฮ
โ
๐ฅ
1
(
โ
|
๐
๐
(
๐ก
+
1
)
,
๐
๐
(
๐ก
)
,
๐
๐
(
๐ก
)
,
โ
)
๐น
๐
ฮ
โฒ
โฅ
1
โค
โฅ
๐ฅ
1
(
โ
|
๐
๐
(
๐ก
+
1
)
,
๐
๐
(
๐ก
)
,
๐
๐
(
๐ก
)
,
โ
)
โฅ
1
โ
1
2
โฅ
๐น
๐
ฮ
โ
๐น
๐
ฮ
โฒ
โฅ
1
โค
1
2
โข
โ
๐น
๐
ฮ
โ
๐น
๐
ฮ
โฒ
โ
1
TV โข ( ๐น ๐ ฮ , ๐น ๐ ฮ โฒ )
In the first inequality, we factorize โฅ ๐ฅ 1 ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) ) โฅ 1 from the โ 1 -normed expression by the sub-multiplicativity of the matrix norm. Finally, since ๐ฅ 1 is a column-stochastic matrix, we bound its norm by 1 to recover the total variation distance between ๐น ๐ ฮ and ๐น ๐ ฮ โฒ . โ
Lemma B.6.
Given the joint transition probability ๐ฅ ๐ from Definition B.1:
๐ผ ๐ ฮ โช ฮ โฒ ( ๐ก + 1 ) โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , ๐ ฮ โช ฮ โฒ ( ๐ก ) ) ๐น ๐ ฮ โข ( ๐ก + 1 ) := ๐ฅ 1 ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , โ ) ๐น ๐ ฮ ( ๐ก )
Proof.
First, observe that for all ๐ฅ โ ๐ฎ ๐ :
๐ผ ๐ ฮ โช ฮ โฒ ( ๐ก + 1 ) โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , ๐ ฮ โช ฮ โฒ ( ๐ก ) ) โข ๐น ๐ ฮ โข ( ๐ก + 1 ) โข ( ๐ฅ )
1 | ฮ | โข โ ๐ โ ฮ ๐ผ ๐ ฮ โช ฮ โฒ ( ๐ก + 1 ) โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , ๐ ฮ โช ฮ โฒ ( ๐ก ) ) โข ๐ โข ( ๐ ๐ โข ( ๐ก + 1 )
๐ฅ )
1 | ฮ | โ ๐ โ ฮ Pr [ ๐ ๐ ( ๐ก + 1 )
๐ฅ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , ๐ ฮ โช ฮ โฒ ( ๐ก ) ) ]
1 | ฮ | โ ๐ โ ฮ Pr [ ๐ ๐ ( ๐ก + 1 )
๐ฅ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) ) ]
1 | ฮ | โข โ ๐ โ ฮ ๐ฅ 1 โข ( ๐ฅ | ๐ ๐ โข ( ๐ก + 1 ) , ๐ ๐ โข ( ๐ก ) , ๐ ๐ โข ( ๐ก ) , ๐ ๐ โข ( ๐ก ) )
In the first line, we expand on the definition of ๐น ๐ ฮ โข ( ๐ก + 1 ) โข ( ๐ฅ ) . Finally, we note that ๐ ๐ โข ( ๐ก + 1 ) is conditionally independent to ๐ ฮ โช ฮ โฒ โ ๐ , which yields the equality above. Then, aggregating across every entry ๐ฅ โ ๐ฎ ๐ ,
๐ผ ๐ ฮ โช ฮ โฒ ( ๐ก + 1 ) โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , ๐ ฮ โช ฮ โฒ ( ๐ก ) ) โข ๐น ๐ ฮ โข ( ๐ก + 1 )
1 | ฮ | โ ๐ โ ฮ ๐ฅ 1 ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , โ ) ๐ โ ๐ ๐ โข ( ๐ก )
๐ฅ 1 ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , โ ) ๐น ๐ ฮ
Notably, every ๐ฅ corresponds to a choice of rows in ๐ฅ 1 ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , โ ) and every choice of ๐ ๐ โข ( ๐ก ) corresponds to a choice of columns in ๐ฅ 1 ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , โ ) , making ๐ฅ 1 ( โ | ๐ ๐ ( ๐ก + 1 ) , ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) , โ ) column-stochastic. This yields the claim.โ
Lemma B.7.
The total variation distance between the expected empirical distribution of ๐ ฮ โข ( ๐ก + 1 ) and ๐ ฮ โฒ โข ( ๐ก + 1 ) is linearly bounded by the total variation distance of the empirical distributions of ๐ ฮ โข ( ๐ก ) and ๐ ฮ โฒ โข ( ๐ก ) , for ฮ , ฮ โฒ โ [ ๐ ] :
TV โข ( ๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) ) ,
โ ๐ โ ฮ โข ๐น ๐ ฮ โข ( ๐ก + 1 ) , ๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) ) ,
โ ๐ โ ฮ โฒ โข ๐น ๐ ฮ โฒ โข ( ๐ก + 1 ) ) โค TV โข ( ๐น ๐ ฮ โข ( ๐ก ) , ๐น ๐ ฮ โฒ โข ( ๐ก ) )
Proof.
We expand the total variation distance measure in โ 1 -norm and utilize the result from Lemma B.10 that ๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) )
โ ๐ โ ฮ ๐น ๐ ฮ โข ( ๐ก + 1 )
๐ ๐ ( โ | ๐ ๐ ( ๐ก ) ) ๐น ๐ ฮ โข ( ๐ก ) as follows:
TV
( ๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) )
โ ๐ โ ฮ โข ๐น ๐ ฮ โข ( ๐ก + 1 ) , ๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) )
โ ๐ โ ฮ โฒ โข ๐น ๐ ฮ โฒ โข ( ๐ก + 1 ) )
1 2 โข โ ๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) )
โ ๐ โ ฮ โข ๐น ๐ ฮ โข ( ๐ก + 1 ) โ ๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) )
โ ๐ โ ฮ โฒ โข ๐น ๐ ฮ โฒ โข ( ๐ก + 1 ) โ 1
1
2
โฅ
๐
๐
(
โ
|
โ
,
๐
๐
(
๐ก
)
)
๐น
๐
ฮ
โข
(
๐ก
)
โ
๐
๐
(
โ
|
โ
,
๐
๐
(
๐ก
)
)
๐น
๐
ฮ
โฒ
โข
(
๐ก
)
โฅ
1
โค
โฅ
๐
๐
(
โ
|
โ
,
๐
๐
(
๐ก
)
)
โฅ
1
โ
1
2
|
๐น
๐
ฮ
โข
(
๐ก
)
โ
๐น
๐
ฮ
โฒ
โข
(
๐ก
)
|
1
โฅ ๐ ๐ ( โ | โ , ๐ ๐ ( ๐ก ) ) โฅ 1 โ TV ( ๐น ๐ ฮ โข ( ๐ก ) , ๐น ๐ ฮ โฒ โข ( ๐ก ) )
In the last line, we recover the total variation distance from the โ 1 norm. Finally, by the column stochasticity of ๐ ๐ ( โ | โ , ๐ ๐ ) , we have that โฅ ๐ ๐ ( โ | โ , ๐ ๐ ) โฅ 1 โค 1 , which then implies
TV โข ( ๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) )
โ ๐ โ ฮ โข ๐น ๐ ฮ โข ( ๐ก + 1 ) , ๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) )
โ ๐ โ ฮ โฒ โข ๐น ๐ ฮ โฒ โข ( ๐ก + 1 ) ) โค TV โข ( ๐น ๐ ฮ โข ( ๐ก ) , ๐น ๐ ฮ โฒ โข ( ๐ก ) )
This proves the lemma.โ
Remark B.8.
Lemma B.7 can be viewed as an irreducibility and aperiodicity result on the finite-state Markov chain whose state space is given by ๐ฎ
๐ฎ ๐ ร ๐ฎ ๐ ๐ . Let { ๐ ๐ก } ๐ก โ โ denote the sequence of states visited by this Markov chain where the transitions are induced by the transition functions ๐ ๐ , ๐ ๐ . Through this, Lemma B.7 describes an ergodic behavior of the Markov chain.
Lemma B.9.
The absolute difference between the expected maximums between ๐ ^ ๐ and ๐ ^ ๐ โฒ is atmost the maximum of the absolute difference between ๐ ^ ๐ and ๐ ^ ๐ โฒ , where the expectations are taken over any joint distributions of states ๐ฅ , and the maximums are taken over the actions.
| ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ ) โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) [ max ๐ ๐ โฒ โ ๐ ๐ ๐ ^ ๐ ๐ ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ )
โ max ๐ ๐ โฒ โ ๐ ๐ ๐ ^ ๐ โฒ ๐ ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ ) ] |
โค max ๐ ๐ โฒ โ ๐ ๐ | ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ ) โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) [ ๐ ^ ๐ ๐ ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ )
โ ๐ ^ ๐ โฒ ๐ ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ ) ] |
Proof.
๐ ๐ โ := arg โก max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) , ๐ ~ ๐ โ := arg โก max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ )
For the remainder of this proof, we adopt the shorthand ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ to refer to ๐ผ ( ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ ) โผ ๐ฅ | ฮ โช ฮ โฒ | ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ โช ฮ โฒ ) .
Then, if ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ )
0 , we have:
| ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ ) |
๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โ ) โ ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ~ ๐ โ )
โค ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โ ) โ ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โ )
โค max ๐ ๐ โฒ โ ๐ ๐ โก | ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ ) |
Similarly, if ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) โ ๐ผ ๐ ๐ โฒ , ๐ ฮ โช ฮ โฒ โฒ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ โฒ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ โฒ , ๐ ๐ โฒ ) < 0 , an analogous argument by replacing ๐ ๐ โ with ๐ ~ ๐ โ yields an identical bound. โ
Lemma B.10.
For all ๐ก โ โ and ฮ โ [ ๐ ] ,
๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) )
โ ๐ โ ฮ [ ๐น ๐ ฮ โข ( ๐ก + 1 ) ]
๐ ๐ ( โ | โ , ๐ ๐ ( ๐ก ) ) ๐น ๐ ฮ โข ( ๐ก )
Proof.
For all ๐ฅ โ ๐ฎ ๐ :
๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) )
โ
๐
โ
ฮ
โข
[
๐น
๐
ฮ
โข
(
๐ก
+
1
)
โข
(
๐ฅ
)
]
:=
1
|
ฮ
|
โข
โ
๐
โ
ฮ
๐ผ
๐
๐
โข
(
๐ก
+
1
)
โผ
๐
๐
โข
(
๐
๐
โข
(
๐ก
)
,
๐
๐
โข
(
๐ก
)
)
โข
[
๐
โข
(
๐
๐
โข
(
๐ก
+
1
)
๐ฅ ) ]
1 | ฮ | โ ๐ โ ฮ Pr [ ๐ ๐ ( ๐ก + 1 )
๐ฅ | ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) ) ]
1 | ฮ | โข โ ๐ โ ฮ ๐ ๐ โข ( ๐ฅ | ๐ ๐ โข ( ๐ก ) , ๐ ๐ โข ( ๐ก ) )
In the first line, we are writing out the definition of ๐น ๐ ฮ โข ( ๐ก + 1 ) โข ( ๐ฅ ) and using the conditional independence in the evolutions of ฮ โ ๐ and ๐ . In the second line, we use the fact that for any random variable ๐ โ ๐ณ , ๐ผ ๐ โข ๐ โข [ ๐
๐ฅ ]
Pr โก [ ๐
๐ฅ ] . In line 3, we observe that the above probability can be written as an entry of the local transition matrix ๐ ๐ . Then, aggregating across every entry ๐ฅ โ ๐ฎ ๐ , we have that:
๐ผ ๐ ๐ ( ๐ก + 1 ) โผ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) )
โ ๐ โ ฮ โข [ ๐น ๐ ฮ โข ( ๐ก + 1 ) ]
1 | ฮ | โ ๐ โ ฮ ๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) )
1 | ฮ | โ ๐ โ ฮ ๐ ๐ ( โ | โ , ๐ ๐ ( ๐ก ) ) ๐ โ ๐ ๐ โข ( ๐ก )
: ๐ ๐ ( โ | โ , ๐ ๐ ( ๐ก ) ) ๐น ๐ ฮ โข ( ๐ก )
Here, ๐ โ ๐ ๐ โข ( ๐ก ) โ { 0 , 1 } | ๐ฎ ๐ | such that ๐ โ ๐ ๐ โข ( ๐ก ) is 1 at the index corresponding to ๐ ๐ โข ( ๐ก ) , and is 0 everywhere else. The last equality follows since ๐ ๐ ( โ | โ , ๐ ๐ ( ๐ก ) ) is a column-stochastic matrix which yields that ๐ ๐ ( โ | โ , ๐ ๐ ( ๐ก ) ) ๐ โ ๐ ๐ โข ( ๐ก )
๐ ๐ ( โ | ๐ ๐ ( ๐ก ) , ๐ ๐ ( ๐ก ) ) , thus proving the lemma.โ
Lemma B.11.
For any joint transition probability function on ๐ ๐ , ๐ ฮ , where | ฮ |
๐ , given by ๐ฅ ๐ : ๐ฎ ๐ ร ๐ฎ ๐ | ฮ | ร ๐ฎ ๐ ร ๐ ๐ ร ๐ฎ ๐ | ฮ | โ [ 0 , 1 ] , we have:
๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โผ ๐ฅ ๐ ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ ) โข [ ๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ ) โผ ๐ฅ ๐ ( โ , โ | ๐ ๐ โฒ , ๐ ๐ , ๐ ฮ โฒ ) โข max ๐ ๐ โฒโฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒโฒ , ๐ ๐ โฒโฒ ) ]
๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ ) โผ ๐ฅ ๐ 2 ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ ) โข max ๐ ๐ โฒโฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒโฒ , ๐ ๐ โฒโฒ )
Proof.
We start by expanding the expectations:
๐ผ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โผ ๐ฅ ๐ ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ ) โข [ ๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ ) โผ ๐ฅ ๐ ( โ , โ | ๐ ๐ โฒ , ๐ ๐ , ๐ ฮ โฒ ) โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒโฒ , ๐ ๐ โฒ ) ]
โ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โ ๐ฎ ๐ ร ๐ฎ ๐ | ฮ | โ ( ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ ) โ ๐ฎ ๐ ร ๐ฎ ๐ | ฮ | ๐ฅ ๐ โข [ ๐ ๐ โฒ , ๐ ฮ โฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ ] โข ๐ฅ ๐ โข [ ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ , ๐ ๐ โฒ , ๐ ๐ , ๐ ฮ โฒ ] โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒโฒ , ๐ ๐ โฒ )
โ ( ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ ) โ ๐ฎ ๐ ร ๐ฎ ๐ | ฮ | ๐ฅ ๐ 2 โข [ ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ ] โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒโฒ , ๐ ๐ โฒ )
๐ผ ( ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ ) โผ ๐ฅ ๐ 2 ( โ , โ | ๐ ๐ , ๐ ๐ , ๐ ฮ ) โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โข ( ๐ ๐ โฒโฒ , ๐น ๐ ฮ โฒโฒ , ๐ ๐ โฒ )
The right-stochasticity of ๐ฅ ๐ implies the right-stochasticity of ๐ฅ ๐ 2 . Further, observe that ๐ฅ ๐ โข [ ๐ ๐ โฒ , ๐ ฮ โฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ ] โข ๐ฅ ๐ โข [ ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ , ๐ ๐ โฒ , ๐ ๐ , ๐ ฮ โฒ ] denotes the probability of the transitions ( ๐ ๐ , ๐ ฮ ) โ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โ ( ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ ) with actions ๐ ๐ at each step, where the joint state evolution is governed by ๐ฅ ๐ . Thus, โ ( ๐ ๐ โฒ , ๐ ฮ โฒ ) โ ๐ฎ ๐ ร ๐ฎ ๐ | ฮ | ๐ฅ ๐ โข [ ๐ ๐ โฒ , ๐ ฮ โฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ ] โข ๐ฅ ๐ โข [ ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ , ๐ ๐ โฒ , ๐ ๐ , ๐ ๐ โฒ ] is the stochastic probability function corresponding to the two-step evolution of the joint states from ( ๐ ๐ , ๐ ฮ ) to ( ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ ) under the action ๐ ๐ , which is equivalent to ๐ฅ ๐ 2 โข [ ๐ ๐ โฒโฒ , ๐ ฮ โฒโฒ , ๐ ๐ , ๐ ๐ , ๐ ฮ ] . In the third equality, we recover the definition of the expectation, where the joint probabilities are taken over ๐ฅ ๐ 2 . โ
The following lemma bounds the average difference between ๐ ^ ๐ ๐ (across every choice of ฮ โ ( [ ๐ ] ๐ ) ) and ๐ โ and shows that the difference decays to 0 as ๐ โ โ .
Lemma B.12.
For all ๐ โ ๐ฎ ๐ ร ๐ฎ [ ๐ ] , and for all ๐ ๐ โ ๐ ๐ , we have:
๐ โ โข ( ๐ , ๐ ๐ ) โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ ^ ๐ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) โค ๐พ ๐ โข ๐ ~ 1 โ ๐พ
Proof.
We bound the differences between ๐ ^ ๐ ๐ at each Bellman iteration of our approximation to ๐ โ .
๐ โ โข ( ๐ , ๐ ๐ ) โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ ^ ๐ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
๐ฏ โข ๐ โ โข ( ๐ , ๐ ๐ ) โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ฏ ^ ๐ โข ๐ ^ ๐ ๐ โ 1 โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ )
๐ [ ๐ ] โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ ) + ๐พ โข ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) ,
๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , โ ๐ โ [ ๐ ] ) โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ โ โข ( ๐ โฒ , ๐ ๐ โฒ )
โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) [ ๐ [ ฮ ] โข ( ๐ ๐ , ๐ ฮ , ๐ ๐ ) + ๐พ โข ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ )
๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , โ ๐ โ ฮ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ๐ ๐ โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) ]
Next, observe that ๐ [ ๐ ] โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ )
1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ [ ฮ ] โข ( ๐ ๐ , ๐ ฮ , ๐ ๐ ) . To prove this, we write:
1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ [ ฮ ] โข ( ๐ ๐ , ๐ ฮ , ๐ ๐ )
1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ( ๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) + 1 ๐ โข โ ๐ โ ฮ ๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) )
๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) + ( ๐ โ 1 ๐ โ 1 ) ๐ โข ( ๐ ๐ ) โข โ ๐ โ [ ๐ ] ๐ ๐ โข ( ๐ ๐ , ๐ ๐ )
๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) + 1 ๐ โข โ ๐ โ [ ๐ ] ๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) := ๐ [ ๐ ] โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ )
In the second equality, we reparameterized the sum to count the number of times each ๐ ๐ โข ( ๐ ๐ , ๐ ๐ ) was added for each ๐ โ ฮ , and in the last equality, we expanded and simplified the binomial coefficients. Therefore:
sup ( ๐ , ๐ ๐ ) โ ๐ฎ ร ๐ ๐ [ ๐ โ โข ( ๐ , ๐ ๐ ) โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ ^ ๐ ๐ โข ( ๐ ๐ , ๐น ๐ [ ๐ ] , ๐ ๐ ) ]
sup ( ๐ , ๐ ๐ ) โ ๐ฎ ร ๐ ๐ [ ๐ฏ โข ๐ โ โข ( ๐ , ๐ ๐ ) โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ฏ ^ ๐ โข ๐ ^ ๐ ๐ โ 1 โข ( ๐ ๐ , ๐น ๐ [ ๐ ] , ๐ ๐ ) ]
๐พ โข sup ( ๐ , ๐ ๐ ) โ ๐ฎ ร ๐ ๐ [ ๐ผ ๐ ๐ โฒ โผ ๐ ( โ | ๐ ๐ , ๐ ๐ )
๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ )
โ ๐ โ [ ๐ ] โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ โ โข ( ๐ โฒ , ๐ ๐ โฒ ) โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ )
๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ )
โ ๐ โ ฮ โข max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โ 1 โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) ]
๐พ โข sup ( ๐ , ๐ ๐ ) โ ๐ฎ ร ๐ ๐ ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) ,
๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , โ ๐ โ [ ๐ ] โข [ max ๐ ๐ โฒ โ ๐ ๐ โก ๐ โ โข ( ๐ โฒ , ๐ ๐ โฒ ) โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) max ๐ ๐ โฒ โ ๐ ๐ โก ๐ ^ ๐ ๐ โ 1 โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) ]
โค ๐พ โข sup ( ๐ , ๐ ๐ ) โ ๐ฎ ร ๐ ๐ ๐ผ ๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) ,
๐ ๐ โฒ โผ ๐ ๐ ( โ | ๐ ๐ , ๐ ๐ ) , โ ๐ โ [ ๐ ] โข max ๐ ๐ โฒ โ ๐ ๐ โก [ ๐ โ โข ( ๐ โฒ , ๐ ๐ โฒ ) โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ ^ ๐ ๐ โ 1 โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) ]
โค ๐พ โข sup ( ๐ โฒ , ๐ ๐ โฒ ) โ ๐ฎ ร ๐ ๐ [ ๐ โ โข ( ๐ โฒ , ๐ ๐ โฒ ) โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ ^ ๐ ๐ โ 1 โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ๐ โฒ ) ]
We justify the first inequality by noting the general property that for positive vectors ๐ฃ , ๐ฃ โฒ for which ๐ฃ โชฐ ๐ฃ โฒ which follows from the triangle inequality:
โ
๐ฃ
โ
1
(
๐
๐
)
โข
โ
ฮ
โ
(
[
๐
]
๐
)
๐ฃ
โฒ
โ
โ
โฅ
|
โ
๐ฃ
โ
โ
โ
โ
1
(
๐
๐
)
โข
โ
ฮ
โ
(
[
๐
]
๐
)
๐ฃ
โฒ
โ
โ
|
โ ๐ฃ โ โ โ โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ฃ โฒ โ โ
โฅ โ ๐ฃ โ โ โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) โ ๐ฃ โฒ โ โ
Therefore:
๐
โ
โข
(
๐
,
๐
๐
)
โ
1
(
๐
๐
)
โข
โ
ฮ
โ
(
[
๐
]
๐
)
๐
^
๐
๐
โข
(
๐
๐
,
๐น
๐
ฮ
,
๐
๐
)
โค
๐พ
๐
โข
sup
(
๐
โฒ
,
๐
๐
)
โ
๐ฎ
ร
๐
๐
[
๐
โ
โข
(
๐
โฒ
,
๐
๐
โฒ
)
โ
1
(
๐
๐
)
โข
โ
ฮ
โ
(
[
๐
]
๐
)
๐
^
๐
0
โข
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
,
๐
๐
โฒ
)
]
๐พ ๐ โข ๐ ~ 1 โ ๐พ
The first inequality follows from the ๐พ -contraction property of the update procedure, and the ensuing equality follows from our bound on the maximum possible value of ๐ from Lemma A.7 and noting that ๐ ^ ๐ 0 := 0 . Therefore, as ๐ โ โ , ๐ โ โข ( ๐ , ๐ ๐ ) โ 1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) ๐ ^ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) โ 0 , which proves the lemma.โ
Appendix CBounding Total Variation Distance
As | ฮ | โ ๐ , the total variation (TV) distance between the empirical distribution of ๐ [ ๐ ] and ๐ ฮ goes to 0 . We formalize this notion and prove this statement by obtaining tight bounds on the difference and showing that this error decays quickly.
Remark C.1.
First, observe that if ฮ is an independent random variable uniformly supported on ( [ ๐ ] ๐ ) , then ๐ ฮ is also an independent random variable uniformly supported on the global state ( ๐ [ ๐ ] ๐ ) . To see this, let ๐ 1 : [ ๐ ] โ ๐ฎ ๐ where ๐ โข ( ๐ )
๐ ๐ . This naturally extends to ๐ ๐ : [ ๐ ] ๐ โ ๐ฎ ๐ ๐ given by ๐ ๐ โข ( ๐ 1 , โฆ , ๐ ๐ )
( ๐ ๐ 1 , โฆ , ๐ ๐ ๐ ) , for all ๐ โ [ ๐ ] . Then, the independence of ฮ implies the independence of the generated ๐ -algebra. Further, ๐ ๐ (which is a Lebesgue measurable function of a ๐ -algebra) is a sub-algebra, implying that ๐ ฮ must also be an independent random variable.
For reference, we present the multidimensional Dvoretzky-Kiefer-Wolfowitz (DKW) inequality Dvoretzky et al. (1956); Massart (1990); Naaman (2021) which bounds the difference between an empirical distribution function for ๐ ฮ and ๐ [ ๐ ] when each element of ฮ for | ฮ |
๐ is sampled uniformly randomly from [ ๐ ] with replacement.
Theorem C.2 (Dvoretzky-Kiefer-Wolfowitz (DFW) inequality Dvoretzky et al. (1956)).
By the multi-dimensional version of the DKW inequality Naaman (2021), assume that ๐ฎ ๐ โ โ ๐ . Then, for any ๐
0 , the following statement holds for when ฮ โ [ ๐ ] is sampled uniformly with replacement.
Pr [ sup ๐ฅ โ ๐ฎ ๐ | 1 | ฮ | โ ๐ โ ฮ ๐ { ๐ ๐
๐ฅ } โ 1 ๐ โ ๐
1 ๐ ๐ { ๐ ๐
๐ฅ } | < ๐ ] โฅ 1 โ ๐ ( ๐ + 1 ) ๐ โ 2 โข | ฮ | โข ๐ 2 โ
We give an analogous bound for the case when ฮ is sampled uniformly from [ ๐ ] without replacement. However, our bound does not have a dependency on ๐ , the dimension of ๐ฎ ๐ which allows us to consider non-numerical state-spaces.
Before giving the proof, we add a remark on this problem. Intuitively, when samples are chosen without replacement from a finite population, the marginal distribution, when conditioned on the random variable chosen, takes the running empirical distribution closer to the true distribution with high probability. However, we need a uniform probabilistic bound on the error that adapts to worst-case marginal distributions and decays with ๐ .
Recall the landmark results of Hoeffding and Serfling in Hoeffding (1963) and Serfling (1974) which we restate below.
Lemma C.3 (Lemma 4, Hoeffding).
Given a finite population, note that for any convex and continuous function ๐ : โ โ โ , if ๐
{ ๐ฅ 1 , โฆ , ๐ฅ ๐ } denotes a sample with replacement and ๐
{ ๐ฆ 1 , โฆ , ๐ฆ ๐ } denotes a sample without replacement, then:
๐ผ โข ๐ โข ( โ ๐ โ ๐ ๐ ) โค ๐ผ โข ๐ โข ( โ ๐ โ ๐ ๐ )
Lemma C.4 (Corollary 1.1, Serfling).
Suppose the finite subset ๐ณ โ โ such that | ๐ณ |
๐ is bounded between [ ๐ , ๐ ] . Then, let ๐
( ๐ฅ 1 , โฆ , ๐ฅ ๐ ) be a random sample of ๐ณ of size ๐ chosen uniformly and without replacement. Denote ๐ := 1 ๐ โข โ ๐
1 ๐ ๐ฅ ๐ . Then:
Pr โก [ | 1 ๐ โข โ ๐
1 ๐ ๐ฅ ๐ โ ๐ |
๐ ] < 2 โข ๐ โ 2 โข ๐ โข ๐ 2 ( ๐ โ ๐ ) 2 โข ( 1 โ ๐ โ 1 ๐ )
We now present a sampling without replacement analog of the DKW inequality.
Theorem C.5 (Sampling without replacement analogue of the DKW inequality).
Consider a finite population ๐ณ
( ๐ฅ 1 , โฆ , ๐ฅ ๐ ) โ ๐ฎ ๐ ๐ . Let ฮ โ [ ๐ ] be a random sample of size ๐ chosen uniformly and without replacement.
Then, for all ๐ฅ โ ๐ฎ ๐ :
Pr โก [ sup ๐ฅ โ ๐ฎ ๐ | 1 | ฮ | โข โ ๐ โ ฮ ๐ โข { ๐ฅ ๐
๐ฅ } โ 1 ๐ โข โ ๐ โ [ ๐ ] ๐ โข { ๐ฅ ๐
๐ฅ } | < ๐ ] โฅ 1 โ 2 โข | ๐ฎ ๐ | โข ๐ โ 2 โข | ฮ | โข ๐ โข ๐ 2 ๐ โ | ฮ | + 1
Proof.
For each ๐ฅ โ ๐ฎ ๐ , define the โ ๐ฅ -surrogate populationโ of indicator variables as
๐ณ ยฏ ๐ฅ
( ๐ { ๐ฅ 1
๐ฅ } , โฆ , ๐ { ๐ฅ ๐
๐ฅ } ) โ { 0 , 1 } ๐
(22)
Since the maximal difference between each element in this surrogate population is 1 , we set ๐ โ ๐
1 in Lemma C.4 when applied to ๐ณ ยฏ ๐ฅ to get:
Pr โก [ | 1 | ฮ | โข โ ๐ โ ฮ ๐ โข { ๐ฅ ๐
๐ฅ } โ 1 ๐ โข โ ๐ โ [ ๐ ] ๐ โข { ๐ฅ ๐
๐ฅ } | < ๐ ] โฅ 1 โ 2 โข ๐ โ 2 โข | ฮ | โข ๐ โข ๐ 2 ๐ โ | ฮ | + 1
In the above equation, the probability is over ฮ โ ( [ ๐ ] ๐ ) and it holds for each ๐ฅ โ ๐ฎ ๐ . Therefore, the randomness is only over ฮ . Then, by a union bounding argument, we have:
Pr [ sup ๐ฅ โ ๐ฎ ๐ | 1 | ฮ | โ ๐ โ ฮ ๐ { ๐ฅ ๐
๐ฅ
}
โ
1
๐
โ
๐
โ
[
๐
]
๐
{
๐ฅ
๐
๐ฅ } | < ๐ ]
Pr โก [ โ ๐ฅ โ ๐ฎ ๐ { | 1 | ฮ | โข โ ๐ โ ฮ ๐ โข { ๐ฅ ๐
๐ฅ } โ 1 ๐ โข โ ๐ โ [ ๐ ] ๐ โข { ๐ฅ ๐
๐ฅ } | < ๐ } ]
1 โ โ ๐ฅ โ ๐ฎ ๐ Pr โก [ | 1 | ฮ | โข โ ๐ โ ฮ ๐ โข { ๐ฅ ๐
๐ฅ } โ 1 ๐ โข โ ๐ โ [ ๐ ] ๐ โข { ๐ฅ ๐
๐ฅ } | โฅ ๐ ]
โฅ 1 โ 2 โข | ๐ฎ ๐ | โข ๐ โ 2 โข | ฮ | โข ๐ โข ๐ 2 ๐ โ | ฮ | + 1
This proves the claim.โ
Then, combining the Lipschitz continuity bound from Theorem 4.1 and the total variation distance bound from Theorem 4.2 yields Theorem C.6.
Theorem C.6.
For all ๐ ๐ โ ๐ฎ ๐ , ๐ 1 , โฆ , ๐ ๐ โ ๐ฎ ๐ ๐ , ๐ ๐ โ ๐ ๐ , we have that with probability atleast 1 โ ๐ฟ :
| ๐ ^ ๐ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) โ ๐ ^ ๐ ๐ โข ( ๐ ๐ , ๐น ๐ [ ๐ ] , ๐ ๐ ) | โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ 1 โ ๐พ โข ๐ โ | ฮ | + 1 8 โข ๐ โข | ฮ | โข ln โก ( 2 โข | ๐ฎ ๐ | / ๐ฟ )
Proof.
By the definition of total variation distance, observe that
TV โข ( ๐น ๐ ฮ , ๐น ๐ [ ๐ ] ) โค ๐ โ sup ๐ฅ โ ๐ฎ ๐ | ๐น ๐ ฮ โ ๐น ๐ [ ๐ ] | < 2 โข ๐
(23)
Then, let ๐ณ
๐ฎ ๐ be the finite population in Theorem C.5 and recall the Lipschitz-continuity of ๐ ^ ๐ ๐ from Theorem B.2:
|
๐
^
๐
๐
โข
(
๐
๐
,
๐น
๐
ฮ
,
๐
๐
)
โ
๐
^
๐
๐
โข
(
๐
๐
,
๐น
๐
[
๐
]
,
๐
๐
)
|
โค
(
โ
๐ก
0 ๐ โ 1 2 โข ๐พ ๐ก ) โข โ ๐ ๐ โข ( โ , โ ) โ โ โ TV โข ( ๐น ๐ ฮ , ๐น ๐ [ ๐ ] )
โค 2 1 โ ๐พ โข โ ๐ ๐ โข ( โ , โ ) โ โ โ ๐
By setting the error parameter in Theorem C.5 to 2 โข ๐ , we find that Equation 23 occurs with probability at least 1 โ 2 โข | ๐ฎ ๐ | โข ๐ โ 2 โข | ฮ | โข ๐ โข ๐ 2 / ( ๐ โ | ฮ | + 1 ) .
Pr โก [ | ๐ ^ ๐ ๐ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) โ ๐ ^ ๐ ๐ โข ( ๐ ๐ , ๐น ๐ [ ๐ ] , ๐ ๐ ) | โค 2 โข ๐ 1 โ ๐พ โข โ ๐ ๐ โข ( โ , โ ) โ โ ] โฅ 1 โ 2 โข | ๐ฎ ๐ | โข ๐ โ 8 โข ๐ โข | ฮ | โข ๐ 2 ๐ โ | ฮ | + 1
Finally, we parameterize the probability to 1 โ ๐ฟ to solve for ๐ , which yields
๐
๐ โ | ฮ | + 1 8 โข ๐ โข | ฮ | โข ln โก ( 2 โข | ๐ฎ ๐ | / ๐ฟ ) .
This proves the theorem.โ
The following lemma is not used in the main result; however, we include it to demonstrate why popular TV-distance bounding methods using the Kullback-Liebler (KL) divergence and the Bretagnolle-Huber inequality Tsybakov (2008) only yield results with a suboptimal subtractive decay of | ฮ | / ๐ . In comparison, Theorem 4.2 achieves a stronger multiplicative decay of 1 / | ฮ | .
Lemma C.7.
TV โข ( ๐น ๐ ฮ , ๐น ๐ [ ๐ ] ) โค 1 โ | ฮ | / ๐
Proof.
By the symmetry of the total variation distance, we have TV โข ( ๐น ๐ [ ๐ ] , ๐น ๐ ฮ )
TV โข ( ๐น ๐ ฮ , ๐น ๐ [ ๐ ] ) .
From the Bretagnolle-Huber inequality Tsybakov (2008) we have that TV โข ( ๐ , ๐ )
1 โ ๐ โ ๐ท KL โข ( ๐ โฅ ๐ ) . Here, ๐ท KL โข ( ๐ โฅ ๐ ) is the Kullback-Leibler (KL) divergence metric between probability distributions ๐ and ๐ over the sample space, which we denote by ๐ณ and is given by
๐ท KL โข ( ๐ โฅ ๐ ) := โ ๐ฅ โ ๐ณ ๐ โข ( ๐ฅ ) โข ln โก ๐ โข ( ๐ฅ ) ๐ โข ( ๐ฅ )
(24)
Thus, from Equation 24:
๐ท KL โข ( ๐น ๐ ฮ โฅ ๐น ๐ [ ๐ ] )
โ ๐ฅ โ ๐ฎ ๐ ( 1 | ฮ | โข โ ๐ โ ฮ ๐ โข { ๐ ๐
๐ฅ } ) โข ln โก ๐ โข โ ๐ โ ฮ ๐ โข { ๐ ๐
๐ฅ } | ฮ | โข โ ๐ โ [ ๐ ] ๐ โข { ๐ ๐
๐ฅ }
1 | ฮ | โข โ ๐ฅ โ ๐ฎ ๐ ( โ ๐ โ ฮ ๐ โข { ๐ ๐
๐ฅ
}
)
โข
ln
โก
๐
|
ฮ
|
+
1
|
ฮ
|
โข
โ
๐ฅ
โ
๐ฎ
๐
(
โ
๐
โ
ฮ
๐
โข
{
๐
๐
๐ฅ } ) โข ln โก โ ๐ โ ฮ ๐ โข { ๐ ๐
๐ฅ } โ ๐ โ [ ๐ ] ๐ โข { ๐ ๐
๐ฅ }
ln โก ๐ | ฮ | + 1 | ฮ | โข โ ๐ฅ โ ๐ฎ ๐ ( โ ๐ โ ฮ ๐ โข { ๐ ๐
๐ฅ } ) โข ln โก โ ๐ โ ฮ ๐ โข { ๐ ๐
๐ฅ } โ ๐ โ [ ๐ ] ๐ โข { ๐ ๐
๐ฅ }
โค ln โก ( ๐ / | ฮ | )
In the third line, we note that โ ๐ฅ โ ๐ฎ ๐ โ ๐ โ ฮ ๐ โข { ๐ ๐
๐ฅ }
| ฮ | since each local agent contained in ฮ must have some state contained in ๐ฎ ๐ . In the last line, we note that โ ๐ โ ฮ ๐ โข { ๐ ๐
๐ฅ } โค โ ๐ โ [ ๐ ] ๐ โข { ๐ ๐
๐ฅ } , For all ๐ฅ โ ๐ฎ ๐ , and thus the summation of logarithmic terms in the third line is negative. Finally, using this bound in the Bretagnolle-Huber inequality yields the lemma.โ
Appendix DUsing the Performance Difference Lemma to Bound the Optimality Gap
Recall from Definition A.13 that the fixed-point of the empirical adapted Bellman operator ๐ฏ ^ ๐ , ๐ is ๐ ^ ๐ , ๐ est . Further, recall from Lemma 3.3 that โ ๐ ^ ๐ โ โ ๐ ^ ๐ , ๐ est โ โ โค ๐ ๐ , ๐ .
Lemma D.1.
Fix ๐ โ ๐ฎ := ๐ฎ ๐ ร ๐ฎ ๐ ๐ . Suppose we are given a ๐ -length sequence of i.i.d. random variables ฮ 1 , โฆ , ฮ ๐ , distributed uniformly over the support ( [ ๐ ] ๐ ) . Further, suppose we are given a fixed sequence ๐ฟ 1 , โฆ , ๐ฟ ๐ โ ( 0 , 1 ) . Then, for each action ๐ ๐ โ ๐ ๐ and for ๐ โ [ ๐ ] , define events ๐ต ๐ ๐ ๐ such that:
๐ต ๐ ๐ ๐ := { | ๐ โ โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ ) โ ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ ๐ , ๐ ๐ ) |
๐ โ ๐ + 1 8 โข ๐ โข ๐ โข ln โก 2 โข | ๐ฎ ๐ | ๐ฟ ๐ โ 2 1 โ ๐พ โข โ ๐ ๐ โข ( โ , โ ) โ โ + ๐ ๐ , ๐ }
Next, for ๐ โ [ ๐ ] , we define โbad-eventsโ ๐ต ๐ such that ๐ต ๐
โ ๐ ๐ โ ๐ ๐ ๐ต ๐ ๐ ๐ . Next, denote ๐ต
โช ๐
1 ๐ ๐ต ๐ . Then, the probability that no โbad eventโ occurs is:
Pr โก [ ๐ต ยฏ ] โฅ 1 โ | ๐ ๐ | โข โ ๐
1 ๐ ๐ฟ ๐
Proof.
| ๐ โ โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ ) โ ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) |
โค | ๐ โ โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ ) โ ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) |
- | ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) โ ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) |
โค | ๐ โ โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ ) โ ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) | + ๐ ๐ , ๐
The first inequality above follows from the triangle inequality, and the second inequality uses | ๐ โ โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ ) โ ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) | โค โ ๐ โ โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ ) โ ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) โ โ โค ๐ ๐ , ๐ , where ๐ ๐ , ๐ is defined in Lemma 3.3. Then, from Theorem C.6, we have that with probability at least 1 โ ๐ฟ ๐ ,
| ๐ โ โข ( ๐ ๐ , ๐ [ ๐ ] , ๐ ๐ ) โ ๐ ^ ๐ โ โข ( ๐ ๐ , ๐น ๐ ฮ , ๐ ๐ ) | โค ๐ โ ๐ + 1 8 โข ๐ โข ๐ โข ln โก 2 โข | ๐ฎ ๐ | ๐ฟ ๐ โ 2 1 โ ๐พ โข โ ๐ ๐ โข ( โ , โ ) โ โ
So, event ๐ต ๐ occurs with probability atmost ๐ฟ ๐ . Thus, by repeated applications of the union bound, we get:
Pr
โก
[
๐ต
ยฏ
]
โฅ
1
โ
โ
๐
1
๐
โ
๐
๐
โ
๐
๐
Pr
โก
[
๐ต
๐
๐
๐
]
โฅ
1
โ
|
๐
๐
|
โข
โ
๐
1 ๐ Pr โก [ ๐ต ๐ ๐ ๐ ]
Finally, substituting Pr โก [ ๐ต ยฏ ๐ ๐ ๐ ] โค ๐ฟ ๐ yields the lemma. โ
Recall that for any ๐ โ ๐ฎ := ๐ฎ ๐ ร ๐ฎ ๐ ๐ โ ๐ฎ ๐ , the policy function ๐ ๐ , ๐ est โข ( ๐ ) is defined as a uniformly random element in the maximal set of ๐ ^ ๐ , ๐ est evaluated on all possible choices of ฮ . Formally:
๐ ๐ , ๐ est โข ( ๐ ) โผ ๐ฐ โข { ๐ ^ ๐ , ๐ est โข ( ๐ ๐ , ๐น ๐ ฮ ) : ฮ โ ( [ ๐ ] ๐ ) }
(25)
We now use the celebrated performance difference lemma from Kakade & Langford (2002), restated below for convenience in Theorem D.2, to bound the value functions generated between ๐ ๐ , ๐ est and ๐ โ .
Theorem D.2 (Performance Difference Lemma).
Given policies ๐ 1 , ๐ 2 , with corresponding value functions ๐ ๐ 1 , ๐ ๐ 2 :
๐ ๐ 1 โข ( ๐ ) โ ๐ ๐ 2 โข ( ๐ )
1 1 โ ๐พ โข ๐ผ ๐ โฒ โผ ๐ ๐ ๐ 1
๐ โฒ โผ ๐ 1 ( โ | ๐ โฒ ) โข [ ๐ด ๐ 2 โข ( ๐ โฒ , ๐ โฒ ) ]
Here, ๐ด ๐ 2 โข ( ๐ โฒ , ๐ โฒ ) := ๐ ๐ 2 โข ( ๐ โฒ , ๐ โฒ ) โ ๐ ๐ 2 โข ( ๐ โฒ ) and ๐ ๐ ๐ 1 โข ( ๐ โฒ )
( 1 โ ๐พ ) โข โ โ
0 โ ๐พ โ โข Pr โ ๐ 1 โก [ ๐ โฒ , ๐ ] where Pr โ ๐ 1 โก [ ๐ โฒ , ๐ ] is the probability of ๐ 1 reaching state ๐ โฒ at time step โ starting from state ๐ .
Theorem D.3 (Bounding value difference).
For any ๐ โ ๐ฎ := ๐ฎ ๐ ร ๐ฎ ๐ ๐ and ( ๐ฟ 1 , ๐ฟ 2 ) โ ( 0 , 1 ] 2 , we have:
๐ ๐ โ โข ( ๐ ) โ ๐ ๐ ๐ , ๐ est โข ( ๐ ) โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ ( 1 โ ๐พ ) 2 โข ๐ โ ๐ + 1 2 โข ๐ โข ๐ โข ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 1 + 2 โข ๐ ~ ( 1 โ ๐พ ) 2 โข | ๐ ๐ | โข ๐ฟ 1 + 2 โข ๐ ๐ , ๐ 1 โ ๐พ
Proof.
Note that by definition of the advantage function, we have:
๐ผ ๐ โฒ โผ ๐ ๐ , ๐ est ( โ | ๐ โฒ ) โข ๐ด ๐ โ โข ( ๐ โฒ , ๐ โฒ )
๐ผ ๐ โฒ โผ ๐ ๐ , ๐ est ( โ | ๐ โฒ ) โข [ ๐ ๐ โ โข ( ๐ โฒ , ๐ โฒ ) โ ๐ ๐ โ โข ( ๐ โฒ ) ]
๐ผ ๐ โฒ โผ ๐ ๐ , ๐ est ( โ | ๐ โฒ ) โข [ ๐ ๐ โ โข ( ๐ โฒ , ๐ โฒ ) โ ๐ผ ๐ โผ ๐ โ ( โ | ๐ โฒ ) โข ๐ ๐ โ โข ( ๐ โฒ , ๐ ) ]
๐ผ ๐ โฒ โผ ๐ ๐ , ๐ est ( โ | ๐ โฒ ) โข ๐ผ ๐ โผ ๐ โ ( โ | ๐ โฒ ) โข [ ๐ ๐ โ โข ( ๐ โฒ , ๐ โฒ ) โ ๐ ๐ โ โข ( ๐ โฒ , ๐ ) ]
Since ๐ โ is a deterministic policy, we can write:
๐ผ ๐ โฒ โผ ๐ ๐ , ๐ est ( โ | ๐ โฒ ) โข ๐ผ ๐ โผ ๐ โ ( โ | ๐ โฒ ) โข ๐ด ๐ โ โข ( ๐ โฒ , ๐ โฒ )
๐ผ ๐ โฒ โผ ๐ ๐ , ๐ est ( โ | ๐ โฒ ) โข [ ๐ ๐ โ โข ( ๐ โฒ , ๐ โฒ ) โ ๐ ๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) ]
1 ( ๐ ๐ ) โข โ ฮ โ ( [ ๐ ] ๐ ) [ ๐ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) โ ๐ ๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) ]
Then, by the linearity of expectations and the performance difference lemma (while noting that ๐ ๐ โ โข ( โ , โ )
๐ โ โข ( โ , โ ) ):
๐ ๐ โ โข ( ๐ ) โ ๐ ๐ ๐ , ๐ est โข ( ๐ )
1 1 โ ๐พ โข โ ฮ โ ( [ ๐ ] ๐ ) 1 ( ๐ ๐ ) โข ๐ผ ๐ โฒ โผ ๐ ๐ ๐ ๐ , ๐ est โข [ ๐ ๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) โ ๐ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) ]
1 1 โ ๐พ โข โ ฮ โ ( [ ๐ ] ๐ ) 1 ( ๐ ๐ ) โข ๐ผ ๐ โฒ โผ ๐ ๐ ๐ ๐ , ๐ est โข [ ๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) โ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) ]
Next, we use Lemma D.4 to bound this difference (where the probability distribution function of ๐ is set as ๐ ๐ ๐ ๐ , ๐ est as defined in Theorem D.2) while letting ๐ฟ 1
๐ฟ 2 :
๐ ๐ โ โข ( ๐ ) โ ๐ ๐ ๐ , ๐ est โข ( ๐ )
โค 1 1 โ ๐พ โข โ ฮ โ ( [ ๐ ] ๐ ) 1 ( ๐ ๐ ) โข [ 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ 1 โ ๐พ โข ๐ โ ๐ + 1 2 โข ๐ โข ๐ โข ( ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 1 ) + 2 โข ๐ ~ 1 โ ๐พ โข | ๐ ๐ | โข ๐ฟ 1 + 2 โข ๐ ๐ , ๐ ]
โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ ( 1 โ ๐พ ) 2 โข ๐ โ ๐ + 1 2 โข ๐ โข ๐ โข ( ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 1 ) + 2 โข ๐ ~ ( 1 โ ๐พ ) 2 โข | ๐ ๐ | โข ๐ฟ 1 + 2 โข ๐ ๐ , ๐ 1 โ ๐พ
This proves the theorem. โ
Lemma D.4.
For any arbitrary distribution ๐ of states ๐ฎ := ๐ฎ ๐ ร ๐ฎ ๐ ๐ , for any ฮ โ ( [ ๐ ] ๐ ) and for ๐ฟ 1 , ๐ฟ 2 โ ( 0 , 1 ] , we have:
๐ผ ๐ โฒ โผ ๐ [ ๐ โ ( ๐ โฒ , ๐ โ ( ๐ โฒ ) ) โ ๐ โ ( ๐ โฒ , ๐ ^ ๐ , ๐ est ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) ]
โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ 1 โ ๐พ โข ๐ โ ๐ + 1 8 โข ๐ โข ๐ โข ( ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 1 + ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 2 ) + ๐ ~ 1 โ ๐พ โข | ๐ ๐ | โข ( ๐ฟ 1 + ๐ฟ 2 ) + 2 โข ๐ ๐ , ๐
Proof.
Denote ๐ ๐ , ๐ ๐ , ฮ := ๐ โ ( ๐ , ๐ โ ( ๐ ) ) โ ๐ โ ( ๐ , ๐ ^ ๐ , ๐ est ( ๐ ๐ , ๐น ๐ ฮ ) . We define the indicator function โ : ๐ฎ ร โ ร ( 0 , 1 ] ร ( 0 , 1 ] by:
โ โข ( ๐ , ๐ , ๐ฟ 1 , ๐ฟ 2 )
๐ โข { ๐ ๐ , ๐ ๐ , ฮ โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ 1 โ ๐พ โข ๐ โ ๐ + 1 8 โข ๐ โข ๐ โข ( ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 1 + ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 2 ) + 2 โข ๐ ๐ , ๐ }
We then study the expected difference between ๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) and ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) . Observe that:
๐ผ ๐ โฒ โผ ๐ โข [ ๐ ๐ , ๐ ๐ , ฮ ]
๐ผ ๐ โฒ โผ ๐ โข [ ๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) โ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) ]
๐ผ ๐ โฒ โผ ๐ โข [ โ โข ( ๐ โฒ , ๐ , ๐ฟ 1 , ๐ฟ 2 ) โข ( ๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) โ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) ) ]
- ๐ผ ๐ โฒ โผ ๐ โข [ ( 1 โ โ โข ( ๐ โฒ , ๐ , ๐ฟ 1 , ๐ฟ 2 ) ) โข ( ๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) โ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) ) ]
Here, we have used the general property for a random variable ๐ and constant ๐ that ๐ผ โข [ ๐ ]
๐ผ โข [ ๐ โข ๐ โข { ๐ โค ๐ } ] + ๐ผ โข [ ( 1 โ ๐ โข { ๐ โค ๐ } ) โข ๐ ] . Then,
๐ผ ๐ โฒ โผ ๐ [ ๐ โ ( ๐ โฒ , ๐ โ ( ๐ โฒ ) )
โ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ]
โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ 1 โ ๐พ โข ๐ โ ๐ + 1 8 โข ๐ โข ๐ โข ( ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 1 + ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 2 ) ) + 2 โข ๐ ๐ , ๐
- ๐ ~ 1 โ ๐พ ( 1 โ ๐ผ ๐ โฒ โผ ๐ โ ( ๐ โฒ , ๐ , ๐ฟ 1 , ๐ฟ 2 ) ) )
โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ 1 โ ๐พ โข ๐ โ ๐ + 1 8 โข ๐ โข ๐ โข ( ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 1 + ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 2 ) ) + 2 โข ๐ ๐ , ๐
- ๐ ~ 1 โ ๐พ โข | ๐ ๐ | โข ( ๐ฟ 1
- ๐ฟ 2 )
For the first term in the first inequality, we use ๐ผ โข [ ๐ โข ๐ โข { ๐ โค ๐ } ] โค ๐ . For the second term, we trivially bound ๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) โ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) by the maximum value ๐ โ can take, which is ๐ ~ 1 โ ๐พ by Lemma A.7. In the second inequality, we use the fact that the expectation of an indicator function is the conditional probability of the underlying event. The second inequality follows from Lemma D.5 which yields the claim.โ
Lemma D.5.
For a fixed ๐ โฒ โ ๐ฎ := ๐ฎ ๐ ร ๐ฎ ๐ ๐ , for any ฮ โ ( [ ๐ ] ๐ ) , and for ๐ฟ 1 , ๐ฟ 2 โ ( 0 , 1 ] , we have that with probability at least 1 โ | ๐ ๐ | โข ( ๐ฟ 1 + ๐ฟ 2 ) :
๐
โ
โข
(
๐
โฒ
,
๐
โ
โข
(
๐
โฒ
)
)
โ
๐
โ
โข
(
๐
โฒ
,
๐
^
๐
,
๐
est
โข
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
)
)
โค
2
โข
โ
๐
๐
โข
(
โ
,
โ
)
โ
โ
1
โ
๐พ
โข
๐
โ
๐
+
1
8
โข
๐
โข
๐
โข
(
ln
โก
2
โข
|
๐ฎ
๐
|
๐ฟ
1
+
ln
โก
2
โข
|
๐ฎ
๐
|
๐ฟ
2
)
+
2
โข
๐
๐
,
๐
Proof.
๐
โ
โข
(
๐
โฒ
,
๐
โ
โข
(
๐
โฒ
)
)
โ
๐
โ
โข
(
๐
โฒ
,
๐
^
๐
,
๐
est
โข
(
๐
๐
โฒ
,
๐น
๐
ฮ
โฒ
)
)
๐ โ ( ๐ โฒ , ๐ โ ( ๐ โฒ ) ) โ ๐ โ ( ๐ โฒ , ๐ ^ ๐ , ๐ est ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) + ๐ ^ ๐ , ๐ est ( ๐ ๐ โฒ , ๐ ฮ โฒ , ๐ โ ( ๐ โฒ ) )
โ ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐ ฮ โฒ , ๐ โ โข ( ๐ โฒ ) ) + ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐ ฮ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) )
โ ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) )
By the monotonicity of the absolute value and the triangle inequality, we have:
๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) )
โ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) )
โค | ๐ โ โข ( ๐ โฒ , ๐ โ โข ( ๐ โฒ ) ) โ ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ โ โข ( ๐ โฒ ) ) |
- | ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) โ ๐ โ โข ( ๐ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) |
The above inequality crucially uses the fact that the residual term ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ โ โข ( ๐ โฒ ) ) โ ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ , ๐ ^ ๐ , ๐ est โข ( ๐ ๐ โฒ , ๐น ๐ ฮ โฒ ) ) โค 0 , since ๐ ^ ๐ , ๐ est is the optimal greedy policy for ๐ ^ ๐ , ๐ est . Finally, applying the error bound derived in Lemma D.1 for two timesteps completes the proof. โ
Corollary D.6.
Optimizing parameters in Theorem D.3 yields:
๐ ๐ โ โข ( ๐ ) โ ๐ ๐ ๐ , ๐ est โข ( ๐ ) โค 2 โข ๐ ~ ( 1 โ ๐พ ) 2 โข ( ๐ โ ๐ + 1 2 โข ๐ โข ๐ โข ln โก ( 2 โข | ๐ฎ ๐ | โข | ๐ ๐ | โข ๐ ) + 1 ๐ ) + 2 โข ๐ ๐ , ๐ 1 โ ๐พ
Proof.
Recall from Theorem D.3 that:
๐ ๐ โ โข ( ๐ ) โ ๐ ๐ ๐ , ๐ est โข ( ๐ ) โค 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ ( 1 โ ๐พ ) 2 โข ๐ โ ๐ + 1 2 โข ๐ โข ๐ โข ( ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 1 ) + 2 โข โ ๐ ๐ โข ( โ , โ ) โ โ ( 1 โ ๐พ ) 2 โข | ๐ ๐ | โข ๐ฟ 1 + 2 โข ๐ ๐ , ๐ 1 โ ๐พ
Note โ ๐ ๐ โข ( โ , โ ) โ โ โค ๐ ~ from Assumption 2.2. Then,
๐ ๐ โ โข ( ๐ ) โ ๐ ๐ ๐ , ๐ est โข ( ๐ ) โค 2 โข ๐ ~ ( 1 โ ๐พ ) 2 โข ( ๐ โ ๐ + 1 2 โข ๐ โข ๐ โข ln โก 2 โข | ๐ฎ ๐ | ๐ฟ 1 + | ๐ ๐ | โข ๐ฟ 1 ) + 2 โข ๐ ๐ , ๐ 1 โ ๐พ
Finally, setting ๐ฟ 1
1 ๐ 1 / 2 โข | ๐ ๐ | yields the claim.โ
Corollary D.7.
Therefore, from Corollary D.6, we have:
๐
๐
โ
โข
(
๐
)
โ
๐
๐
๐
,
๐
est
โข
(
๐
)
โค
๐
โข
(
๐
~
๐
โข
(
1
โ
๐พ
)
2
โข
ln
โก
(
2
โข
|
๐ฎ
๐
|
โข
|
๐
๐
|
โข
๐
)
+
๐
๐
,
๐
1
โ
๐พ
)
๐ ~ โข ( ๐ ~ โข ( 1 โ ๐พ ) โ 2 ๐ + ๐ ๐ , ๐ 1 โ ๐พ )
This yields the bound from Theorem 3.4.
Appendix EAdditional Discussions Discussion E.1 (Tighter Endpoint Analysis).
Our theoretical result shows that ๐ ๐ โ โข ( ๐ ) โ ๐ ๐ ๐ , ๐ est decays on the order of ๐ โข ( 1 / ๐ + ๐ ๐ , ๐ ) . For ๐
๐ , this bound is actually suboptimal since ๐ ^ ๐ โ becomes ๐ โ . However, placing | ฮ |
๐ in our weaker TV bound in Lemma C.7, we recovers a total variation distance of 0 when ๐
๐ , recovering the optimal endpoint bound.
Discussion E.2 (Choice of ๐ ).
Discussion 3.6 previously discussed the tradeoff in ๐ between the polynomial in ๐ complexity of learning the ๐ ^ ๐ function and the decay in the optimality gap of ๐ โข ( 1 / ๐ ) . This discussion promoted ๐
๐ โข ( log โก ๐ ) as a means to balance the tradeoff. However, the โcorrectโ choice of ๐ truly depends on the amount of compute available, as well as the accuracy desired from the method. If the former is available, we recommend setting ๐
ฮฉ โข ( ๐ ) as it will yield a more optimal policy. Conversely, setting ๐
๐ โข ( log โก ๐ ) , when ๐ is large, would be the minimum ๐ recommended to realize any asymptotic decay of the optimality gap.
Generated on Tue Oct 22 18:48:42 2024 by LaTeXML Report Issue Report Issue for Selection
Xet Storage Details
- Size:
- 155 kB
- Xet hash:
- b6e72b8876ae6e3d2879b9fa7016997099078e152adaad890e00ab2a2f90b454
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.