Buckets:
Title: Optimal Stochastic Non-smooth Non-convex Optimization through Online-to-Non-convex Conversion
URL Source: https://arxiv.org/html/2302.03775
Markdown Content: Back to arXiv
This is experimental HTML to improve accessibility. We invite you to report rendering errors. Use Alt+Y to toggle on accessible reporting links and Alt+Shift+Y to toggle off. Learn more about this project and help improve conversions.
Why HTML? Report Issue Back to Abstract Download PDF Abstract 1Introduction 2Definitions and Setup 3Online-to-Non-Convex Conversion 4Bounds for the ๐ฟ 1 Norm 5From Non-smooth to Smooth Guarantees 6Deterministic and Smooth Case 7Lower Bounds 8Conclusion References
HTML conversions sometimes display errors due to content that did not convert correctly from the source. This paper uses the following packages that are not yet supported by the HTML conversion tool. Feedback on these issues are not necessary; they are known and are being worked on.
failed: forloop.sty failed: epic.sty failed: eepic.sty
Authors: achieve the best HTML results from your LaTeX submissions by following these best practices.
License: arXiv.org perpetual non-exclusive license arXiv:2302.03775v3 [cs.LG] 07 Aug 2025 Optimal Stochastic Non-smooth Non-convex Optimization through Online-to-Non-convex Conversion Ashok Cutkosky Boston University Boston, MA ashok@cutkosky.com Harsh Mehta Google Research Mountain View, CA harshm@google.com Francesco Orabona Boston University Boston, MA francesco@orabona.com Abstract
We present new algorithms for optimizing non-smooth, non-convex stochastic objectives based on a novel analysis technique. This improves the current best-known complexity for finding a ( ๐ฟ , ๐ ) -stationary point from ๐ โ ( ๐ โ 4 โ ๐ฟ โ 1 ) stochastic gradient queries to ๐ โ ( ๐ โ 3 โ ๐ฟ โ 1 ) , which we also show to be optimal. Our primary technique is a reduction from non-smooth non-convex optimization to online learning, after which our results follow from standard regret bounds in online learning. For deterministic and second-order smooth objectives, applying more advanced optimistic online learning techniques enables a new complexity of ๐ โ ( ๐ โ 1.5 โ ๐ฟ โ 0.5 ) . Our techniques also recover all optimal or best-known results for finding ๐ stationary points of smooth or second-order smooth objectives in both stochastic and deterministic settings.
1Introduction
Algorithms for non-convex optimization are some of the most important tools in modern machine learning, as training neural networks requires optimizing a non-convex objective. Given the abundance of data in many domains, the time to train a neural network is the current bottleneck to having bigger and more powerful machine learning models. Motivated by this need, the past few years have seen an explosion of research focused on understanding non-convex optimization (Ghadimi & Lan, 2013; Carmon et al., 2017; Arjevani et al., 2019; 2020; Carmon et al., 2019; Fang et al., 2018). Despite significant progress, key issues remain unaddressed.
In this paper, we work to minimize a potentially non-convex objective ๐น : โ ๐ โ โ which we only accesss in some stochastic or โnoisyโ manner. As motivation, consider ๐น โ ( ๐ฑ ) โ ๐ผ ๐ณ [ ๐ โ ( ๐ฑ , ๐ณ ) ] , where ๐ฑ can represent the model weights, ๐ณ a minibatch of i.i.d. examples, and ๐ the loss of a model with parameters ๐ฑ on the minibatch ๐ณ . In keeping with standard empirical practice, we will restrict ourselves to first order algorithms (gradient-based optimization).
The vast majority of prior analyses of non-convex optimization algorithms impose various smoothness conditions on the objective (Ghadimi & Lan, 2013; Carmon et al., 2017; Allen-Zhu, 2018; Tripuraneni et al., 2018; Fang et al., 2018; Zhou et al., 2018; Fang et al., 2019; Cutkosky & Orabona, 2019; Li & Orabona, 2019; Cutkosky & Mehta, 2020; Zhang et al., 2020a; Karimireddy et al., 2020; Levy et al., 2021; Faw et al., 2022; Liu et al., 2022). One motivation for smoothness assumptions is that they allow for a convenient surrogate for global minimization: rather than finding a global minimum of a neural networkโs loss surface (which may be intractable), we can hope to find an ๐ -stationary point, i.e., a point ๐ฑ such that โ โ ๐น โ ( ๐ฑ ) โ โค ๐ . By now, the fundamental limits on first order smooth non-convex optimization are well understood: Stochastic Gradient Descent (SGD) will find an ๐ -stationary point in ๐ โ ( ๐ โ 4 ) iterations, which is the optimal rate (Arjevani et al., 2019). Moreover, if ๐น happens to be second-order smooth, SGD requires only ๐ โ ( ๐ โ 3.5 ) iterations, which is also optimal (Fang et al., 2019; Arjevani et al., 2020). These optimality results motivate the popularity of SGD and its variants in practice (Kingma & Ba, 2014; Loshchilov & Hutter, 2016; 2018; Goyal et al., 2017; You et al., 2019).
Unfortunately, many standard neural network architectures are non-smooth (e.g., architectures incorporating ReLUs or max-pools cannot be smooth). As a result, these analyses can only provide intuition about what might occur when an algorithm is deployed in practice: the theorems themselves do not apply (see Patel & Berahas (2022) for examples of failure of SGD in non-smooth settings, or Li et al. (2021) for futher discussion of assumptions). Despite the obvious need for non-smooth analyses, recent results suggest that even approaching a neighborhood of a stationary point may be impossible for non-smooth objectives (Kornowski & Shamir, 2022b). Nevertheless, optimization clearly is possible in practice, which suggests that we may need to rethink our assumptions and goals in order to understand non-smooth optimization.
Fortunately, Zhang et al. (2020b) recently considered an alternative definition of stationarity that is tractable even for non-smooth objectives and which has attracted much interest (Davis et al., 2021; Tian et al., 2022; Kornowski & Shamir, 2022a; Tian & So, 2022; Jordan et al., 2022). Roughly speaking, instead of โ โ ๐น โ ( ๐ฑ ) โ โค ๐ , we ask that there is a random variable ๐ฒ supported in a ball of radius ๐ฟ about ๐ฑ such that โ ๐ผ [ โ ๐น โ ( ๐ฒ ) ] โ โค ๐ . We call such an ๐ฑ an ( ๐ฟ , ๐ ) -stationary point, so that the previous definition ( โ โ ๐น โ ( ๐ฑ ) โ โค ๐ ) is a ( 0 , ๐ ) -stationary point. The current best-known complexity for identifying an ( ๐ฟ , ๐ ) stationary point is ๐ โ ( ๐ โ 4 โ ๐ฟ โ 1 ) stochastic gradient evaluations.
In this paper, we significantly improve this result: we can identify an ( ๐ฟ , ๐ ) -stationary point with only ๐ โ ( ๐ โ 3 โ ๐ฟ โ 1 ) stochastic gradient evaluations. Moreover, we also show that this rate is optimal. Our primary technique is a novel online-to-non-convex conversion: a connection between non-convex stochastic optimization and online learning, which is a classical field of learning theory that already has a deep literature (Cesa-Bianchi & Lugosi, 2006; Hazan, 2019; Orabona, 2019). In particular, we show that an online learning algorithm that provides a shifting regret bound can be used to decide the update step, when fed with linear losses constructed using the stochastic gradients of the function ๐น . By establishing this connection, we open new avenues for algorithm design in non-convex optimization and also motivate new research directions in online learning.
In sum, we make the following contributions:
โข
A reduction from non-convex non-smooth stochastic optimization to online learning: better online learning algorithms result in faster non-convex optimization. Applying this reduction to standard online learning algorithms allows us to identify an ( ๐ฟ , ๐ ) stationary point in ๐ โ ( ๐ โ 3 โ ๐ฟ โ 1 ) stochastic gradient evaluations. The previous best-known rate in this setting was ๐ โ ( ๐ โ 4 โ ๐ฟ โ 1 ) .
โข
We show that the ๐ โ ( ๐ โ 3 โ ๐ฟ โ 1 ) rate is optimal for all ๐ฟ , ๐ such that ๐ โค ๐ โ ( ๐ฟ ) .
Additionally, we prove important corollaries for smooth ๐น :
โข
The ๐ โ ( ๐ โ 3 โ ๐ฟ โ 1 ) complexity implies the optimal ๐ โ ( ๐ โ 4 ) and ๐ โ ( ๐ โ 3.5 ) respective complexities for finding ( 0 , ๐ ) -stationary points of smooth or second-order smooth objectives.
โข
For deterministic and second-order smooth objectives, we obtain a rate of ๐ โ ( ๐ โ 3 / 2 โ ๐ฟ โ 1 / 2 ) , which implies the best-known ๐ โ ( ๐ โ 7 / 4 ) complexity for finding ( 0 , ๐ ) -stationary points.
2Definitions and Setup
Here, we formally introduce our setting and notation. We are interested in optimizing real-valued functions ๐น : โ โ โ where โ is a real Hilbert space (e.g., usually โ
โ ๐ ). We assume ๐น โ โ inf ๐ฑ ๐น โ ( ๐ฑ ) > โ โ . We assume that ๐น is differentiable, but we do not assume that ๐น is smooth. All norms โฅ โ โฅ are the Hilbert space norm (i.e., the 2-norm) unless otherwise specified. As mentioned in the introduction, the motivating example to keep in mind in our development is the case ๐น โ ( ๐ฑ )
๐ผ ๐ณ [ ๐ โ ( ๐ฑ , ๐ณ ) ] .
Our algorithms access information about ๐น through a stochastic gradient oracle Grad : โ ร ๐ต โ โ . Given a point ๐ฑ in โ , the oracle will sample an i.i.d. random variable ๐ณ โ ๐ต and return Grad โ ( ๐ฑ , ๐ณ ) โ โ such that ๐ผ [ Grad โ ( ๐ฑ , ๐ณ ) ]
โ ๐น โ ( ๐ฑ ) and Var โ ( Grad โ ( ๐ฑ , ๐ณ ) ) โค ๐ 2 .
In the following, we only consider functions satisfying the following mild regularity condition.
Definition 1.
We define a differentiable function ๐น : โ โ โ to be well-behaved if for all ๐ฑ , ๐ฒ โ โ , it holds that
๐น โ ( ๐ฒ ) โ ๐น โ ( ๐ฑ )
โซ 0 1 โจ โ ๐น โ ( ๐ฑ + ๐ก โ ( ๐ฒ โ ๐ฑ ) ) , ๐ฒ โ ๐ฑ โฉ โ d ๐ก .
If ๐น happens to be differentiable and locally Lipschitz, then this assumption is simply the Fundamental Theorem of Calculus. Under this assumption, our results can be applied to improve the past results on non-smooth stochastic optimization. In fact, Proposition 2 (proof in Appendix A) below shows that for the wide class of functions that are locally Lipschitz (but possibly non-differentiable), applying an arbitrarily small perturbation to the function is sufficient to ensure both differentiability and well-behavedness. This result works via standard perturbation arguments similar to those used previously by Davis et al. (2021) (see also Bertsekas (1973); Duchi et al. (2012); Flaxman et al. (2005) for similar techniques in the convex setting). In practice we suspect that such perturbation arguments are unnecessary: intuitively an algorithm is unlikely to query a point of non-differentiability (see also Bianchi et al. (2022) for some formal evidence for this idea).
Proposition 2.
Let ๐น : โ ๐ โ โ be locally Lipschitz with stochastic oracle Grad such that ๐ผ ๐ณ [ Grad โ ( ๐ฑ , ๐ณ ) ]
โ ๐น โ ( ๐ฑ ) whenever ๐น is differentiable. We have two cases:
โข
If ๐น is differentiable everywhere, then ๐น is well-behaved.
โข
If ๐น is not differentiable everywhere, let ๐ > 0 be an arbitrary number and let ๐ฎ be a random vector in โ ๐ uniformly distributed on the unit ball. Define ๐น ^ โ ( ๐ฑ ) โ ๐ผ ๐ฎ [ ๐น โ ( ๐ฑ + ๐ โ ๐ฎ ) ] . Then, ๐น ^ is differentiable and well-behaved, and the oracle Grad ^ โ ( ๐ฑ , ( ๐ณ , ๐ฎ ) )
Grad โ ( ๐ฑ + ๐ โ ๐ฎ , ๐ณ ) is a stochastic gradient oracle for ๐น ^ . Moreover, ๐น is differentiable at ๐ฑ + ๐ โ ๐ฎ with probability 1 and if ๐น is ๐บ -Lipschitz, then | ๐น ^ โ ( ๐ฑ ) โ ๐น โ ( ๐ฑ ) | โค ๐ โ ๐บ for all ๐ฑ .
Remark 3.
We explicitly note that our results cover the case in which ๐น is directionally differentiable and we have access to a stochastic directional gradient oracle, as considered by Zhang et al. (2020b). This is a less standard oracle Grad โ ( ๐ฑ , ๐ฏ , ๐ณ ) that outputs ๐ such that ๐ผ [ โจ ๐ , ๐ฏ โฉ ] is the directional derivative of ๐น in the direction ๐ฏ . This setting is subtly different (although a directional derivative oracle is a gradient oracle at all points for which ๐น is continuously differentiable). In order to keep technical complications to a minimum, in the main text we consider the simpler stochastic gradient oracle discussed above. In Appendix H, we show that our results and techniques also apply using directional gradient oracles with only superficial modification.
2.1 ( ๐ฟ , ๐ ) -Stationary Points
Now, let us define our notion of ( ๐ฟ , ๐ ) -stationary point. This definition is essentially the same as used in Zhang et al. (2020b); Davis et al. (2021); Tian et al. (2022). It is in fact mildly more stringent since we restrict to distributions of finite support and require an โunbiasednessโ condition in order to make eventual connections to second-order smooth objectives easier.
Definition 4.
A point ๐ฑ is an ( ๐ฟ , ๐ ) -stationary point of an almost-everywhere differentiable function ๐น if there is a finite subset ๐ of the ball of radius ๐ฟ centered at ๐ฑ such that for ๐ฒ selected uniformly at random from ๐ , ๐ผ [ ๐ฒ ]
๐ฑ and โ ๐ผ [ โ ๐น โ ( ๐ณ ) ] โ โค ๐ .
As a counterpart to this definition, we also define:
Definition 5.
Given a point ๐ฑ , a number ๐ฟ
0 and a almost-everywhere differentiable function ๐น , define
โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ โ inf ๐ โ ๐ต โ ( ๐ฑ , ๐ฟ ) , 1 | ๐ | โ โ ๐ฒ โ ๐ ๐ฒ
๐ฑ โ 1 | ๐ | โ โ ๐ฒ โ ๐ โ ๐น โ ( ๐ฒ ) โ .
Letโs also state an immediate corollary of Proposition 2 that converts a guarantee on a randomized smoothed function to one on the original function. This result is also immediate from Theorem 3.1 of Lin et al. (2022).
Corollary 6.
Let ๐น : โ ๐ โ โ be ๐บ -Lipschitz. For ๐
0 , let ๐ โค ๐ฟ and let ๐ฎ be a random vector in โ ๐ uniformly distributed on the unit ball. Define ๐น ^ โ ( ๐ฑ ) โ ๐ผ ๐ฎ [ ๐น โ ( ๐ฑ + ๐ โ ๐ฎ ) ] . If a point ๐ฑ satisfies โ โ ๐น ^ โ ( ๐ฑ ) โ ๐ฟ โค ๐ , then โ โ ๐น โ ( ๐ฑ ) โ 2 โ ๐ฟ โค ๐ .
Our ultimate goal is to use ๐ stochastic gradient evaluations of ๐น to identify a point ๐ฑ with as small a value of ๐ผ [ โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ ] as possible. For the rest of this paper we will consider exclusively the case of well-behaved and differentiable objectives ๐น . We focus our development on this conceptually simpler case in order to simplify the proofs as much as possible, however due to Proposition 2 and Corollary 6, our results will immediately extend from differentiable ๐น to those ๐น that are locally Lipschitz and for which Grad โ ( ๐ฑ , ๐ณ ) returns a unbiased estimate of โ ๐น โ ( ๐ฑ ) whenever ๐น is differentiable at ๐ฑ .
2.2Online Learning
Here, we very briefly introduce the setting of online linear learning with shifting competitors, that will be the core of our online-to-non-convex conversion. We refer the interested reader to Cesa-Bianchi & Lugosi (2006); Hazan (2019); Orabona (2019) for a comprehensive introduction to online learning. In the online learning setting, the learning process goes on in rounds. In each round the algorithm outputs a point ๐ซ ๐ก in a feasible set ๐ , and then receives a linear loss function โ ๐ก โ ( โ )
โจ ๐ ๐ก , โ โฉ and it pays โ ๐ก โ ( ๐ซ ๐ก ) . The goal of the algorithm is to minimize the static regret over ๐ rounds, defined as the difference between its cumulative loss and the one of an arbitrary comparison vector ๐ฎ โ ๐ :
๐ ๐ โ ( ๐ฎ ) โ โ ๐ก
1 ๐ โจ ๐ ๐ก , ๐ซ ๐ก โ ๐ฎ โฉ .
With no stochastic assumption, it is possible to design online algorithms that guarantee that the regret is upper bounded by ๐ โ ( ๐ ) . In this work, we frequently make use of a more challenging objective: minimizing the ๐พ -shifting regret. This is the regret with respect to an arbitrary sequence of ๐พ vectors ๐ฎ 1 , โฆ , ๐ฎ ๐พ โ ๐ that changes every ๐ iterations:
๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) โ โ ๐
1 ๐พ โ ๐
( ๐ โ 1 ) โ ๐ + 1 ๐ โ ๐ โจ ๐ ๐ , ๐ซ ๐ โ ๐ฎ ๐ โฉ .
(1)
It should be intuitive that resetting the online algorithm every ๐ iterations can achieve a shifting regret of ๐ โ ( ๐พ โ ๐ ) .
2.3Related Work
In addition to the papers discussed in the introduction, here we discuss further related work.
In this paper we build on top of the definition of ( ๐ฟ , ๐ ) -stationary points proposed by Zhang et al. (2020b). There, they prove a complexity rate of ๐ โ ( ๐ โ 4 โ ๐ฟ โ 1 ) for stochastic Lipschitz functions, which we improve to ๐ โ ( ๐ โ 3 โ ๐ฟ โ 1 ) and prove the optimality of this result.
In a concurrent work, Chen et al. (2023) consider the setting of zeroth-order stochastic optimization (i.e. evaluation of function values only rather than gradients) and achieve a similar asymptotic rate of ๐ โ ( ๐ 3 / 2 โ ๐ โ 3 โ ๐ฟ โ 1 ) by applying variance-reduction to a smoothed version of the objective ๐น . This result is an intriguing contrast to many zeroth-order algorithms based on such smoothing in that the algorithm is not obtained by applying applying smoothing to a first-order algorithm. More recently, Kornowski & Shamir (2023) improved the dimension dependence in the rate for zeroth-order optimization to ๐ โ ( ๐ โ ๐ โ 3 โ ๐ฟ โ 1 ) by employing the algorithm described in this paper in concert with a refined analysis of the smoothing operation.
The idea to reduce machine learning to online learning was pioneered by Cesa-Bianchi et al. (2004) with the online-to-batch conversion. There is also previous work exploring the possibility of transforming non-convex problems into online learning ones. Ghai et al. (2022) provides some conditions under which online gradient descent on non-convex losses is equivalent to a convex online mirror descent. Hazan et al. (2017) defines a notion of regret which can be used to find approximate stationary points of smooth objectives. Zhuang et al. (2019) transform the problem of tuning of learning rates in stochastic non-convex optimization into an online learning problem. Our proposed approach differs from all the ones above in applying to non-smooth objectives. Moreover, as discusses in the next section, we employ online learning algorithms with shifting regret Herbster & Warmuth (1998) to generate the updates (i.e. the differences between successive iterates), rather than the iterates themselves.
3Online-to-Non-Convex Conversion
In this section, we explain the online-to-non-convex conversion. The core idea transforms the minimization of a non-convex and non-smooth function onto the problem of minimizing the shifting regret over linear losses. In particular, consider an optimization algorithm that updates a previous iterate ๐ฑ ๐ โ 1 by moving in a direction ๐ซ ๐ : ๐ฑ ๐
๐ฑ ๐ โ 1 + ๐ซ ๐ . For example, SGD sets ๐ซ ๐
โ ๐ โ ๐ ๐ โ 1
โ ๐ โ Grad โ ( ๐ฑ ๐ โ 1 , ๐ณ ๐ โ 1 ) for a learning rate ๐ . Instead, we let an online learning algorithm ๐ decide the update direction ๐ซ ๐ , using linear losses โ ๐ โ ( ๐ฑ )
โจ ๐ ๐ , ๐ฑ โฉ .
The motivation behind essentially all first order algorithms is that ๐น โ ( ๐ฑ ๐ โ 1 + ๐ซ ๐ ) โ ๐น โ ( ๐ฑ ๐ โ 1 ) โ โจ ๐ ๐ , ๐ซ ๐ โฉ . This suggests that ๐ซ ๐ should be chosen to minimize the inner product โจ ๐ ๐ , ๐ซ ๐ โฉ . However, we are faced with two difficulties. The first difficulty is the the approximation error in the first-order expansion. The second is the fact that ๐ซ ๐ needs to be chosen before ๐ ๐ is revealed, so that ๐ซ ๐ needs in some sense to โpredict the futureโ. Typical analysis of algorithms such as SGD use the remainder form of Taylorโs theorem to address both difficulties simultaneously for smooth objectives, but in our non-smooth case this is not a valid approach. Instead, we tackle these difficulties independently. We overcome the first difficulty using the same randomized scaling trick employed by Zhang et al. (2020b): define ๐ ๐ to be a gradient evaluated not at ๐ฑ ๐ โ 1 or ๐ฑ ๐ โ 1 + ๐ซ ๐ , but at a random point along the line segment connecting the two. Then for a well-behaved function we will have ๐น โ ( ๐ฑ ๐ โ 1 + ๐ซ ๐ ) โ ๐น โ ( ๐ฑ ๐ โ 1 )
๐ผ [ โจ ๐ ๐ , ๐ซ ๐ โฉ ] . The second difficulty is where online learning shines: online learning algorithms are specifically designed to predict completely arbitrary sequences of vectors as accurately as possible.
The previous intuition is formalized in Algorithm 1 and the following result, which we will elaborate on in Theorem 8 before yielding our main result in Corollary 9.
Theorem 7.
Suppose ๐น is well-behaved. Define โ ๐
โซ 0 1 โ ๐น โ ( ๐ฑ ๐ โ 1 + ๐ โ ๐ซ ๐ ) โ d ๐ . Then, with the notation in Algorithm 1 and for any sequence of vectors ๐ฎ 1 , โฆ , ๐ฎ ๐ , we have the equality:
๐น โ ( ๐ฑ ๐ )
๐น โ ( ๐ฑ 0 ) + โ ๐
1 ๐ โจ ๐ ๐ , ๐ซ ๐ โ ๐ฎ ๐ โฉ + โ ๐
1 ๐ โจ โ ๐ โ ๐ ๐ , ๐ซ ๐ โฉ + โ ๐
1 ๐ โจ ๐ ๐ , ๐ฎ ๐ โฉ .
Moreover, if we let ๐ ๐ be independent random variables uniformly distributed in [ 0 , 1 ] , then we have
๐ผ [ ๐น โ ( ๐ฑ ๐ ) ]
๐น โ ( ๐ฑ 0 ) + ๐ผ [ โ ๐
1 ๐ โจ ๐ ๐ , ๐ซ ๐ โ ๐ฎ ๐ โฉ ] + ๐ผ [ โ ๐
1 ๐ โจ ๐ ๐ , ๐ฎ ๐ โฉ ] .
Proof.
By the well-behaveness of ๐น , we have
๐น โ ( ๐ฑ ๐ ) โ ๐น โ ( ๐ฑ ๐ โ 1 )
โซ 0 1 โจ โ ๐น โ ( ๐ฑ ๐ โ 1 + ๐ โ ( ๐ฑ ๐ โ ๐ฑ ๐ โ 1 ) ) , ๐ฑ ๐ โ ๐ฑ ๐ โ 1 โฉ โ d ๐
โซ 0 1 โจ โ ๐น โ ( ๐ฑ ๐ โ 1 + ๐ โ ๐ซ ๐ ) , ๐ซ ๐ โฉ โ d ๐
โจ โ ๐ , ๐ซ ๐ โฉ
โจ ๐ ๐ , ๐ซ ๐ โ ๐ฎ ๐ โฉ + โจ โ ๐ โ ๐ ๐ , ๐ซ ๐ โฉ + โจ ๐ ๐ , ๐ฎ ๐ โฉ .
Now, sum over ๐ and telescope to obtain the stated bound.
For the second statement, simply observe that by definition we have ๐ผ [ ๐ ๐ ]
โซ 0 1 โ ๐น โ ( ๐ฑ ๐ โ 1 + ๐ โ ๐ซ ๐ ) โ d ๐
โ ๐ . โ
Algorithm 1 Online-to-Non-Convex Conversion โInput: Initial point ๐ฑ 0 , ๐พ โ โ , ๐ โ โ , online learning algorithm ๐ . โSet ๐
๐พ โ ๐ โfor ๐
1 โ โฆ โ ๐ do โโGet ๐ซ ๐ from ๐ โโSet ๐ฑ ๐
๐ฑ ๐ โ 1 + ๐ซ ๐ โโGenerate ๐ ๐ โ [ 0 , 1 ] // usually uniformly random, see Theorem statements for precise settings. โโSet ๐ฐ ๐
๐ฑ ๐ โ 1 + ๐ ๐ โ ๐ซ ๐ โโSample random ๐ณ ๐ โโGenerate gradient ๐ ๐
Grad โ ( ๐ฐ ๐ , ๐ณ ๐ ) โโSend ๐ ๐ to ๐ as gradient โend for โSet ๐ฐ ๐ก ๐
๐ฐ ( ๐ โ 1 ) โ ๐ + ๐ก for ๐
1 , โฆ , ๐พ and ๐ก
1 , โฆ , ๐ โSet ๐ฐ ยฏ ๐
1 ๐ โ โ ๐ก
1 ๐ ๐ฐ ๐ก ๐ for ๐
1 , โฆ , ๐พ โReturn { ๐ฐ ยฏ 1 , โฆ , ๐ฐ ยฏ ๐พ } 3.1Guarantees for Non-Smooth Non-Convex Functions
The primary value of Theorem 7 is that the term โ ๐
1 ๐ โจ ๐ ๐ , ๐ซ ๐ โ ๐ฎ ๐ โฉ is exactly the regret of an online learning algorithm: lower regret clearly translates to a smaller bound on ๐น โ ( ๐ฑ ๐ ) . Next, by carefully choosing ๐ฎ ๐ , we will be able to relate the term โ ๐
1 ๐ โจ ๐ ๐ , ๐ฎ ๐ โฉ to the gradient averages that appear in the definition of ( ๐ฟ , ๐ ) -stationarity. Formalizing these ideas, we have the following:
Theorem 8.
Assume ๐น is well-behaved. With the notation in Algorithm 1, set ๐ ๐ to be a random variable sampled uniformly from [ 0 , 1 ] . Set ๐ , ๐พ โ โ and ๐
๐พ โ ๐ . Define ๐ฎ ๐
โ ๐ท โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ for some ๐ท > 0 for ๐
1 , โฆ , ๐พ . Finally, suppose Var โ ( ๐ ๐ ) โค ๐ 2 . Then:
๐ผ [ 1 ๐พ โ โ ๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ ]
โค ๐น โ ( ๐ฑ 0 ) โ ๐น โ ๐ท โ ๐ + ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] ๐ท โ ๐ + ๐ ๐ .
Proof.
From Theorem 7, we have
๐ผ [ ๐น โ ( ๐ฑ ๐ ) ]
๐น โ ( ๐ฑ 0 ) + ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] + ๐ผ [ โ ๐
1 ๐ โจ ๐ ๐ , ๐ฎ ๐ โฉ ] .
Now, since ๐ฎ ๐
โ ๐ท โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ , ๐ผ [ ๐ ๐ ]
๐ผ [ โ ๐น โ ( ๐ฐ ๐ ) ] , and Var โ ( ๐ ๐ ) โค ๐ 2 , we have
๐ผ [ โ ๐
1
๐
โจ
๐
๐
,
๐ฎ
๐
โฉ
]
โค
๐ผ
[
โ
๐
1 ๐พ โจ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) , ๐ฎ ๐ โฉ ] + ๐ผ [ ๐ท โ โ ๐
1 ๐พ โ โ ๐ก
1
๐
(
โ
๐น
โ
(
๐ฐ
๐ก
๐
)
โ
๐
๐
โ
(
๐
โ
1
)
+
๐ก
)
โ
]
โค
๐ผ
[
โ
๐
1 ๐พ โจ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) , ๐ฎ ๐ โฉ ] + ๐ท โ ๐ โ ๐พ โ ๐
๐ผ [ โ โ ๐
1 ๐พ ๐ท โ ๐ โ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ ] + ๐ท โ ๐ โ ๐พ โ ๐ .
Putting this all together, we have
๐น
โ
โค
๐ผ
[
๐น
โ
(
๐ฑ
๐
)
]
โค
๐น
โ
(
๐ฑ
0
)
+
๐ผ
[
๐
๐
โ
(
๐ฎ
1
,
โฆ
,
๐ฎ
๐พ
)
]
+
๐
โ
๐ท
โ
๐พ
โ
๐
โ
๐ท
โ
๐
โ
โ
๐
1 ๐พ ๐ผ [ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ ] .
Dividing by ๐พ โ ๐ท โ ๐
๐ท โ ๐ and reordering, we have the stated bound. โ
We now instantiate Theorem 8 with the simplest online learning algorithm: online gradient descent (OGD) (Zinkevich, 2003). OGD takes input a radius ๐ท and a step size ๐ and makes the update ๐ซ ๐ + 1
ฮ โ ๐ซ โ โค ๐ท โ [ ๐ซ ๐ โ ๐ โ ๐ ๐ ] with ๐ซ 1
0 . The standard analysis shows that if ๐ผ [ โ ๐ ๐ โ 2 ] โค ๐บ 2 for all ๐ , then with ๐
๐ท ๐บ โ ๐ , OGD will ensure1 static regret ๐ผ [ ๐ ๐ โ ( ๐ฎ ) ] โค ๐ท โ ๐บ โ ๐ for any ๐ฎ satisfying โ ๐ฎ โ โค ๐ท . Thus, by resetting the algorithm every ๐ iterations, we achieve ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ โ ๐ฎ ๐พ ) ] โค ๐พ โ ๐ท โ ๐บ โ ๐ . This powerful guarantee for all sequences is characteristic of online learning. We are now free to optimize the remaining parameters ๐พ and ๐ท to achieve our main result, presented in Corollary 9.
Corollary 9.
Suppose we have a budget of ๐ gradient evaluations. Under the assumptions of Theorem 8, suppose in addition ๐ผ [ โ ๐ ๐ โ 2 ] โค ๐บ 2 and that ๐ guarantees โ ๐ซ ๐ โ โค ๐ท for some user-specified ๐ท for all ๐ and ensures the worst-case ๐พ -shifting regret bound ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] โค ๐ท โ ๐บ โ ๐พ โ ๐ for all โ ๐ฎ ๐ โ โค ๐ท (e.g., as achieved by the OGD algorithm that is reset every ๐ iterations). Let ๐ฟ > 0 be an arbitrary number. Set ๐ท
๐ฟ / ๐ , ๐
min โก ( โ ( ๐บ โ ๐ โ ๐ฟ ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 2 / 3 โ , ๐ 2 ) , and ๐พ
โ ๐ ๐ โ . Then, for all ๐ and ๐ก , we have โ ๐ฐ ยฏ ๐ โ ๐ฐ ๐ก ๐ โ โค ๐ฟ .
Moreover, we have the inequality
๐ผ
[
1
๐พ
โ
โ
๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ ] โค 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ + max โก ( 5 โ ๐บ 2 / 3 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 1 / 3 ( ๐ โ ๐ฟ ) 1 / 3 , 6 โ ๐บ ๐ ) ,
which implies
๐ผ [ 1 ๐พ โ โ ๐ก
1 ๐พ โ โ ๐น โ ( ๐ฐ ยฏ ๐ ) โ ๐ฟ ] โค 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ + max โก ( 5 โ ๐บ 2 / 3 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 1 / 3 ( ๐ โ ๐ฟ ) 1 / 3 , 6 โ ๐บ ๐ ) .
Before providing the proof, let us discuss the implications. Notice that if we select ๐ฐ ^ at random from { ๐ฐ ยฏ 1 , โฆ , ๐ฐ ยฏ ๐พ } , then we clearly have ๐ผ [ โ โ ๐น โ ( ๐ฐ ^ ) โ ๐ฟ ]
๐ผ [ 1 ๐พ โ โ ๐ก
1 ๐พ โ โ ๐น โ ( ๐ฐ ยฏ ๐ ) โ ๐ฟ ] . Therefore, the Corollary asserts that for a function ๐น with ๐น โ ( ๐ฑ 0 ) โ inf ๐น โ ( ๐ฑ ) โค ๐พ with a stochastic gradient oracle whose second moment is bounded by ๐บ 2 , a properly instantiated Algorithm 1 finds a ( ๐ฟ , ๐ ) stationary point in ๐
๐ โ ( ๐บ โ ๐พ โ ๐ โ 3 โ ๐ฟ โ 1 ) gradient evaluations. In Section 7, we will provide a lower bound showing that this rate is optimal essentially whenever ๐ฟ โ ๐บ 2 โฅ ๐ โ ๐พ . Together, the Corollary and the lower bound provide a nearly complete characterization of the complexity of finding ( ๐ฟ , ๐ ) -stationary points in the stochastic setting.
It is also interesting to note that the bound does not appear to improve if the gradients are deterministic. Specifically, in the assumptions for Corollary 9, we could try to relax ๐ผ [ โ ๐ ๐ก โ 2 ] โค ๐บ to โ โ ๐น โ ( ๐ฐ ๐ก ) โ โค ๐บ and Var โ ( ๐ ๐ก ) โค ๐ 2 for some ๐ . We might then hope to improve the bound as ๐ โ 0 by taking advantage of the ๐ -dependency in Theorem 8. However, it turns out that the ๐ -dependency in Corollary 9 is dominated by a dependency on ๐บ coming from the regret bound of OGD. This highlights an interesting open question: is it actually possible to improve in the deterministic setting? It is conceivable that the answer is โnoโ: in the non-smooth convex optimization setting, it is well-known that the optimal rates for stochastic and deterministic optimization are the same (see, e.g., Bubeck (2015) for proofs of both upper and lower bounds).
Remark 10.
We conjecture that by employing martingale concentration, the above can be extended to identify a ( ๐ฟ , ๐ โ ( ๐บ 2 / 3 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 1 / 3 ( ๐ โ ๐ฟ ) 1 / 3 ) ) -stationary point with high probability, although we do not establish such a result here.
It is also interesting to explicitly write the update of the overall algorithm:
๐ฑ ๐
๐ฑ
๐
โ
1
+
๐ซ
๐
๐
๐
Grad
โ
(
๐ฑ
๐
+
(
๐
๐
โ
1
)
โ
๐ซ
๐
,
๐ณ
๐
)
๐ซ
๐
+
1
clip ๐ท โ ( ๐ซ ๐ + ๐ โ ๐ ๐ )
where clip ( ๐ฑ ) ๐ท
๐ฑ min ( ๐ท โ ๐ฑ โ , 1 ) . In words, the update is reminiscent of the SGD update with momentum and clipping. The primary different element is the fact that the stochastic gradient is taken on a slightly perturbed ๐ฑ ๐ .
Proof of Corollary 9.
Since ๐ guarantees โ ๐ซ ๐ โ โค ๐ท , for all ๐ < ๐ โฒ โค ๐ + ๐ โ 1 , we have
โ ๐ฐ ๐ โ ๐ฐ ๐ โฒ โ
โ
๐ฑ
๐
โ
(
1
โ
๐
๐
)
โ
๐ซ
๐
โ
๐ฑ
๐
โฒ
โ
1
+
๐
๐
โฒ
โ
๐ซ
๐
โฒ
โ
โค
โ
โ
๐
๐ + 1 ๐ โฒ โ 1 ๐ซ ๐ โ + โ ๐ซ ๐ โ + โ ๐ซ ๐ โฒ โ
โค ๐ท โ ( ( ๐ โฒ โ 1 ) โ ( ๐ + 1 ) + 1 ) + 2 โ ๐ท โค ๐ท โ ๐ .
Therefore, we clearly have โ ๐ฐ ๐ก ๐ โ ๐ฐ ยฏ ๐ โ โค ๐ท โ ๐
๐ฟ .
Note that from the choice of ๐พ and ๐ we have ๐
๐พ โ ๐ โฅ ๐ โ ๐ โฅ ๐ / 2 . So, for the second fact, notice that Var โ ( ๐ ๐ ) โค ๐ผ [ โ ๐ ๐ก โ 2 ] โค ๐บ 2 for all ๐ . Thus, applying Theorem 8 in concert with the additional assumption ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] โค ๐ท โ ๐บ โ ๐พ โ ๐ , we have:
๐ผ [ 1 ๐พ โ โ ๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ ]
โค 2 โ ๐น โ ( ๐ฑ 0 ) โ ๐น โ ๐ท โ ๐ + 2 โ ๐พ โ ๐ท โ ๐บ โ ๐ ๐ท โ ๐ + ๐บ ๐
โค 2 โ ๐ โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ + 3 โ ๐บ ๐
โค max โก ( 5 โ ๐บ 2 / 3 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 1 / 3 ( ๐ โ ๐ฟ ) 1 / 3 , 6 โ ๐บ ๐ ) + 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ ,
where the last inequality is due to the choice of ๐ .
Finally, observe that โ ๐ฐ ๐ก ๐ โ ๐ฐ ยฏ ๐ โ โค ๐ฟ for all ๐ก and ๐ , and also that ๐ฐ ยฏ ๐
1 ๐ โ โ ๐ก
1 ๐ ๐ฐ ๐ก ๐ . Therefore ๐
{ ๐ฐ 1 ๐ , โฆ , ๐ฐ ๐ ๐ } satisfies the conditions in the infimum in Definition 5 so that โ โ ๐น โ ( ๐ฐ ยฏ ๐ ) โ ๐ฟ โค โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ . โ
4Bounds for the ๐ฟ 1 Norm
It is a well-known trick in the online learning literature that running a separate instance of an online learning algorithm on each coordinate of ๐ซ yields regret bounds with respect to ๐ฟ 1 norms of the linear costs (e.g., as in AdaGrad (Duchi et al., 2010; McMahan & Streeter, 2010)). For example, we can run the online gradient descent algorithm with a separate learning rate for each coordinate: ๐ซ ๐ + 1 , ๐
ฮ [ โ ๐ท โ , ๐ท โ ] โ [ ๐ซ ๐ , ๐ โ ๐ ๐ โ ๐ ๐ , ๐ ] . The regret of this procedure is simply the sum of the regrets of each of the individual algorithms. In particular, if ๐ผ [ ๐ ๐ , ๐ 2 ] โค ๐บ ๐ 2 , then setting ๐ ๐
๐ท โ ๐บ ๐ โ ๐ yields the regret bound ๐ผ [ ๐ ๐ โ ( ๐ฎ ) ] โค ๐ท โ โ ๐ โ โ ๐
1 ๐ ๐บ ๐ for any ๐ฎ satisfying โ ๐ฎ โ โ โค ๐ท โ . By employing such online algorithms with our online-to-non-convex conversion, we can obtain a guarantee on the ๐ฟ 1 norm of the gradients.
Definition 11.
A point ๐ฑ is a ( ๐ฟ , ๐ ) -stationary point with respect to the ๐ฟ 1 norm of an almost-everywhere differentiable function ๐น if there exists a finite subset ๐ of the ๐ฟ โ ball of radius ๐ฟ centered at ๐ฑ such that if ๐ฒ is selected uniformly at random from ๐ , ๐ผ [ ๐ฒ ]
๐ฑ and โ ๐ผ [ โ ๐น โ ( ๐ฒ ) ] โ 1 โค ๐ .
As a counterpart to this definition, we define:
Definition 12.
Given a point ๐ฑ , a number ๐ฟ
0 and an almost-everywhere differentiable function ๐น , define
โ โ ๐น โ ( ๐ฑ ) โ 1 , ๐ฟ โ inf ๐ โ ๐ต โ ( ๐ฑ , ๐ฟ ) | , 1 | ๐ | โ ๐ฒ โ ๐ ๐ฒ
๐ฑ โ 1 | ๐ | โ โ ๐ฒ โ ๐ โ ๐น โ ( ๐ฒ ) โ 1 .
We now can state a theorem similar to Corollary 9. Given that the proof is also very similar, we defer it to Appendix G.
Theorem 13.
Suppose we have a budget of ๐ gradient evaluations. Assume ๐น : โ ๐ โ โ is well-behaved. With the notation in Algorithm 1, set ๐ ๐ to be a random variable sampled uniformly from [ 0 , 1 ] . Set ๐ , ๐พ โ โ and ๐
๐พ โ ๐ . Assume that ๐ผ [ ๐ ๐ , ๐ 2 ] โค ๐บ ๐ 2 for ๐
1 , โฆ , ๐ for all ๐ . Assume that ๐ guarantees โ ๐ซ ๐ โ โ โค ๐ท โ for some user-specified ๐ท โ for all ๐ and ensures the ๐พ -shifting regret bound ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] โค ๐ท โ โ ๐พ โ ๐ โ โ ๐
1 ๐ ๐บ ๐ for all โ ๐ฎ ๐ โ โ โค ๐ท โ . Let ๐ฟ > 0 be an arbitrary number. Set ๐ท โ
๐ฟ / ๐ , ๐
min โก ( โ ( ๐ โ ๐ฟ โ โ ๐
1 ๐ ๐บ ๐ ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 2 / 3 โ , ๐ 2 ) , and ๐พ
โ ๐ ๐ โ . Then we have:
1 ๐พ โ โ ๐ก
1 ๐พ โ โ ๐น โ ( ๐ฐ ยฏ ๐ ) โ 1 , ๐ฟ โค 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ + max โก ( 5 โ ( โ ๐
1 ๐ ๐บ ๐ ) 2 / 3 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 1 / 3 ( ๐ โ ๐ฟ ) 1 / 3 , 6 โ โ ๐
1 ๐ ๐บ ๐ ๐ ) .
Letโs compare this result with Corollary 9. For a fair comparison, we set ๐บ ๐ and ๐บ such that โ ๐
1 ๐ ๐บ ๐ 2
๐บ 2 . Then, we can lower bound โฅ โ โฅ ๐ฟ with 1 ๐ โฅ โ โฅ 1 , ๐ฟ . Hence, under the assumption ๐ผ [ โ ๐ ๐ โ 2 ]
โ ๐
1 ๐ ๐ผ [ ๐ ๐ , ๐ 2 ] โค โ ๐
1 ๐ ๐บ ๐ 2
๐บ 2 , Corollary 9 implies 1 ๐พ โ โ ๐ก
1 ๐พ โ โ ๐น โ ( ๐ฐ ยฏ ๐ ) โ 1 , ๐ฟ โค ๐ โ ( ๐บ 2 / 3 โ ๐ ( ๐ โ ๐ฟ ) 1 / 3 ) .
Now, let us see what would happen if we instead employed the above Corollary 13. First, observe that โ ๐
1 ๐ ๐บ ๐ โค ๐ โ โ ๐
1 ๐ ๐บ ๐ 2 โค ๐ โ ๐บ . Substituting this expression into Theorem 13 now gives an upper bound on โฅ โ โฅ 1 , ๐ฟ that is ๐ โ ( ๐ 1 / 3 โ ๐บ 2 / 3 ( ๐ โ ๐ฟ ) 1 / 3 ) , which is better than the one we could obtain from Corollary 9 under the same assumptions.
5From Non-smooth to Smooth Guarantees
Let us now see what our results imply for smooth objectives. The following two propositions show that for smooth ๐น , a ( ๐ฟ , ๐ ) -stationary point is automatically a ( 0 , ๐ โฒ ) -stationary point for some appropriate ๐ โฒ . The proofs are in Appendix E.
Proposition 14.
Suppose that ๐น is ๐ป -smooth (that is, โ ๐น is ๐ป -Lipschitz) and ๐ฅ also satisfies โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ โค ๐ . Then, โ โ ๐น โ ( ๐ฑ ) โ โค ๐ + ๐ป โ ๐ฟ .
Proposition 15.
Suppose that ๐น is ๐ฝ -second-order-smooth (that is, โ โ 2 ๐น โ ( ๐ฑ ) โ โ 2 ๐น โ ( ๐ฒ ) โ op โค ๐ฝ โ โ ๐ฑ โ ๐ฒ โ for all ๐ฑ and ๐ฒ ). Suppose also that ๐ฑ satisfies โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ โค ๐ . Then, โ โ ๐น โ ( ๐ฑ ) โ โค ๐ + ๐ฝ 2 โ ๐ฟ 2 .
Now, recall that Corollary 9 shows that we can find a ( ๐ฟ , ๐ ) stationary point in ๐ โ ( ๐ โ 3 โ ๐ฟ โ 1 ) iteration. Thus, Proposition 14 implies that by setting ๐ฟ
๐ / ๐ป , we can find a ( 0 , ๐ ) -stationary point of an ๐ป -smooth objective ๐น in ๐ โ ( ๐ โ 4 ) iterations, which matches the (optimal) guarantee of standard SGD (Ghadimi & Lan, 2013; Arjevani et al., 2019). Further, Proposition 15 shows that by setting ๐ฟ
๐ / ๐ฝ , we can find a ( 0 , ๐ ) -stationary point of a ๐ฝ -second order smooth objective in ๐ โ ( ๐ โ 3.5 ) iterations. This matches the performance of more refined SGD variants and is also known to be tight (Fang et al., 2019; Cutkosky & Mehta, 2020; Arjevani et al., 2020). In summary: the online-to-non-convex conversion also recovers the optimal results for smooth stochastic losses.
6Deterministic and Smooth Case
We will now consider the case of a non-stochastic oracle (that is, Grad โ ( ๐ฑ , ๐ณ )
โ ๐น โ ( ๐ฑ ) for all ๐ณ , ๐ฑ ) and ๐น is ๐ป -smooth (i.e. โ ๐น is ๐ป -Lipschitz). We will show that optimistic online algorithms (Rakhlin & Sridharan, 2013; Hazan & Kale, 2010) achieve rates matching the optimal deterministic results. In particular, we consider online algorithms that ensure static regret:
๐ ๐ โ ( ๐ฎ ) โค ๐ โ ( ๐ท โ โ ๐ก
1 ๐ โ ๐ก ๐ก โ ๐ ๐ก โ 2 ) ,
(2)
for some โhintโ vectors ๐ก ๐ก . In Appendix B, we provide an explicit construction of such an algorithm for completeness. The standard setting for the hints is ๐ก ๐ก
๐ ๐ก โ 1 . As explained in Section 2.2, to obtain a ๐พ -shifting regret it will be enough to reset the algorithm every ๐ iterations.
Theorem 16.
Suppose we have a budget of ๐ gradient evaluations. and that we have an online algorithm ๐ ๐ โ ๐ก โ ๐ โ ๐ก โ ๐ โ ๐ that guarantees โ ๐ซ ๐ โ โค ๐ท for all ๐ and ensures the optimistic regret bound ๐ ๐ โ ( ๐ฎ ) โค ๐ถ โ ๐ท โ โ ๐ก
1 ๐ โ ๐ ๐ก โ ๐ ๐ก โ 1 โ 2 for some constant ๐ถ , and we define ๐ 0
๐ . In Algorithm 1, set ๐ to be ๐ static that is reset every ๐ rounds. Let ๐ฟ > 0 be an arbitrary number. Set ๐ท
๐ฟ / ๐ , ๐
min โก ( โ ( ๐ถ โ ๐ฟ 2 โ ๐ป โ ๐ ) 2 / 5 ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 2 / 5 โ , ๐ 2 ) , and ๐พ
โ ๐ ๐ โ . Finally, suppose that ๐น is ๐ป -smooth and that the gradient oracle is deterministic (that is, ๐ ๐
โ ๐น โ ( ๐ฐ ๐ ) ). Then we have:
๐ผ [ 1 ๐พ โ โ ๐ก
1 ๐พ โ โ ๐น โ ( ๐ฐ ยฏ ๐ ) โ ๐ฟ ]
โค 2 โ ๐ถ โ ๐บ 1 ๐ + 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐
- max โก ( 6 โ ( ๐ถ โ ๐ป ) 2 / 5 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 3 / 5 ๐ฟ 1 / 5 โ ๐ 3 / 5 , 17 โ ๐ถ โ ๐ฟ โ ๐ป ๐ 3 / 2 ) .
Note that the expectation here encompasses only the randomness in the choice of ๐ ๐ก ๐ , because the gradient oracle is assumed to be deterministic. Theorem 16 finds a ( ๐ฟ , ๐ ) stationary point in ๐ โ ( ๐ โ 5 / 3 โ ๐ฟ โ 1 / 3 ) iteratations. Thus, by setting ๐ฟ
๐ / ๐ป , Proposition 14 shows we can find a ( 0 , ๐ ) stationary point in ๐ โ ( ๐ โ 2 ) iterations, which matches the standard optimal rate (Carmon et al., 2021).
Proof.
First, observe that for all ๐ , ๐ก , โ ๐ฐ ยฏ ๐ โ ๐ฐ ๐ก ๐ โ โค ๐ฟ . This holds for precisely the same reason that it holds in Corollary 9.
Next, observe that for ๐
1 we have
๐
๐
โ
(
๐ฎ
๐
)
โค
๐ถ
โ
๐ท
โ
โ
๐ก
1
๐
โ
๐
๐ก
๐
โ
๐
๐ก
โ
1
๐
โ
2
โค
๐ถ
โ
๐ท
โ
๐บ
1
2
+
โ
๐ก
2
๐
โ
โ
๐น
โ
(
๐ฐ
๐ก
๐
)
โ
โ
๐น
โ
(
๐ฐ
๐ก
โ
1
๐
)
โ
2
โค
๐ถ
โ
๐ท
โ
๐บ
1
2
+
โ
๐ก
2 ๐ ๐ป 2 โ โ ๐ฐ ๐ก ๐ โ ๐ฐ ๐ก โ 1 ๐ โ 2
โค ๐ถ โ ๐ท โ ๐บ 1 2 + 4 โ ๐ป 2 โ ๐ โ ๐ท 2 โค ๐ถ โ ๐ท โ ๐บ 1 + 2 โ ๐ถ โ ๐ท 2 โ ๐ป โ ๐ .
Similarly, for ๐
1 , we observe that
โ ๐ก
1
๐
โ
๐
๐ก
๐
โ
๐
๐ก
โ
1
๐
โ
2
โค
โ
๐ก
2
๐
โ
โ
๐น
โ
(
๐ฐ
๐ก
๐
)
โ
โ
๐น
โ
(
๐ฐ
๐ก
โ
1
๐
)
โ
2
+
โ
โ
๐น
โ
(
๐ฐ
1
๐
)
โ
โ
๐น
โ
(
๐ฐ
๐
๐
โ
1
)
โ
2
โค
๐ป
2
โ
(
โ
๐ฐ
1
๐
โ
๐ฐ
๐
๐
โ
1
โ
2
+
โ
๐ก
2 ๐ โ ๐ฐ ๐ก ๐ โ ๐ฐ ๐ก โ 1 ๐ โ 2 )
โค 4 โ ๐ โ ๐ป 2 โ ๐ท 2 .
Thus, we have
๐
๐
โ
(
๐ฎ
๐
)
โค
๐ถ
โ
๐ท
โ
โ
๐ก
1 ๐ โ ๐ ๐ก ๐ โ ๐ ๐ก โ 1 ๐ โ 2
โค ๐ถ โ ๐ท โ 4 โ ๐ป 2 โ ๐ โ ๐ท 2
โค 2 โ ๐ถ โ ๐ท 2 โ ๐ป โ ๐ .
Now, applying Theorem 8 in concert with the above bounds on ๐ ๐ โ ( ๐ฎ ๐ ) , we have
๐ผ [ 1 ๐พ โ โ ๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1
๐
โ
๐น
โ
(
๐ฐ
๐ก
๐
)
โ
]
โค
2
โ
(
๐น
โ
(
๐ฑ
0
)
โ
๐น
โ
)
๐ท
โ
๐
+
2
โ
๐ถ
โ
๐ท
โ
๐บ
1
+
4
โ
๐ถ
โ
๐พ
โ
๐ท
2
โ
๐ป
โ
๐
๐ท
โ
๐
2 โ ๐ โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ + 2 โ ๐ถ โ ๐บ 1 ๐ + 4 โ ๐ถ โ ๐ฟ โ ๐ป ๐ 3 / 2
โค max โก ( 6 โ ( ๐ถ โ ๐ป ) 2 / 5 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 3 / 5 ๐ฟ 1 / 5 โ ๐ 3 / 5 , 17 โ ๐ถ โ ๐ฟ โ ๐ป ๐ 3 / 2 )
- 2 โ ๐ถ โ ๐บ 1 ๐
- 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ .
Recalling that โ ๐ฐ ๐ก ๐ โ ๐ฐ ยฏ ๐ โ โค ๐ฟ , the conclusion follows. โ
6.1Better Results with Second-Order Smoothness
When ๐น is ๐ฝ -second-order smooth (i.e., โ 2 ๐น is ๐ฝ -Lipschitz) we can do even better. First, observe that by Theorem 16, if ๐น is ๐ฝ -second-order-smooth, then by Proposition 15, the ๐ โ ( ๐ โ 5 / 3 โ ๐ฟ โ 1 / 3 ) iteration complexity of Theorem 16 implies an ๐ โ ( ๐ โ 11 / 6 ) iteration complexity for finding ( 0 , ๐ ) stationary points by setting ๐ฟ
๐ / ๐ฝ . This already improves upon the ๐ โ ( ๐ โ 2 ) result for smooth losses, but we can improve still further. The key idea is to generate more informative hints ๐ก ๐ก . If we can make ๐ก ๐ก โ ๐ ๐ก , then by (2), we can achieve smaller regret and so a better guarantee.
To do so, we abandon randomization: instead of choosing ๐ ๐ randomly, we just set ๐ ๐
1 / 2 . This setting still allows ๐น โ ( ๐ฑ ๐ ) โ ๐น โ ( ๐ฑ ๐ โ 1 ) + โจ ๐ ๐ , ๐ซ ๐ โฉ with very little error when ๐น is second-order-smooth. By inspecting the optimistic mirror descent update formula, we can identify an ๐ก ๐ก with โ ๐ก ๐ก โ ๐ ๐ก โ โค ๐ โ ( 1 / ๐ ) using ๐ โ ( log โก ( ๐ ) ) gradient queries. This more advanced online learning algorithm is presented in Algorithm 2 (full analysis in Appendix C).
Overall, Algorithm 2โs update has an โimplicitโ flavor:
๐ซ ๐
ฮ
โ
๐ซ
โ
โค
๐ท
โ
[
๐ซ
๐
โ
1
โ
๐
๐
2
โ
๐ป
]
,
๐
๐
โ
๐น
โ
(
๐ฑ
๐
โ
1
+
๐ซ
๐
/
2
)
.
Algorithm 2 Optimistic Mirror Descent with Careful Hints
โInput: Learning rate
๐
, number
๐
(
๐
will be
๐
โ
(
log
โก
๐
)
), function
๐น
, horizon
๐
, radius
๐ท
โReceive initial iterate
๐ฑ
0
โSet
๐ซ
1
โฒ
๐ โfor ๐ก
1 โ โฆ โ ๐ do โโSet ๐ก ๐ก 0
โ ๐น โ ( ๐ฑ ๐ก โ 1 ) โโfor ๐
1 โ โฆ โ ๐ do โโโSet ๐ก ๐ก ๐
โ ๐น โ ( ๐ฑ ๐ก โ 1 + 1 2 โ ฮ โ ๐ซ โ โค ๐ท โ [ ๐ซ ๐ก โฒ โ ๐ โ ๐ก ๐ก ๐ โ 1 ] ) โโend for โโSet ๐ก ๐ก
๐ก ๐ก ๐ โโOutput ๐ซ ๐ก
ฮ โ ๐ซ โ โค ๐ท โ [ ๐ซ ๐ก โฒ โ ๐ โ ๐ก ๐ก ] โโReceive ๐ก th gradient ๐ ๐ก โโSet ๐ซ ๐ก + 1 โฒ
ฮ โ ๐ซ โ โค ๐ท โ [ ๐ซ ๐ก โฒ โ ๐ โ ๐ ๐ก ] โend for
With this refined online algorithm, we can show the following convergence guarantee, whose proof is in Appendix D.
Theorem 17.
In Algorithm 1, assume that ๐ ๐
โ ๐น โ ( ๐ฐ ๐ ) , and set ๐ ๐
1 2 . Use Algorithm 2 restarted every ๐ rounds as ๐ . Let ๐ฟ > 0 an arbitrary number. Set ๐
min โก ( โ ( ๐ฟ 2 โ ( ๐ป + ๐ฝ โ ๐ฟ ) โ ๐ ) 1 / 3 ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 1 / 3 โ , ๐ / 2 ) and ๐พ
โ ๐ ๐ โ . In Algorithm 2, set ๐
1 / 2 โ ๐ป , ๐ท
๐ฟ / ๐ , and ๐
โ log 2 โก ( ๐ โ ๐บ / ๐ป โ ๐ท ) โ . Finally, suppose that ๐น is ๐ฝ -second-order-smooth. Then, the following facts hold:
1.
For all ๐ , ๐ก , โ ๐ฐ ยฏ ๐ โ ๐ฐ ๐ก ๐ โ โค ๐ฟ .
2.
We have the inequality
1 ๐พ โ โ ๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ
โค 4 โ ๐บ ๐ + 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ โ ๐ฟ
- 3 โ ( ๐ป
- ๐ฝ โ ๐ฟ ) 1 / 3 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 2 / 3 ๐ฟ 1 / 3 โ ๐ 2 / 3
- 10 โ ๐ฟ โ ( ๐ป
- ๐ฝ โ ๐ฟ ) ๐ 2 .
3.
With ๐ฟ
๐ป 1 / 7 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ( ๐ฑ ๐ ) ) 2 / 7 ๐ฝ 3 / 7 โ ๐ 2 / 7 , we have
1
๐พ
โ
๐ก
1 ๐พ โ โ ๐น โ ( ๐ฐ ยฏ ๐ ) โ โค ๐ โ ( ๐ฝ 1 / 7 โ ๐ป 2 / 7 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 4 / 7 ๐ 4 / 7 ) .
Moreover, the total number of gradient queries consumed is ๐ โ ๐
๐ โ ( ๐ โ log โก ( ๐ ) )
This result finds a ( ๐ฟ , ๐ ) stationary point in ๐ ~ โ ( ๐ โ 3 / 2 โ ๐ฟ โ 1 / 2 ) iterations. Via Proposition 15, this translates to ๐ ~ โ ( ๐ โ 7 / 4 ) iterations for finding a ( 0 , ๐ ) stationary point, matching the best known rate (up to a logarithmic factor) (Carmon et al., 2017). Note that this may not be optimal: the best lower bound is ฮฉ โ ( ๐ โ 12 / 7 ) (Carmon et al., 2021). Intriguingly, our technique seems distinct from previous work, which usually relies on acceleration and detecting or exploiting negative curvature (Carmon et al., 2017; Agarwal et al., 2016; Carmon et al., 2018; Li & Lin, 2022).
7Lower Bounds
In this section, we show that our ๐ โ ( ๐ โ 3 โ ๐ฟ โ 1 ) complexity achieved in Corollary 9 is tight. We do this by a simple extension of the lower bound for stochastic smooth non-convex optimization of Arjevani et al. (2019). We provide an informal statement and proof-sketch below. The formal result (Theorem 28) and proof is provided in Appendix F.
Theorem 18 (informal).
There is a universal constant ๐ถ such that for any ๐ฟ , ๐ , ๐พ and ๐บ โฅ ๐ถ โ ๐ โ ๐พ ๐ฟ , for any first-order algorithm ๐ , there is a ๐บ -Lipschitz, ๐ถ โ function ๐น : โ ๐ โ โ for some ๐ with ๐น โ ( 0 ) โ inf ๐ฑ ๐น โ ( ๐ฑ ) โค ๐พ and a stochastic first-order gradient oracle for ๐น whose outputs ๐ satisfy ๐ผ [ โ ๐ โ 2 ] โค ๐บ 2 such that such that ๐ requires ฮฉ โ ( ๐บ 2 โ ๐พ / ๐ฟ โ ๐ 3 ) stochastic oracle queries to identify a point ๐ฑ with ๐ผ [ โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ ] โค ๐ .
Proof sketch.
The construction of Arjevani et al. (2019) provides, for any ๐ a function ๐น and stochastic oracle whose outputs have variance at most ๐ 2 such that ๐น is ๐ป -smooth, ๐ โ ( ๐ป โ ๐พ ) -Lipschitz and ๐ requires ฮฉ โ ( ๐ 2 โ ๐ป โ ๐พ / ๐ 4 ) oracle queries to find a point ๐ฑ with โ โ ๐น โ ( ๐ฑ ) โ โค 2 โ ๐ . By setting ๐ป
๐ ๐ฟ and ๐
๐บ / 2 , this becomes an ๐ โ ๐พ / ๐ฟ -Lipschitz function, and so is at most ๐บ / 2 -Lipschitz. Thus, the second moment of the gradient oracle is at most ๐บ 2 / 2 + ๐บ 2 / 2
๐บ 2 . Further, the algorithm requires ฮฉ โ ( ๐บ 2 โ ๐พ / ๐ฟ โ ๐ 3 ) queries to find a point ๐ฑ with โ โ ๐น โ ( ๐ฑ ) โ โค 2 โ ๐ . Now, if โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ โค ๐ , then since ๐น is ๐ป
๐ ๐ฟ -smooth, by Proposition 14, โ โ ๐น โ ( ๐ฑ ) โ โค ๐ + ๐ฟ โ ๐ป
2 โ ๐ . Thus, we see that we need ฮฉ โ ( ๐บ 2 โ ๐พ / ๐ฟ โ ๐ 3 ) queries to find a point with โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ โค ๐ as desired. โ
8Conclusion
We have presented a new online-to-non-convex conversion technique that applies online learning algorithms to non-convex and non-smooth stochastic optimization. When used with online gradient descent, this achieves the optimal ๐ โ 3 โ ๐ฟ โ 1 complexity for finding ( ๐ฟ , ๐ ) stationary points.
These results suggest new directions for work in online learning. Much past work is motivated by the online-to-batch conversion relating static regret to convex optimization. We employ switching regret for non-convex optimization. More refined analysis may be possible via generalizations such as strongly adaptive or dynamic regret (Daniely et al., 2015; Jun et al., 2017; Zhang et al., 2018; Jacobsen & Cutkosky, 2022; Cutkosky, 2020; Lu et al., 2022; Luo et al., 2022; Zhang et al., 2021; Baby & Wang, 2022; Zhang et al., 2022). Moreover, our analysis assumes perfect tuning of constants (e.g., ๐ท , ๐ , ๐พ ) for simplicity. In practice, we would prefer to adapt to unknown parameters, motivating new applications and problems for adaptive online learning, which is already an area of active current investigation (see, e.g., Orabona & Pรกl, 2015; Hoeven et al., 2018; Cutkosky & Orabona, 2018; Cutkosky, 2019; Mhammedi & Koolen, 2020; Chen et al., 2021; Sachs et al., 2022; Zhang & Cutkosky, 2022; Wang et al., 2022). We hope that this expertise can be applied in the non-convex setting as well.
Finally, our results leave an important question unanswered: the current best-known algorithm for deterministic non-smooth optimization still requires ๐ โ ( ๐ โ 3 โ ๐ฟ โ 1 ) iterations to find a ( ๐ฟ , ๐ ) -stationary point (Zhang et al., 2020b). We achieve this same result even in the stochastic case. Thus it is natural to wonder if the deterministic rate is tight. For example, is the ๐ โ ( ๐ โ 3 / 2 โ ๐ฟ โ 1 / 2 ) complexity we achieve in the smooth setting also achievable in the non-smooth setting? Intriguingly, prior work Kornowski & Shamir (2022a); Jordan et al. (2022) shows that randomization is necessary, even if the gradient oracle itself is deterministic.
Acknowledgements
The authors would like to thank Zijian Liu for identifying an error in the original proof of Theorem 18.
Ashok Cutkosky is supported by the National Science Foundation grant CCF-2211718 as well as a Google gift. Francesco Orabona is supported by the National Science Foundation under the grants no. 2022446 โFoundations of Data Science Instituteโ and no. 2046096 โCAREER: Parameter-free Optimization Algorithms for Machine Learningโ.
References Agarwal et al. (2016) โ Agarwal, N., Allen-Zhu, Z., Bullins, B., Hazan, E., and Ma, T.Finding approximate local minima for nonconvex optimization in linear time.arXiv preprint arXiv:1611.01146, 2016. Allen-Zhu (2018) โ Allen-Zhu, Z.Natasha 2: Faster non-convex optimization than SGD.In Advances in neural information processing systems, pp. 2675โ2686, 2018. Arjevani et al. (2019) โ Arjevani, Y., Carmon, Y., Duchi, J. C., Foster, D. J., Srebro, N., and Woodworth, B.Lower bounds for non-convex stochastic optimization.arXiv preprint arXiv:1912.02365, 2019. Arjevani et al. (2020) โ Arjevani, Y., Carmon, Y., Duchi, J. C., Foster, D. J., Sekhari, A., and Sridharan, K.Second-order information in non-convex stochastic optimization: Power and limitations.In Conference on Learning Theory, pp. 242โ299, 2020. Baby & Wang (2022) โ Baby, D. and Wang, Y.-X.Optimal dynamic regret in proper online learning with strongly convex losses and beyond.In International Conference on Artificial Intelligence and Statistics, pp. 1805โ1845. PMLR, 2022. Bertsekas (1973) โ Bertsekas, D. P.Stochastic optimization problems with nondifferentiable cost functionals.Journal of Optimization Theory and Applications, 12(2):218โ231, 1973. Bianchi et al. (2022) โ Bianchi, P., Hachem, W., and Schechtman, S.Convergence of constant step stochastic gradient descent for non-smooth non-convex functions.Set-Valued and Variational Analysis, 30(3):1117โ1147, 2022. Bubeck (2015) โ Bubeck, S.Convex optimization: Algorithms and complexity.Foundations and Trendsยฎ in Machine Learning, 8(3-4):231โ357, 2015. Carmon et al. (2017) โ Carmon, Y., Duchi, J. C., Hinder, O., and Sidford, A.โconvex until proven guiltyโ: Dimension-free acceleration of gradient descent on non-convex functions.In International Conference on Machine Learning, pp. 654โ663. PMLR, 2017. Carmon et al. (2018) โ Carmon, Y., Duchi, J. C., Hinder, O., and Sidford, A.Accelerated methods for nonconvex optimization.SIAM Journal on Optimization, 28(2):1751โ1772, 2018. Carmon et al. (2019) โ Carmon, Y., Duchi, J. C., Hinder, O., and Sidford, A.Lower bounds for finding stationary points I.Mathematical Programming, pp. 1โ50, 2019. Carmon et al. (2021) โ Carmon, Y., Duchi, J. C., Hinder, O., and Sidford, A.Lower bounds for finding stationary points II: first-order methods.Mathematical Programming, 185(1-2), 2021. Cesa-Bianchi & Lugosi (2006) โ Cesa-Bianchi, N. and Lugosi, G.Prediction, learning, and games.Cambridge University Press, 2006. Cesa-Bianchi et al. (2004) โ Cesa-Bianchi, N., Conconi, A., and Gentile, C.On the generalization ability of on-line learning algorithms.Information Theory, IEEE Transactions on, 50(9):2050โ2057, 2004. Chen et al. (2021) โ Chen, L., Luo, H., and Wei, C.-Y.Impossible tuning made possible: A new expert algorithm and its applications.In Conference on Learning Theory, pp. 1216โ1259. PMLR, 2021. Chen et al. (2023) โ Chen, L., Xu, J., and Luo, L.Faster gradient-free algorithms for nonsmooth nonconvex stochastic optimization.2023. Clarke (1990) โ Clarke, F. H.Optimization and nonsmooth analysis.SIAM, 1990. Cutkosky (2019) โ Cutkosky, A.Combining online learning guarantees.In Proceedings of the Thirty-Second Conference on Learning Theory, pp. 895โ913, 2019. Cutkosky (2020) โ Cutkosky, A.Parameter-free, dynamic, and strongly-adaptive online learning.In International Conference on Machine Learning, volume 2, 2020. Cutkosky & Mehta (2020) โ Cutkosky, A. and Mehta, H.Momentum improves normalized SGD.In International Conference on Machine Learning, 2020. Cutkosky & Orabona (2018) โ Cutkosky, A. and Orabona, F.Black-box reductions for parameter-free online learning in Banach spaces.In Conference On Learning Theory, pp. 1493โ1529, 2018. Cutkosky & Orabona (2019) โ Cutkosky, A. and Orabona, F.Momentum-based variance reduction in non-convex SGD.In Advances in Neural Information Processing Systems, pp. 15210โ15219, 2019. Daniely et al. (2015) โ Daniely, A., Gonen, A., and Shalev-Shwartz, S.Strongly adaptive online learning.In International Conference on Machine Learning, pp. 1405โ1411. PMLR, 2015. Davis et al. (2021) โ Davis, D., Drusvyatskiy, D., Lee, Y. T., Padmanabhan, S., and Ye, G.A gradient sampling method with complexity guarantees for lipschitz functions in high and low dimensions.arXiv preprint arXiv:2112.06969, 2021. Duchi et al. (2010) โ Duchi, J., Hazan, E., and Singer, Y.Adaptive subgradient methods for online learning and stochastic optimization.In Conference on Learning Theory (COLT), pp. 257โ269, 2010. Duchi et al. (2012) โ Duchi, J. C., Bartlett, P. L., and Wainwright, M. J.Randomized smoothing for stochastic optimization.SIAM Journal on Optimization, 22(2):674โ701, 2012. Fang et al. (2018) โ Fang, C., Li, C. J., Lin, Z., and Zhang, T.SPIDER: Near-optimal non-convex optimization via stochastic path-integrated differential estimator.In Advances in Neural Information Processing Systems, pp. 689โ699, 2018. Fang et al. (2019) โ Fang, C., Lin, Z., and Zhang, T.Sharp analysis for nonconvex sgd escaping from saddle points.In Conference on Learning Theory, pp. 1192โ1234, 2019. Faw et al. (2022) โ Faw, M., Tziotis, I., Caramanis, C., Mokhtari, A., Shakkottai, S., and Ward, R.The power of adaptivity in sgd: Self-tuning step sizes with unbounded gradients and affine variance.In Conference on Learning Theory, pp. 313โ355. PMLR, 2022. Flaxman et al. (2005) โ Flaxman, A. D., Kalai, A. T., and McMahan, H. B.Online convex optimization in the bandit setting: gradient descent without a gradient.In Proceedings of the sixteenth annual ACM-SIAM symposium on Discrete algorithms, pp. 385โ394, 2005. Ghadimi & Lan (2013) โ Ghadimi, S. and Lan, G.Stochastic first-and zeroth-order methods for nonconvex stochastic programming.SIAM Journal on Optimization, 23(4):2341โ2368, 2013. Ghai et al. (2022) โ Ghai, U., Lu, Z., and Hazan, E.Non-convex online learning via algorithmic equivalence.arXiv preprint arXiv:2205.15235, 2022. Goyal et al. (2017) โ Goyal, P., Dollรกr, P., Girshick, R., Noordhuis, P., Wesolowski, L., Kyrola, A., Tulloch, A., Jia, Y., and He, K.Accurate, large minibatch SGD: Training ImageNet in 1 hour.arXiv preprint arXiv:1706.02677, 2017. Hazan (2019) โ Hazan, E.Introduction to online convex optimization.arXiv preprint arXiv:1909.05207, 2019. Hazan & Kale (2010) โ Hazan, E. and Kale, S.Extracting certainty from uncertainty: Regret bounded by variation in costs.Machine learning, 80(2-3):165โ188, 2010. Hazan et al. (2017) โ Hazan, E., Singh, K., and Zhang, C.Efficient regret minimization in non-convex games.In International Conference on Machine Learning, pp. 1433โ1441. PMLR, 2017. Herbster & Warmuth (1998) โ Herbster, M. and Warmuth, M. K.Tracking the best regressor.In Proceedings of the eleventh annual conference on Computational learning theory, pp. 24โ31, 1998. Hoeven et al. (2018) โ Hoeven, D., Erven, T., and Kotลowski, W.The many faces of exponential weights in online learning.In Conference On Learning Theory, pp. 2067โ2092. PMLR, 2018. Jacobsen & Cutkosky (2022) โ Jacobsen, A. and Cutkosky, A.Parameter-free mirror descent.In Proceedings of Thirty Fifth Conference on Learning Theory, volume 178 of Proceedings of Machine Learning Research, pp. 4160โ4211. PMLR, 2022. Jordan et al. (2022) โ Jordan, M. I., Lin, T., and Zampetakis, M.On the complexity of deterministic nonsmooth and nonconvex optimization.arXiv preprint arXiv:2209.12463, 2022. Jun et al. (2017) โ Jun, K.-S., Orabona, F., Wright, S., and Willett, R.Improved strongly adaptive online learning using coin betting.In Artificial Intelligence and Statistics, pp. 943โ951. PMLR, 2017. Karimireddy et al. (2020) โ Karimireddy, S. P., Jaggi, M., Kale, S., Mohri, M., Reddi, S. J., Stich, S. U., and Suresh, A. T.Mime: Mimicking centralized stochastic algorithms in federated learning.arXiv preprint arXiv:2008.03606, 2020. Kingma & Ba (2014) โ Kingma, D. and Ba, J.Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980, 2014. Kornowski & Shamir (2022a) โ Kornowski, G. and Shamir, O.On the complexity of finding small subgradients in nonsmooth optimization.In OPT 2022: Optimization for Machine Learning (NeurIPS 2022 Workshop), 2022a. Kornowski & Shamir (2022b) โ Kornowski, G. and Shamir, O.Oracle complexity in nonsmooth nonconvex optimization.Journal of Machine Learning Research, 23(314):1โ44, 2022b. Kornowski & Shamir (2023) โ Kornowski, G. and Shamir, O.An algorithm with optimal dimension-dependence for zero-order nonsmooth nonconvex stochastic optimization.arXiv preprint arXiv:2307.04504, 2023. Levy et al. (2021) โ Levy, K., Kavis, A., and Cevher, V.Storm+: Fully adaptive SGD with recursive momentum for nonconvex optimization.Advances in Neural Information Processing Systems, 34:20571โ20582, 2021. Li & Lin (2022) โ Li, H. and Lin, Z.Restarted nonconvex accelerated gradient descent: No more polylogarithmic factor in the ๐ โ ( ๐ โ 7 / 4 ) complexity.In International Conference on Machine Learning. PMLR, 2022. Li & Orabona (2019) โ Li, X. and Orabona, F.On the convergence of stochastic gradient descent with adaptive stepsizes.In The 22nd International Conference on Artificial Intelligence and Statistics, pp. 983โ992. PMLR, 2019. Li et al. (2021) โ Li, X., Zhuang, Z., and Orabona, F.A second look at exponential and cosine step sizes: Simplicity, adaptivity, and performance.In International Conference on Machine Learning, pp. 6553โ6564. PMLR, 2021. Lin et al. (2022) โ Lin, T., Zheng, Z., and Jordan, M.Gradient-free methods for deterministic and stochastic nonsmooth nonconvex optimization.Advances in Neural Information Processing Systems, 35:26160โ26175, 2022. Liu et al. (2022) โ Liu, Z., Nguyen, T. D., Nguyen, T. H., Ene, A., and Nguyen, H. L.META-STORM: Generalized fully-adaptive variance reduced SGD for unbounded functions.arXiv preprint arXiv:2209.14853, 2022. Loshchilov & Hutter (2016) โ Loshchilov, I. and Hutter, F.SGDR: Stochastic gradient descent with warm restarts.arXiv preprint arXiv:1608.03983, 2016. Loshchilov & Hutter (2018) โ Loshchilov, I. and Hutter, F.Decoupled weight decay regularization.In International Conference on Learning Representations, 2018. Lu et al. (2022) โ Lu, Z., Xia, W., Arora, S., and Hazan, E.Adaptive gradient methods with local guarantees.arXiv preprint arXiv:2203.01400, 2022. Luo et al. (2022) โ Luo, H., Zhang, M., Zhao, P., and Zhou, Z.-H.Corralling a larger band of bandits: A case study on switching regret for linear bandits.In Conference on Learning Theory, 2022. McMahan & Streeter (2010) โ McMahan, H. B. and Streeter, M.Adaptive bound optimization for online convex optimization.In Proceedings of the 23rd Annual Conference on Learning Theory (COLT), pp. 244โ256, 2010. Mhammedi & Koolen (2020) โ Mhammedi, Z. and Koolen, W. M.Lipschitz and comparator-norm adaptivity in online learning.Conference on Learning Theory, pp. 2858โ2887, 2020. Orabona (2019) โ Orabona, F.A modern introduction to online learning.arXiv preprint arXiv:1912.13213, 2019. Orabona & Pรกl (2015) โ Orabona, F. and Pรกl, D.Scale-free algorithms for online linear optimization.In Chaudhuri, K., Gentile, C., and Zilles, S. (eds.), Algorithmic Learning Theory, pp. 287โ301. Springer International Publishing, 2015. Patel & Berahas (2022) โ Patel, V. and Berahas, A. S.Gradient descent in the absence of global lipschitz continuity of the gradients: Convergence, divergence and limitations of its continuous approximation.arXiv preprint arXiv:2210.02418, 2022. Rakhlin & Sridharan (2013) โ Rakhlin, A. and Sridharan, K.Online learning with predictable sequences.In Conference on Learning Theory (COLT), pp. 993โ1019, 2013. Sachs et al. (2022) โ Sachs, S., Hadiji, H., van Erven, T., and Guzmรกn, C.Between stochastic and adversarial online convex optimization: Improved regret bounds via smoothness.arXiv preprint arXiv:2202.07554, 2022. Stein & Shakarchi (2009) โ Stein, E. M. and Shakarchi, R.Real analysis: measure theory, integration, and Hilbert spaces.Princeton University Press, 2009. Tian & So (2022) โ Tian, L. and So, A. M.-C.No dimension-free deterministic algorithm computes approximate stationarities of lipschitzians.arXiv preprint arXiv:2210.06907, 2022. Tian et al. (2022) โ Tian, L., Zhou, K., and So, A. M.-C.On the finite-time complexity and practical computation of approximate stationarity concepts of lipschitz functions.In International Conference on Machine Learning, pp. 21360โ21379. PMLR, 2022. Tripuraneni et al. (2018) โ Tripuraneni, N., Stern, M., Jin, C., Regier, J., and Jordan, M. I.Stochastic cubic regularization for fast nonconvex optimization.In Advances in neural information processing systems, pp. 2899โ2908, 2018. Wang et al. (2022) โ Wang, G., Hu, Z., Muthukumar, V., and Abernethy, J.Adaptive oracle-efficient online learning.arXiv preprint arXiv:2210.09385, 2022. You et al. (2019) โ You, Y., Li, J., Reddi, S., Hseu, J., Kumar, S., Bhojanapalli, S., Song, X., Demmel, J., Keutzer, K., and Hsieh, C.-J.Large batch optimization for deep learning: Training BERT in 76 minutes.arXiv preprint arXiv:1904.00962, 2019. Zhang & Cutkosky (2022) โ Zhang, J. and Cutkosky, A.Parameter-free regret in high probability with heavy tails.In Advances in Neural Information Processing Systems, 2022. Zhang et al. (2020a) โ Zhang, J., Karimireddy, S. P., Veit, A., Kim, S., Reddi, S., Kumar, S., and Sra, S.Why are adaptive methods good for attention models?Advances in Neural Information Processing Systems, 33:15383โ15393, 2020a. Zhang et al. (2020b) โ Zhang, J., Lin, H., Jegelka, S., Sra, S., and Jadbabaie, A.Complexity of finding stationary points of nonconvex nonsmooth functions.In International Conference on Machine Learning, 2020b. Zhang et al. (2018) โ Zhang, L., Lu, S., and Zhou, Z.-H.Adaptive online learning in dynamic environments.In Proceedings of the 32nd International Conference on Neural Information Processing Systems, pp. 1330โ1340, 2018. Zhang et al. (2021) โ Zhang, L., Wang, G., Tu, W.-W., Jiang, W., and Zhou, Z.-H.Dual adaptivity: A universal algorithm for minimizing the adaptive regret of convex functions.Advances in Neural Information Processing Systems, 34:24968โ24980, 2021. Zhang et al. (2022) โ Zhang, Z., Cutkosky, A., and Paschalidis, I.Adversarial tracking control via strongly adaptive online learning with memory.In International Conference on Artificial Intelligence and Statistics, pp. 8458โ8492. PMLR, 2022. Zhou et al. (2018) โ Zhou, D., Xu, P., and Gu, Q.Stochastic nested variance reduction for nonconvex optimization.In Proceedings of the 32nd International Conference on Neural Information Processing Systems, pp. 3925โ3936, 2018. Zhuang et al. (2019) โ Zhuang, Z., Cutkosky, A., and Orabona, F.Surrogate losses for online learning of stepsizes in stochastic non-convex optimization.In International Conference on Machine Learning, pp. 7664โ7672, 2019. Zinkevich (2003) โ Zinkevich, M.Online convex programming and generalized infinitesimal gradient ascent.In Proceedings of the 20th International Conference on Machine Learning (ICML-03), pp. 928โ936, 2003. Appendix AProof of Proposition 2
First, we state a technical lemma that will be used to prove Proposition 2.
Lemma 19.
Let ๐น : โ ๐ โ โ be locally Lipschitz. Then, ๐น is differentiable almost everywhere, is Lipschitz on all compact sets, and for all ๐ฏ โ โ ๐ , ๐ฑ โฆ โจ โ ๐น โ ( ๐ฑ ) , ๐ฏ โฉ is integrable on all compact sets. Finally, for any compact measurable set ๐ท โ โ ๐ , the vector ๐ฐ
โซ ๐ท โ ๐น โ ( ๐ฑ ) โ d ๐ฑ is well-defined and the operator ๐ โ ( ๐ฏ )
โซ ๐ท โจ โ ๐น โ ( ๐ฑ ) , ๐ฏ โฉ โ d ๐ฑ is linear and equal to โจ ๐ฐ , ๐ฏ โฉ .
Proof.
First, observe that since ๐น is locally Lipschitz, for every point ๐ฑ โ โ ๐ with rational coordinates there is a neighborhood ๐ ๐ฑ of ๐ฑ on which ๐น is Lipschitz. Thus, by Rademacherโs theorem, ๐น is differentiable almost everywhere in ๐ ๐ฑ . Since the set of points with rational coordiantes is dense in โ ๐ , โ ๐ is equal to the countable union โ ๐ ๐ฑ . Thus, since the set of points of non-differentiability of ๐น in ๐ ๐ฑ is measure zero, the total set of points of non-differentability is a countable union of sets of measure zero and so must be measure zero. Thus ๐น is differentiable almost everywhere. This implies that ๐น is differentiable at ๐ฑ + ๐ โ ๐ฎ with probability 1.
Next, observe that for any compact set ๐ โ โ ๐ , for every point ๐ฑ โ ๐ with rational coordinates, ๐น is Lipschitz on some neighborhood ๐ ๐ฑ containing ๐ฑ with Lipschitz constant ๐บ ๐ฑ . Since ๐ is compact, there is a finite set ๐ฑ 1 , โฆ , ๐ฑ ๐พ such that ๐
โ ๐ ๐ฑ ๐ . Therefore, ๐น is max ๐ โก ๐บ ๐ฑ ๐ -Lipschitz on ๐ and so ๐น is Lipschitz on every compact set.
Now, for almost all ๐ฑ , for all ๐ฏ we have that the limit lim ๐ฟ โ 0 ๐น โ ( ๐ฑ + ๐ฟ โ ๐ฏ ) โ ๐น โ ( ๐ฑ ) ๐ฟ exists and is equal to โจ โ ๐น โ ( ๐ฑ ) , ๐ฏ โฉ by definition of differentiability. Further, on any compact set ๐ we have that | ๐น โ ( ๐ฑ + ๐ฟ โ ๐ฏ ) โ ๐น โ ( ๐ฑ ) | ๐ฟ โค ๐ฟ for some ๐ฟ for all ๐ฑ โ ๐ . Therefore, by the bounded convergence theorem (see e.g., Stein & Shakarchi (2009, Theorem 1.4)), we have that โจ โ ๐น โ ( ๐ฑ ) , ๐ฏ โฉ is integrable on ๐ .
Next, we prove the linearity of the operator ๐ . Observe that for any vectors ๐ฏ and ๐ฐ , and scalar ๐ , by linearity of integration, we have
โซ ๐ท โจ โ ๐น โ ( ๐ฑ ) , ๐ โ ๐ฏ + ๐ฐ โฉ โ d ๐ฑ
โซ ๐ท โจ โ ๐น โ ( ๐ฑ ) , ๐ โ ๐ฏ โฉ + โจ โ ๐น โ ( ๐ฑ ) , ๐ฐ โฉ โ d โ ๐ฑ
โซ ๐ท ๐ โ โจ โ ๐น โ ( ๐ฑ ) , ๐ฏ โฉ + โจ โ ๐น โ ( ๐ฑ ) , ๐ฐ โฉ โ d โ ๐ฑ
๐ โ โซ ๐ท โจ โ ๐น โ ( ๐ฑ ) , ๐ฏ โฉ โ d ๐ฑ + โซ ๐ท โจ โ ๐น โ ( ๐ฑ ) , ๐ฐ โฉ โ d ๐ฑ .
For the remaining statement, given that โ ๐ is finite dimensional, there must exist ๐ฐ โ โ ๐ such that ๐ โ ( ๐ฏ )
โจ ๐ฐ , ๐ฏ โฉ for all ๐ฏ . Further, ๐ฐ is uniquely determined by โจ ๐ฐ , ๐ ๐ โฉ for ๐
1 , โฆ , ๐ where ๐ ๐ indicates the ๐ th standard basis vector. Then, since โ ๐น โ ( ๐ฑ ) ๐
โจ โ ๐น โ ( ๐ฑ ) , ๐ ๐ โฉ is integrable on compact sets, we have
โจ ๐ฐ , ๐ ๐ โฉ
โซ ๐ท โจ โ ๐น โ ( ๐ฑ ) , ๐ ๐ โฉ โ d ๐ฑ
โซ ๐ท โ ๐น โ ( ๐ฑ ) ๐ โ d ๐ฑ ,
which is the definition of โซ ๐ท โ ๐น โ ( ๐ฑ ) โ d ๐ฑ when the integral is defined. โ
We can now prove the Proposition.
Proof of Proposition 2.
Since ๐น is locally Lipschitz, by Proposition 19, ๐น is Lipschitz on compact sets. Therefore, ๐น must be Lipschitz on the line segment connecting ๐ฑ and ๐ฒ . Thus the function ๐ โ ( ๐ก )
๐น โ ( ๐ฑ + ๐ก โ ( ๐ฒ โ ๐ฑ ) ) is absolutely continuous on [ 0 , 1 ] . As a result, ๐ โฒ is integrable on [ 0 , 1 ] and ๐น โ ( ๐ฒ ) โ ๐น โ ( ๐ฑ )
๐ โ ( 1 ) โ ๐ โ ( 0 )
โซ 0 1 ๐ โฒ โ ( ๐ก ) โ d ๐ก
โซ 0 1 โจ โ ๐น โ ( ๐ฑ + ๐ก โ ( ๐ฒ โ ๐ฑ ) ) , ๐ฒ โ ๐ฑ โฉ โ d ๐ก by the Fundamental Theorem of Calculus (see, e.g., Stein & Shakarchi (2009, Theorem 3.11)).
Now, we tackle the case that ๐น is not differentiable everywhere. Notice that the last statement of the Proposition is an immediate consequence of Lipschitzness. So, we focus on showing the remaining parts.
Now, by Lemma 19, we have that ๐น is differentiable almost everywhere. Further, ๐ ๐ฑ
๐ผ ๐ฎ [ โ ๐น โ ( ๐ฑ + ๐ โ ๐ฎ ) ] exists and satisfies for all ๐ฏ โ โ ๐ :
โจ ๐ ๐ฑ , ๐ฏ โฉ
๐ผ ๐ฎ [ โจ โ ๐น โ ( ๐ฑ + ๐ โ ๐ฎ ) , ๐ฏ โฉ ] .
Notice also that
๐ผ ๐ณ , ๐ฎ [ Grad ^ โ ( ๐ฑ , ( ๐ณ , ๐ฎ ) ) ]
๐ผ ๐ฎ ๐ผ ๐ณ [ Grad โ ( ๐ฑ + ๐ โ ๐ฎ , ๐ณ ) ]
๐ผ ๐ฎ [ โ ๐น โ ( ๐ฑ + ๐ โ ๐ฎ ) ]
๐ ๐ฑ .
So, it remains to show that ๐น ^ is differentiable and โ ๐น ^ โ ( ๐ฑ )
๐ ๐ฑ .
Now, let ๐ฑ be an arbitrary elements of โ ๐ and let ๐ฏ 1 , ๐ฏ 2 , โฆ be any sequence of vectors such that lim ๐ โ โ ๐ฏ ๐
0 and โ ๐ฏ ๐ โ โค ๐ for all ๐ . Then, since the ball of radius 2 โ ๐ centered at ๐ฑ is compact, ๐น is ๐ฟ -Lipschitz inside this ball for some ๐ฟ . Then, we have
lim ๐ โ โ ๐น ^ โ ( ๐ฑ + ๐ฏ ๐ ) โ ๐น ^ โ ( ๐ฑ ) โ โจ ๐ ๐ฑ , ๐ฏ ๐ โฉ โ ๐ฏ ๐ โ
lim ๐ โ โ ๐ผ ๐ข [ ๐น โ ( ๐ฑ + ๐ฏ ๐ + ๐ โ ๐ฎ ) โ ๐น โ ( ๐ฑ + ๐ โ ๐ฎ ) โ โจ โ ๐น โ ( ๐ฑ + ๐ โ ๐ฎ ) , ๐ฏ ๐ โฉ โ ๐ฏ ๐ โ ] .
Now, observe | ๐น โ ( ๐ฑ + ๐ฏ ๐ + ๐ โ ๐ฎ ) โ ๐น โ ( ๐ฑ + ๐ โ ๐ฎ ) | โ ๐ฏ ๐ โ โค ๐ฟ . Further, for all almost all ๐ฎ , ๐น is differentiable at ๐ฑ + ๐ โ ๐ฎ so that lim ๐ โ โ ๐น ( ๐ฑ + ๐ฏ ๐ + ๐ ๐ฎ ) โ ๐น ( ๐ฑ + ๐ ๐ฎ ) โ โจ โ ๐น ( ๐ฑ + ๐ ๐ฎ ) , ๐ฏ ๐ โฉ ] โ ๐ฏ ๐ โ
0 for almost all ๐ฎ . Thus, by the bounded convergence theorem, we have
lim ๐ โ โ ๐น ^ โ ( ๐ฑ + ๐ฏ ๐ ) โ ๐น ^ โ ( ๐ฑ ) โ โจ ๐ ๐ฑ , ๐ฏ ๐ โฉ โ ๐ฏ ๐ โ
0 .
which shows that ๐ ๐ฑ
โ ๐น ^ โ ( ๐ฑ ) .
Finally, observe that since ๐น is Lipschitz on compact sets, ๐น ^ must be also, and so by the first part of the proposition, ๐น ^ is well-behaved. โ
Appendix BAnalysis of (Optimistic) Online Gradient Descent
Optimistic Online Gradient Descent (in its simplest form) is described by Algorithm 3. Here we collect the standard analysis of the algorithm for completeness. None of this analysis is new, and more refined versions can be found in a variety of sources (e.g. Chen et al. (2021)).
Algorithm 3 Optimistic Mirror Descent โInput: Regularizer function ๐ , domain ๐ , time horizon ๐ . โ ๐ฐ ^ 1
๐ โfor ๐ก
1 โ โฆ โ ๐ do โโGenerate โhintโ โ ๐ก โโSet ๐ฐ ๐ก
argmin ๐ฑ โ ๐ โจ ๐ก ๐ก , ๐ฑ โฉ + 1 2 โ โ ๐ฑ โ ๐ฐ ^ ๐ก โ 2 โโOutput ๐ฐ ๐ก and receive loss vector ๐ ๐ก โโSet ๐ฐ ^ ๐ก + 1
argmin ๐ฑ โ ๐ โจ ๐ ๐ก , ๐ฑ โฉ + 1 2 โ โ ๐ฑ โ ๐ฐ ^ ๐ก โ 2 โend for
We will analyze only a simple version of this algorithm, that is when ๐ is an ๐ฟ 2 ball of radius ๐ท in some real Hilbert space (such as โ ๐ ). Then, Algorithm 3 satisfies the following guarantee.
Proposition 20.
Let ๐
{ ๐ฑ : โ ๐ฑ โ โค ๐ท } โ โ for some real Hilbert space โ . Then, with for all ๐ฎ โ ๐ , Algorithm 3 ensures
โ ๐ก
1 ๐ โจ ๐ ๐ก , ๐ฐ ๐ก โ ๐ฎ โฉ โค ๐ท 2 2 โ ๐ + โ ๐ก
1 ๐ ๐ 2 โ โ ๐ ๐ก โ ๐ก ๐ก โ 2 .
Proof.
Now, by Chen et al. (2021, Lemma 15) instantiated with the squared Euclidean distance as Bregman divergence, we have
โจ ๐ ๐ก , ๐ฐ ๐ก โ ๐ฎ โฉ
โค โจ ๐ ๐ก โ ๐ก ๐ก , ๐ฐ ๐ก โ ๐ฐ ^ ๐ก + 1 โฉ + 1 2 โ โ ๐ฎ โ ๐ค ^ ๐ก โ 2 โ 1 2 โ โ ๐ฎ โ ๐ฐ ^ ๐ก + 1 โ 2 โ 1 2 โ โ ๐ฐ ^ ๐ก + 1 โ ๐ฐ ๐ก โ 2 โ 1 2 โ โ ๐ฐ ๐ก โ ๐ฐ ^ ๐ก โ 2
From Young inequality:
โค ๐ โ โ ๐ ๐ก โ ๐ก ๐ก โ 2 2 + โ ๐ฐ ๐ก โ ๐ฐ ^ ๐ก + 1 โ 2 2 โ ๐ + 1 2 โ โ ๐ฎ โ ๐ฐ ^ ๐ก โ 2 โ 1 2 โ โ ๐ฎ โ ๐ฐ ^ ๐ก + 1 โ 2 โ 1 2 โ โ ๐ฐ ^ ๐ก + 1 โ ๐ฐ ๐ก โ 2
โ โ ๐ฐ ๐ก โ ๐ฐ ^ ๐ก โ 2 2 โ ๐
โค ๐ โ โ ๐ ๐ก โ ๐ก ๐ก โ 2 2 + 1 2 โ โ ๐ฎ โ ๐ฐ ^ ๐ก โ 2 โ 1 2 โ โ ๐ฎ โ ๐ฐ ^ ๐ก + 1 โ 2 .
Summing over ๐ก and telescoping, we have
โ ๐ก
1
๐
โจ
๐
๐ก
,
๐ฐ
๐ก
โ
๐ฎ
โฉ
โค
1
2
โ
โ
๐ฎ
โ
๐ฐ
^
1
โ
2
โ
1
2
โ
โ
๐ฎ
โ
๐ฐ
^
๐
+
1
โ
2
+
โ
๐ก
1
๐
๐
โ
โ
๐
๐ก
โ
๐ก
๐ก
โ
2
2
โค
โ
๐ฎ
โ
๐ฐ
^
1
โ
2
2
โ
๐
+
โ
๐ก
1 ๐ ๐ โ โ ๐ ๐ก โ ๐ก ๐ก โ 2 2 โค ๐ท 2 2 โ ๐ + โ ๐ก
1 ๐ ๐ โ โ ๐ ๐ก โ ๐ก ๐ก โ 2 2 . โ
In the case that the hints ๐ก ๐ก are not present, the algorithm becomes online gradient descent (Zinkevich, 2003). In this case, assuming ๐ผ [ โ ๐ ๐ก โ 2 ] โค ๐บ 2 and setting ๐
๐ท ๐บ โ ๐ we obtain the ๐ผ [ ๐ ๐ โ ( ๐ฎ ) ] โค ๐ท โ ๐บ โ ๐ for all ๐ฎ such that โ ๐ฎ โ โค ๐ท .
Appendix CAlgorithm 2 and Regret Guarantee Theorem 21.
Let ๐น be an ๐ป -smooth and ๐บ -Lipschitz function. Then, when ๐
โ log 2 โก ( ๐ โ ๐บ / ๐ป โ ๐ท ) โ , Algorithm 2 with ๐ฑ ๐ก
๐ฑ ๐ก โ 1 + 1 2 โ ๐ซ ๐ก and ๐ ๐ก
โ ๐น โ ( ๐ฑ ๐ก ) and ๐ โค 1 2 โ ๐ป ensures for all โ ๐ฎ โ โค ๐ท
โ ๐ก
1 ๐ โจ ๐ ๐ก , ๐ซ ๐ก โ ๐ฎ โฉ
โค ๐ป โ ๐ท 2 2 + 2 โ ๐บ โ ๐ โ ๐ท ๐ .
Furthermore, a total of at most ๐ โ โ log 2 โก ( ๐ โ ๐บ / ๐ป โ ๐ท ) โ gradient evaluations are required.
Proof.
The count of gradient evaluations is immediate from inspection of the algorithm, so it remains only to prove the regret bound.
First, we observe that the choices of ๐ซ ๐ก specified by Algorithm 2 correspond to the values of ๐ฐ ๐ก produced by Algorithm 3 when ๐ โ ( ๐ฐ )
1 2 โ ๐ โ โ ๐ฐ โ 2 . This can be verified by direct calculation (recalling that ๐ท ๐ ( ๐ฑ , ๐ฒ )
โ ๐ฑ โ ๐ฒ โ 2 2 โ ๐ ) .
Therefore, by Proposition 20, we have
โ ๐ก
1 ๐ โจ ๐ ๐ก , ๐ซ ๐ก โ ๐ฎ โฉ โค ๐ท 2 2 โ ๐ + โ ๐ก
1 ๐ ๐ 2 โ โ ๐ ๐ก โ ๐ก ๐ก โ 2 .
(3)
So, our primary task is to show that โ ๐ ๐ก โ ๐ก ๐ก โ is small. To this end, recall that ๐ ๐ก
โ ๐น โ ( ๐ฐ ๐ก )
โ ๐น โ ( ๐ฑ ๐ก โ 1 + ๐ซ ๐ก / 2 ) .
Now, we define โ ๐ก ๐ + 1
โ ๐น โ ( ๐ฑ ๐ก โ 1 + 1 2 โ ฮ โ ๐ซ โ โค ๐ท โ [ ๐ซ ๐ก โฒ โ ๐ โ ๐ก ๐ก ๐ ] ) (which simply continues the recursive definition of ๐ก ๐ก ๐ in Algorithm 2 for one more step). Then, we claim that for all 0 โค ๐ โค ๐ , โ ๐ก ๐ก ๐ + 1 โ ๐ก ๐ก ๐ โ โค 1 2 ๐ โ โ ๐ก ๐ก 1 โ ๐ก ๐ก 0 โ . We establish the claim by induction on ๐ . First, for ๐
0 the claim holds by definition. Now suppose โ ๐ก ๐ก ๐ โ ๐ก ๐ก ๐ โ 1 โ โค 1 2 ๐ โ 1 โ โ ๐ก ๐ก 1 โ ๐ก ๐ก 0 โ for some ๐ . Then, we have
โ
๐ก
๐ก
๐
+
1
โ
๐ก
๐ก
๐
โ
โค
โ
โ
๐น
โ
(
๐ฑ
๐ก
โ
1
+
1
2
โ
ฮ
โ
๐ซ
โ
โค
๐ท
โ
[
๐ซ
๐ก
โฒ
โ
๐
โ
๐ก
๐ก
๐
]
)
โ
โ
๐น
โ
(
๐ฑ
๐ก
โ
1
+
1
2
โ
ฮ
โ
๐ซ
โ
โค
๐ท
โ
[
๐ซ
๐ก
โฒ
โ
๐
โ
๐ก
๐ก
๐
โ
1
]
)
โ
Using the
๐ป
-smoothness of
๐น
:
โค
๐ป
2
โ
โ
ฮ
โ
๐ซ
โ
โค
๐ท
โ
[
๐ซ
๐ก
โฒ
โ
๐
โ
๐ก
๐ก
๐
]
โ
ฮ
โ
๐ซ
โ
โค
๐ท
โ
[
๐ซ
๐ก
โฒ
โ
๐
โ
๐ก
๐ก
๐
โ
1
]
โ
Using the fact that projection is a contraction:
โค
๐ป
โ
๐
2
โ
โ
๐ก
๐ก
๐
โ
๐ก
๐ก
๐
โ
1
โ
Using
๐
โค
1
๐ป
:
1 2 โ โ ๐ก ๐ก ๐ โ ๐ก ๐ก ๐ โ 1 โ
From the induction assumption:
โค 1 2 ๐ โ โ ๐ก ๐ก 1 โ ๐ก ๐ก 0 โ .
So that the claim holds.
Now, since ๐ก ๐ก
๐ก ๐ก ๐ , we have ๐ซ ๐ก
ฮ โ ๐ซ โ โค ๐ท โ [ ๐ซ ๐ก โฒ โ ๐ โ ๐ก ๐ก ๐ โ 1 ] . Therefore ๐ ๐ก
โ ๐น โ ( ๐ฑ ๐ก )
โ ๐น โ ( ๐ฑ ๐ก โ 1 + ๐ซ ๐ก / 2 )
๐ก ๐ก ๐ + 1 . Thus,
โ ๐ ๐ก โ ๐ก ๐ก ๐ โ
โ ๐ก ๐ก ๐ + 1 โ ๐ก ๐ก ๐ โ โค 1 2 ๐ โ โ ๐ก ๐ก 1 โ ๐ก ๐ก 0 โ โค 2 โ ๐บ 2 ๐ ,
where in the last inequality we used the fact that ๐น is ๐บ -Lipschitz. So, for ๐
โ log 2 โก ( ๐ โ ๐บ / ๐ป โ ๐ท ) โ , we have โ ๐ ๐ก โ ๐ก ๐ก ๐ โ โค 2 โ ๐บ โ ๐ป โ ๐ท ๐ โ ๐บ for all ๐ก . The result now follows by substituting into equation (3). โ
Appendix DProof of Theorem 17 Proof of Theorem 17.
Once more, the first part of the result is immediate from the fact that โ ๐ซ ๐ โ โค ๐ท . So, we proceed to show the second part.
Define โ ๐
โซ 0 1 โ ๐น โ ( ๐ฑ ๐ โ 1 + ๐ โ ๐ซ ๐ ) โ d ๐ . Then, we have
โ โจ โ ๐ โ ๐ ๐ , ๐ซ ๐ โฉ โ
โ
โจ
โซ
0
1
โ
๐น
โ
(
๐ฑ
๐
โ
1
+
๐
โ
๐ซ
๐
)
โ
โ
๐น
โ
(
๐ฑ
๐
โ
1
+
1
2
โ
๐ซ
๐
)
โ
d
โ
๐
,
๐ซ
๐
โฉ
โ
โค
๐ท
โ
โ
โซ
0
1
โ
๐น
โ
(
๐ฑ
๐
โ
1
+
๐
โ
๐ซ
๐
)
โ
โ
๐น
โ
(
๐ฑ
๐
โ
1
+
1
2
โ
๐ซ
๐
)
โ
d
โ
๐
โ
๐ท
โฅ
โซ
0
1
(
โ
๐น
โ
(
๐ฑ
๐
โ
1
+
๐
โ
๐ซ
๐
)
โ
โ
๐น
โ
(
๐ฑ
๐
โ
1
+
1
2
โ
๐ซ
๐
)
โ
โ
2
๐น
โ
(
๐ฑ
๐
โ
1
+
1
2
โ
๐ซ
๐
)
โ
๐ซ
๐
โ
(
๐
โ
1
/
2
)
)
+
โ
2
๐น
(
๐ฑ
๐
โ
1
+
1
2
๐ซ
๐
)
๐ซ
๐
(
๐
โ
1
/
2
)
d
๐
โฅ
(observing that
โซ
0
1
๐
โ
1
/
2
โ
d
โ
๐
0 )
๐ท โ โ โซ 0 1 โ ๐น โ ( ๐ฑ ๐ โ 1 + ๐ โ ๐ซ ๐ ) โ โ ๐น โ ( ๐ฑ ๐ โ 1 + 1 2 โ ๐ซ ๐ ) โ โ 2 ๐น โ ( ๐ฑ ๐ โ 1 + 1 2 โ ๐ซ ๐ ) โ ๐ซ ๐ โ ( ๐ โ 1 / 2 ) โ d โ ๐ โ
(using second-order smoothness)
โค ๐ท โ โซ 0 1 ๐ฝ 2 โ โ ๐ซ ๐ โ 2 โ ( ๐ โ 1 / 2 ) 2 โ d ๐ โค ๐ฝ โ ๐ท 3 48 .
In Theorem 7, set ๐ฎ ๐ to be equal to ๐ฎ 1 for the first ๐ iterations, ๐ฎ 2 for the second ๐ iterations and so on. In other words, ๐ฎ ๐
๐ฎ โ ๐ / ๐ โ + 1 for ๐
1 , โฆ , ๐ . So, we have
๐น โ ( ๐ฑ ๐ ) โ ๐น โ ( ๐ฑ 0 )
๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) + โ ๐
1 ๐ โจ โ ๐ โ ๐ ๐ , ๐ซ ๐ โฉ + โ ๐
1
๐
โจ
๐
๐
,
๐ฎ
๐
โฉ
โค
๐
๐
โ
(
๐ฎ
1
,
โฆ
,
๐ฎ
๐พ
)
+
๐
โ
๐ฝ
โ
๐ท
3
48
+
โ
๐
1 ๐ โจ ๐ ๐ , ๐ฎ ๐ โฉ .
Now, set ๐ฎ ๐
โ ๐ท โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ . Then, by Theorem 21, we have that ๐ ๐ โ ( ๐ฎ ๐ ) โค ๐ป โ ๐ท 2 2 + 2 โ ๐ โ ๐บ โ ๐ท ๐ . Therefore:
๐น
โ
(
๐ฑ
๐
)
โค
๐น
โ
(
๐ฑ
0
)
+
๐ป
โ
๐ท
2
โ
๐พ
2
+
2
โ
๐บ
โ
๐ท
+
๐
โ
๐ฝ
โ
๐ท
3
48
โ
๐ท
โ
๐
โ
โ
๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ .
Hence, we obtain
1
๐พ
โ
๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ โค ๐น โ ( ๐ฑ 0 ) โ ๐น โ ( ๐ฑ ๐ ) ๐ โ ๐ท + ๐ป โ ๐ท 2 โ ๐ + 2 โ ๐บ ๐ + ๐ฝ โ ๐ท 2 48 .
Note that from the choice of ๐พ and ๐ we have ๐
๐พ โ ๐ โฅ ๐ โ ๐ โฅ ๐ / 2 . So, using ๐ท
๐ฟ / ๐ , we have can upper bound the r.h.s. with
2
โ
๐
โ
(
๐น
โ
(
๐ฑ
0
)
โ
๐น
โ
)
๐
โ
๐ฟ
+
๐ป
โ
๐ฟ
2
โ
๐
2
+
4
โ
๐บ
๐
+
๐ฝ
โ
๐ฟ
2
2
โ
๐
2
and with
๐
min โก ( โ ( ๐ฟ 2 โ ( ๐ป + ๐ฝ โ ๐ฟ ) โ ๐ ) 1 / 3 ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 1 / 3 โ , ๐ / 2 ) :
โค 3 โ ( ๐ป + ๐ฝ โ ๐ฟ ) 1 / 3 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 2 / 3 ๐ฟ 1 / 3 โ ๐ 2 / 3 + 4 โ ๐บ ๐ + 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ โ ๐ฟ + 10 โ ๐ฟ โ ( ๐ป + ๐ฝ โ ๐ฟ ) ๐ 2 .
Now, the third fact follows by observing that Proposition 15 implies that
1 ๐พ โ โ ๐
1
๐พ
โ
โ
๐น
โ
(
๐ฐ
ยฏ
๐
)
โ
โค
1
๐พ
โ
โ
๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ + ๐ฝ โ ๐ฟ 2 2 .
Now, substituting the specified value of ๐ฟ completes the identity. Finally, the count of number of gradient evaluations is a direct calculation. โ
Appendix EProofs for Section 5
See 14
Proof.
Let ๐ โ ๐ต โ ( ๐ฑ , ๐ฟ ) with ๐ฑ
1 | ๐ | โ โ ๐ฒ โ ๐ ๐ฒ . By ๐ป -smoothness, for all ๐ฒ โ ๐ , โ โ ๐น โ ( ๐ฒ ) โ โ ๐น โ ( ๐ฑ ) โ โค ๐ป โ โ ๐ฒ โ ๐ฑ โ โค ๐ป โ ๐ฟ . Therefore, we have
โ 1 | ๐ | โ โ ๐ฒ โ ๐ โ ๐น โ ( ๐ฒ ) โ
โ โ ๐น โ ( ๐ฑ ) + 1 | ๐ | โ โ ๐ฒ โ ๐ ( โ ๐น โ ( ๐ฒ ) โ โ ๐น โ ( ๐ฑ ) ) โ
โฅ โ โ ๐น โ ( ๐ฑ ) โ โ ๐ป โ ๐ฟ .
Now, since โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ โค ๐ , for any ๐
0 , there is a set ๐ such that โ 1 | ๐ | โ โ ๐ฒ โ ๐ โ ๐น โ ( ๐ฒ ) โ โค ๐ + ๐ . Thus, โ โ ๐น โ ( ๐ฑ ) โ โค ๐ + ๐ป โ ๐ฟ + ๐ for any ๐
0 , which implies โ โ ๐น โ ( ๐ฑ ) โ โค ๐ + ๐ป โ ๐ฟ . โ
See 15
Proof.
The proof is similar to that of Proposition 14. Let ๐ โ ๐ต โ ( ๐ฑ , ๐ฟ ) with ๐ฑ
1 | ๐ | โ โ ๐ฒ โ ๐ ๐ฒ . By ๐ฝ -second-order-smoothness, for all ๐ฒ โ ๐ , we have
โ โ ๐น โ ( ๐ฒ ) โ โ ๐น โ ( ๐ฑ ) โ โ 2 ๐น โ ( ๐ฑ ) โ ( ๐ฒ โ ๐ฑ ) โ
โ
โซ
0
1
(
โ
2
๐น
โ
(
๐ฑ
+
๐ก
โ
(
๐ฒ
โ
๐ฑ
)
)
โ
โ
2
๐น
โ
(
๐ฑ
)
)
โ
(
๐ฒ
โ
๐ฑ
)
โ
d
๐ก
โ
โค
โซ
0
1
๐ก
โ
๐ฝ
โ
โ
๐ฒ
โ
๐ฑ
โ
2
โ
d
๐ก
๐ฝ โ โ ๐ฒ โ ๐ฑ โ 2 2 โค ๐ฝ โ ๐ฟ 2 2 .
Further, since 1 | ๐ | โ โ ๐ฒ โ ๐ ๐ฒ
๐ฑ , we have 1 | ๐ | โ โ ๐ฒ โ ๐ โ 2 ๐น โ ( ๐ฑ ) โ ( ๐ฒ โ ๐ฑ )
0 . Therefore, we have
โ 1 | ๐ | โ โ ๐ฒ โ ๐ โ ๐น โ ( ๐ฒ ) โ
โ โ ๐น โ ( ๐ฑ ) + 1 | ๐ | โ โ ๐ฒ โ ๐ ( โ ๐น โ ( ๐ฒ ) โ โ ๐น โ ( ๐ฑ ) โ โ 2 ๐น โ ( ๐ฑ ) โ ( ๐ฒ โ ๐ฑ ) ) โ
โฅ โ โ ๐น โ ( ๐ฑ ) โ โ ๐ฝ โ ๐ฟ 2 2 .
Now, since โ โ ๐น โ ( ๐ฅ ) โ ๐ฟ โค ๐ , for any ๐
0 , there is a set ๐ such that โ 1 | ๐ | โ โ ๐ฒ โ ๐ โ ๐น โ ( ๐ฒ ) โ โค ๐ + ๐ . Thus, โ โ ๐น โ ( ๐ฑ ) โ โค ๐ + ๐ฝ 2 โ ๐ฟ 2 + ๐ for any ๐
0 , which implies โ โ ๐น โ ( ๐ฑ ) โ โค ๐ + ๐ฝ 2 โ ๐ฟ 2 . โ
Appendix FLower Bounds
Our lower bounds are constructed via a mild alteration to the arguments of Arjevani et al. (2019) for lower bounds on finding ( 0 , ๐ ) -stationary points of smooth functions with a stochastic gradient oracle. At a high level, we show that since a ๐ฟ , ๐ -stationary point of an ๐ป -smooth loss is also a ( 0 , ๐ป โ ๐ฟ + ๐ ) -stationary point, a lower bound on the complexity of the latter implies a lower bound on the of complexity of the former. The lower bound of Arjevani et al. (2019) is proved by constructing a distribution over โhardโ functions such that no algorithm can quickly find a ( 0 , ๐ ) -stationary point of a random selected function. Unfortunately, these โhardโ functions are not Lipschitz. Fortunately, they take the form ๐น โ ( ๐ฑ ) + ๐ โ โ ๐ฑ โ 2 where ๐น is Lipschitz and smooth so that the โnon-Lipschitzโ part is solely contained in the quadratic term. We show that one can replace the quadratic term โ ๐ฑ โ 2 with a Lipschitz function that is quadratic for sufficiently small ๐ฑ but proportional to โ ๐ฑ โ for larger values. Our proof consists of carefully reproducing the argument of Arjevani et al. (2019) to show that this modification does not cause any problems. We emphasize that almost all of this development can be found with more detail in Arjevani et al. (2019). We merely restate here the minimum results required to verify our modification to their construction.
F.1Definitions and Results from Arjevani et al. (2019)
A randomized first-order algorithm is a distribution ๐ ๐ supported on a set ๐ and a sequence of measurable mappings ๐ด ๐ โ ( ๐ , ๐ 1 , โฆ , ๐ ๐ โ 1 ) โ โ ๐ with ๐ โ ๐ and ๐ ๐ โ โ ๐ . Given a stochastic gradient oracle Grad : โ ๐ ร ๐ โ โ ๐ , a distribution ๐ ๐ supported on ๐ and an i.i.d. sample ( ๐ณ 1 , โฆ , ๐ณ ๐ ) โผ ๐ ๐ , we define the iterates of ๐ด recursively by:
๐ฑ 1
๐ด
1
โ
(
๐
)
๐ฑ
๐
๐ด ๐ โ ( ๐ , Grad โ ( ๐ฑ 1 , ๐ณ 1 ) , Grad โ ( ๐ฑ 2 , ๐ณ 2 ) , โฆ , Grad โ ( ๐ฑ ๐ โ 1 , ๐ณ ๐ โ 1 ) ) .
So, ๐ฑ ๐ is a function of ๐ and ๐ณ 1 , โฆ , ๐ณ ๐ โ 1 . We define A rand to be the set of such sequences of mappings.
Now, in the notation of Arjevani et al. (2019), we define the โprogress functionโ
prog ๐ โ ( ๐ฑ )
max โก { ๐ : | ๐ฑ ๐ | โฅ ๐ } .
Further, a stochastic gradient oracle Grad can be called a probability- ๐ zero-chain if prog 0 โ ( Grad โ ( ๐ฑ , ๐ณ ) )
prog 1 / 4 โ ( ๐ฑ ) + 1 for all ๐ฑ with probability at least 1 โ ๐ , and prog 0 โ ( Grad โ ( ๐ฑ , ๐ณ ) ) โค prog 1 / 4 โ ( ๐ฑ ) + 1 with probability 1.
Next, let ๐น ๐ : โ ๐ โ โ be the function defined by Lemma 2 of Arjevani et al. (2019). Restating their Lemma, this function satisfies:
Lemma 22 (Lemma 2 of Arjevani et al. (2019)).
There exists a function ๐น ๐ : โ ๐ โ โ satisfies that satisfies:
1.
๐น ๐ โ ( 0 )
0 and inf ๐น ๐ โ ( ๐ฑ ) โฅ โ ๐พ 0 โ ๐ for ๐พ 0
12 .
2.
โ ๐น ๐ โ ( ๐ฑ ) is ๐ป 0 -Lipschitz, with ๐ป 0
152 .
3.
For all ๐ฑ , โ โ ๐น ๐ โ ( ๐ฑ ) โ โ โค ๐บ 0 with ๐บ 0
23
4.
For all ๐ฑ , prog 0 โ ( โ ๐น ๐ โ ( ๐ฑ ) ) โค prog 1 / 2 โ ( ๐ฑ ) + 1 .
5.
If prog 1 โ ( ๐ฑ ) < ๐ , then โ โ ๐น ๐ โ ( ๐ฑ ) โ โฅ | โ ๐น ๐ โ ( ๐ฑ ) prog 1 โ ( ๐ฑ ) + 1 | โฅ 1 .
We associate with this function ๐น ๐ the stochastic gradient oracle ๐ ๐ โ ( ๐ฑ , ๐ง ) : โ ๐ ร { 0 , 1 } โ โ ๐ where ๐ง is Bernoulli ( ๐ ) :
Grad ๐ โ ( ๐ฑ , ๐ณ ) ๐
{ โ ๐น ๐ โ ( ๐ฑ ) ๐ ,
if โ ๐ โ prog 1 / 4 โ ( ๐ฑ )
๐ณ
โ
โ
๐น
๐
โ
(
๐ฑ
)
๐
๐
,
if
โ
๐
prog 1 / 4 โ ( ๐ฑ )
It is clear that ๐ผ ๐ง [ ๐ ๐ โ ( ๐ฑ , ๐ณ ) ]
โ ๐น ๐ โ ( ๐ฑ ) .
This construction is so far identical to that in Arjevani et al. (2019), and so we have by their Lemma 3:
Lemma 23 (Lemma 3 of Arjevani et al. (2019)).
Grad ๐ is a probability- ๐ zero chain, has variance ๐ผ [ โ Grad ๐ โ ( ๐ฑ , ๐ณ ) โ โ ๐น ๐ โ ( ๐ฑ ) โ 2 ] โค ๐บ 0 2 / ๐ , and โ Grad ๐ โ ( ๐ฑ , ๐ง ) โ โค ๐บ 0 ๐ + ๐บ 0 โ ๐ .
Proof.
The probability ๐ zero-chain and variance statements are directly from Arjevani et al. (2019). For the bound on โ Grad ๐ โ , observe that Grad ๐ โ ( ๐ฑ , ๐ณ )
โ ๐น ๐ โ ( ๐ฑ ) in all but one coordinate. In that one coordinate, Grad ๐ โ ( ๐ฑ , ๐ณ ) is at most โ โ ๐น ๐ โ ( ๐ฑ ) โ โ ๐
๐บ 0 ๐ . Thus, the bound follows by triangle inequality. โ
Next, for any matrix ๐ โ โ ๐ ร ๐ with orthonormal columns, we define ๐น ๐ , ๐ : โ ๐ โ โ by:
๐น ๐ , ๐ โ ( ๐ฑ )
๐น ๐ โ ( ๐ โค โ ๐ฑ ) .
The associated stochastic gradient oracle is:
Grad ๐ , ๐ โ ( ๐ฑ , ๐ณ )
๐ โ Grad ๐ โ ( ๐ โค โ ๐ฑ , ๐ณ ) .
Now, we restate Lemma 5 of Arjevani et al. (2019):
Lemma 24 (Lemma 5 of Arjevani et al. (2019)).
Let ๐ > 0 and suppose ๐ด โ A rand is such that ๐ด produces iterates ๐ฑ ๐ก with โ ๐ฑ ๐ก โ โค ๐ . Let ๐ โฅ โ 18 โ ๐ 2 โ ๐ ๐ โ log โก 2 โ ๐ 2 ๐ โ ๐ โ Suppose ๐ is chosen uniformly at random from the set of ๐ ร ๐ matrices with orthonormal columns. Let Grad be an probability- ๐ zero chain and let Grad ๐ โ ( ๐ฑ , ๐ณ )
๐ โ Grad โ ( ๐ โค โ ๐ฑ , ๐ณ ) . Let ๐ฑ 1 , ๐ฑ 2 , โฆ be the iterates of ๐ด when provided the stochastic gradient oracle Grad ๐ . Then with probability at least 1 โ ๐ (over the randomness of ๐ , the oracle, and also the seed ๐ of ๐ด ):
prog 1 / 4 โ ( ๐ โค โ ๐ฑ ๐ก ) < ๐ โ for all โ ๐ก โค ๐ โ log โก ( 2 / ๐ ) 2 โ ๐ .
F.2Defining the โHardโ Instance
Now, we for the first time diverge from the construction of Arjevani et al. (2019) (albeit only slightly). Their construction uses a โshrinking functionโ ๐ ๐ , ๐ : โ ๐ โ โ ๐ given by ๐ ๐ , ๐ โ ( ๐ฑ )
๐ฑ 1 + โ ๐ฑ โ 2 / ๐ 2 as well as an additional quadratic term to overcome the limitation of bounded iterates. We cannot tolerate the non-Lipschitz quadratic term, so we replace it with a Lipschitz version ๐ ๐ต , ๐ โ ( ๐ฑ )
๐ฑ โค โ ๐ ๐ต , ๐ โ ( ๐ฑ )
โ ๐ฑ โ 2 1 + โ ๐ฑ โ 2 / ๐ 2 . Intuitively, ๐ ๐ต , ๐ behaves like โ ๐ฑ โ 2 for small enough ๐ฑ , but behaves like ๐ โ โ ๐ฑ โ for large โ ๐ฑ โ . Overall, we consider the function:
๐น ^ ๐ , ๐ โ ( ๐ฑ )
๐น ๐ , ๐ โ ( ๐ ๐ , ๐ โ ( ๐ฑ ) ) + ๐ โ ๐ ๐ต , ๐ โ ( ๐ฑ )
๐น ๐ โ ( ๐ โค โ ๐ ๐ , ๐ โ ( ๐ฑ ) ) + ๐ โ ๐ ๐ต , ๐ โ ( ๐ฑ ) .
The stochastic gradient oracle associated with ๐น ^ ๐ , ๐ โ ( ๐ฑ ) is
Grad ^ ๐ , ๐ โ ( ๐ฑ , ๐ณ )
๐ฝ โ [ ๐ ๐ , ๐ ] โ ( ๐ฑ ) โค โ ๐ โ Grad ๐ โ ( ๐ โค โ ๐ ๐ , ๐ โ ( ๐ฑ ) , ๐ณ ) + ๐ โ โ ๐ ๐ต , ๐ โ ( ๐ฑ ) .
where ๐ฝ โ [ ๐ ] โ ( ๐ฑ ) indicates the Jacobian of the function ๐ evaluated at ๐ฑ .
A description of the relevant properties of ๐ ๐ต is provided in Section F.3.
Next we produce a variant on Lemma 6 from Arjevani et al. (2019). This is the most delicate part of our alteration, although the proof is still almost identical to that of Arjevani et al. (2019).
Lemma 25 (variant on Lemma 6 of Arjevani et al. (2019)).
Let ๐
๐ต
60 โ ๐บ 0 โ ๐ . Let ๐
1 / 10 and ๐ โ ( 0 , 1 ) and ๐ โ ( 0 , 1 ) and ๐ โ โ . Set ๐
โ 18 โ ๐ 2 โ ๐ ๐ โ log โก 2 โ ๐ 2 ๐ โ ๐ โ and let ๐ be sampled uniformly from the set of ๐ ร ๐ matrices with orthonormal columns. Define ๐น ^ ๐ , ๐ and Grad ^ ๐ , ๐ as above. Suppose ๐ด โ A rand and let ๐ฑ 1 , ๐ฑ 2 , โฆ be the iterates of ๐ด when provided with Grad ^ ๐ , ๐ as input. Then with probability at least 1 โ ๐ :
โ โ ๐น ^ ๐ , ๐ โ ( ๐ฑ ๐ก ) โ โฅ 1 / 2 โ for all โ ๐ก โค ๐ โ log โก ( 2 / ๐ ) 2 โ ๐ .
Proof.
Define ๐ฒ ๐
๐ ๐ , ๐ โ ( ๐ฑ ๐ ) . Recall the defniition:
Grad ๐ , ๐ โ ( ๐ฒ , ๐ณ )
๐ โ Grad ๐ โ ( ๐ โค โ ๐ฒ , ๐ณ )
Then observe that Grad ^ ๐ , ๐ โ ( ๐ฑ , ๐ณ ) can be computed from ๐ฑ and Grad ๐ , ๐ โ ( ๐ฒ , ๐ณ ) :
Grad ^ ๐ , ๐ โ ( ๐ฑ , ๐ณ )
๐ฝ โ [ ๐ ๐ , ๐ ] โ ( ๐ฑ ) โค โ Grad ๐ , ๐ โ ( ๐ฒ , ๐ณ ) + ๐ โ โ ๐ ๐ต , ๐ โ ( ๐ฑ )
Therefore, we may consider the ๐ฒ to be the iterates of some different algorithm ๐ด ๐ฆ โ A rand applied to the oracle Grad ๐ , ๐ โ ( ๐ฒ , ๐ณ ) ( ๐ด ๐ฆ computes Grad ^ ๐ , ๐ โ ( ๐ฑ , ๐ณ ) from Grad ๐ , ๐ โ ( ๐ฒ , ๐ณ ) , and then applies the original algorithm ๐ด to get ๐ฑ and then ๐ ๐ต , ๐ to get ๐ฒ ).
Furthermore, it is clear from the definition of ๐ ๐ต , ๐ that โ ๐ฒ ๐ โ
โ ๐ ๐ต , ๐ โ ( ๐ฑ ๐ ) โ โค ๐ for all ๐ .
All together, this implies that ๐ด ๐ฆ satisfies the conditions of Lemma 24, and so we have that with probability at least 1 โ ๐ :
prog 1 / 4 โ ( ๐ โค โ ๐ฒ ๐ก ) โค ๐ โ for all โ ๐ก โค ๐ โ log โก ( 2 / ๐ ) 2 โ ๐
Now, our goal is to show that โ โ ๐น โ ( ๐ฑ ๐ ) โ โฅ 1 / 2 . We consider two cases, either โ ๐ฑ ๐ โ
๐ / 2 or not.
First, observe that for ๐ฑ ๐ with โ ๐ฑ ๐ โ
๐ / 2 , we have:
โ
โ
๐น
^
๐
,
๐
โ
(
๐ฑ
๐
)
โ
โฅ
๐
โ
โ
โ
๐
๐ต
,
๐
โ
(
๐ฑ
๐
)
โ
โ
โ
๐ฝ
โ
[
๐
๐
,
๐
]
โ
(
๐ฑ
๐
)
โ
op
โ
โ
โ
๐น
^
โ
(
๐
โค
โ
๐ฒ
๐
)
โ
using the fact that
โฅ
๐ฝ
[
๐
๐
,
๐
]
(
๐ฑ
๐
)
โฅ
op
โฅ
โค
1
(see Arjevani et al. (2019) Lemma 15) as well as Proposition 29 part 3:
โฅ
๐
โ
โ
๐ฑ
๐
โ
1
+
โ
๐ฑ
๐
โ
2
/
๐ต
2
โ
๐บ
0
โ
๐
using
๐ต
๐
and
โ
๐ฑ
๐
โ
>
๐
/
2
:
โฅ
๐
โ
๐ต
5
โ
๐บ
0
โ
๐
โฅ
๐
โ
๐ต
3
โ
๐บ
0
โ
๐
Recalling
๐ต
๐
60 โ ๐บ 0 โ ๐ and ๐
1 / 10 :
๐บ
0
โ
๐
Recalling
๐บ
0
23 :
โฅ 1 / 2 .
Alternatively, suppose โ ๐ฑ ๐ โ โค ๐ / 2 . Then, let us set ๐
prog 1 โ ( ๐ โค โ ๐ฒ ๐ ) + 1 โค ๐ (the inequality follows since prog 1 โค prog 1 / 4 ). Then, if ๐ฎ ๐ indicates the ๐ th row of ๐ข , Lemma 22 implies:
| โจ ๐ฎ ๐ , ๐ฒ ๐ โฉ |
< 1 ,
| โจ ๐ฎ ๐ , โ ๐น ๐ , ๐ โ ( ๐ฒ ๐ ) โฉ |
โฅ 1 .
Next, by direct calculation we have ๐ฝ โ [ ๐ ๐ ] โ ( ๐ฑ ๐ )
๐ผ โ ๐ ๐ โ ( ๐ฑ ๐ ) โ ๐ ๐ โ ( ๐ฑ ๐ ) โค / ๐ 2 1 + โ ๐ฑ ๐ โ 2 / ๐ 2
๐ผ โ ๐ฒ ๐ โ ๐ฒ ๐ โค / ๐ 2 1 + โ ๐ฑ ๐ โ 2 / ๐ 2 so that:
โจ ๐ฎ ๐ , โ ๐น ^ ๐ , ๐ โ ( ๐ฑ ๐ ) โฉ
โจ ๐ฎ ๐ , ๐ฝ โ [ ๐ ๐ ] โ ( ๐ฑ ๐ ) โค โ โ ๐น ๐ , ๐ โ ( ๐ฒ ๐ ) โฉ + ๐ โ โจ ๐ฎ ๐ , โ ๐ ๐ต โ ( ๐ฑ ๐ ) โฉ
โจ ๐ฎ ๐ , โ ๐น ๐ , ๐ โ ( ๐ฒ ๐ ) โฉ 1 + โ ๐ฑ ๐ โ 2 / ๐ 2 โ โจ ๐ฎ ๐ , ๐ฒ ๐ โฉ โ โจ ๐ฒ ๐ , โ ๐น ๐ , ๐ โ ( ๐ฒ ๐ ) โฉ / ๐ 2 1 + โ ๐ฑ ๐ โ 2 / ๐ 2 + ๐ โ โจ ๐ฎ ๐ , โ ๐ ๐ต โ ( ๐ฑ ๐ ) โฉ .
Now, by Proposition 29, we have โ ๐ ๐ต โ ( ๐ฑ ๐ )
( 2 โ โ ๐ฒ ๐ โ 2 ๐ต 2 ) โ ๐ฒ ๐ . So, (recalling ๐
๐ต ):
โจ ๐ฎ ๐ , โ ๐น ^ ๐ , ๐ โ ( ๐ฑ ๐ ) โฉ
โจ
๐ฎ
๐
,
โ
๐น
๐
,
๐
โ
(
๐ฒ
๐
)
โฉ
1
+
โ
๐ฑ
๐
โ
2
/
๐
2
โ
โจ
๐ฎ
๐
,
๐ฒ
๐
โฉ
โ
โจ
๐ฒ
๐
,
โ
๐น
๐
,
๐
โ
(
๐ฒ
๐
)
โฉ
/
๐
2
1
+
โ
๐ฑ
๐
โ
2
/
๐
2
+
๐
โ
(
2
โ
โ
๐ฒ
๐
โ
2
๐
2
)
โ
โจ
๐ฎ
๐
,
๐ฒ
๐
โฉ
Observing that
โ
๐ฆ
๐
โ
โค
โ
๐ฅ
๐
โ
โค
๐
/
2
and
|
โจ
๐ฎ
๐
,
๐ฒ
๐
โฉ
|
<
1
:
|
โจ
๐ฎ
๐
,
โ
๐น
^
๐
,
๐
โ
(
๐ฑ
๐
)
โฉ
|
โฅ
2
โ
|
โจ
๐ฎ
๐
,
โ
๐น
๐
,
๐
โ
(
๐ฒ
๐
)
โฉ
|
5
โ
โ
โ
๐น
๐
,
๐
โ
(
๐ฒ
๐
)
โ
2
โ
๐
โ
2
โ
๐
Using
|
โจ
๐ฎ
๐
,
โ
๐น
๐
,
๐
โ
(
๐ฒ
๐
)
โฉ
|
โฅ
1
and
โ
โ
๐น
โ
(
๐ฒ
๐
)
โ
โค
๐บ
0
โ
๐
:
โฅ
2
5
โ
๐บ
0
โ
๐
2
โ
๐
โ
2
โ
๐
With
๐
60 โ ๐บ 0 โ ๐ and ๐
1 / 10 :
2 5 โ 1 120 โ 1 5
1 / 2 . โ
Next, we observe some basic facts about the function ๐น ^ ๐ , ๐ :
Lemma 26 (variation on Lemma 7 in Arjevani et al. (2019)).
With the settings of ๐ , ๐ต , ๐ in Lemma 25, the function ๐น ^ ๐ , ๐ satisfies:
1.
๐น ^ ๐ , ๐ โ ( 0 ) โ inf ๐น ^ ๐ , ๐ โ ( ๐ฑ ) โค ๐พ 0 โ ๐
12 โ ๐
2.
โ โ ๐น ^ ๐ , ๐ โ ( ๐ฑ ) โ โค ๐บ 0 โ ๐ + 3 โ ๐ โ ๐ต โค 437 โ ๐ for all ๐ฑ .
3.
โ ๐น ^ ๐ โ ( ๐ฑ ) is ๐ป 0 + 3 + 8 โ ๐ โค 156 -Lipschitz.
4.
โ Grad ^ ๐ , ๐ โ ( ๐ฑ , ๐ณ ) โ โค ๐บ 0 ๐ + ๐บ 0 โ ๐ + 3 โ ๐ โ ๐ต โค 23 ๐ + 437 โ ๐ with probability 1.
5.
Grad ^ ๐ , ๐ has variance at most ๐บ 0 2 ๐ โค 23 2 ๐
Proof.
1.
This property follows immediately from the fact that ๐น ๐ โ ( 0 ) โ inf ๐น ๐ โ ( ๐ฑ ) โค ๐พ 0 โ ๐ .
2.
Since ๐ ๐ is 1-Lipschitz for all ๐ and ๐ ๐ต is 3 โ ๐ต -Lipschitz (see Proposition 29), ๐น ^ ๐ , ๐ โ ( ๐ฑ ) is ๐บ 0 โ ๐ + 3 โ ๐ โ ๐ต -Lipschitz, where ๐บ 0
23 and ๐ต
60 โ ๐บ 0 โ ๐ and ๐
1 / 10
3.
By assumption, ๐ โฅ max โก ( ๐ป 0 , 1 ) . Thus, by Arjevani et al. (2019, Lemma 16), โ ๐น ๐ โ ( ๐ ๐ โ ( ๐ฑ ) ) is ๐ป 0 + 3 -Lipschitz and so โ ๐น ^ ๐ , ๐ is ๐ป 0 + 3 + 8 โ ๐ -Lipschitz by Proposition 29.
4.
Since โ Grad ๐ โ โค ๐บ 0 ๐ + ๐บ 0 โ ๐ , and ๐ฝ โ [ ๐ ๐ ] โ ( ๐ฑ ) โค โ ๐ has operator norm at most 1, the bound follows.
5.
Just as in the previous part, since Grad ๐ has variance ๐บ 0 2 / ๐ and ๐ฝ โ [ ๐ ๐ ] โ ( ๐ฑ ) โค โ ๐ has operator norm at most 1, the bound follows.
โ
Now, we are finally in a position to prove:
Theorem 27.
Given any ๐พ , ๐ป , ๐ , and ๐ such that ๐พ โ ๐ป 48 โ 156 โ ๐ 2 โฅ 1 , there exists a distribution over functions ๐น and stochastic first-order oracles Grad such that with probability 1, ๐น is ๐ป -smooth, ๐น โ ( 0 ) โ inf ๐น โ ( ๐ฑ ) โค ๐พ , ๐น is 11 โ ๐ป โ ๐พ -Lipschitz and Grad has variance ๐ 2 , and for any algorithm in A rand , with probability at least 1 โ ๐ , when provided a randomly selected Grad, ๐ด requires at least ฮฉ โ ( ๐พ โ ๐ป โ ๐ 2 ๐ 4 ) iterations to output a point ๐ฑ with ๐ผ [ โ โ ๐น โ ( ๐ฑ ) โ ] โค ๐ .
Proof.
From Lemma 26 and Lemma 25, we have a distribution over functions ๐น and first-order oracles such that with probability 1, ๐น is 437 โ ๐ Lipschitz, ๐น is 156 -smoooth, ๐น โ ( 0 ) โ inf ๐น โ ( ๐ฑ ) โค 12 โ ๐ , Grad has variance at most ๐บ 0 2 / ๐
23 2 / ๐ , and with probability at least 1 โ ๐ ,
โ โ ๐น โ ( ๐ฑ ๐ก ) โ โฅ 1 / 2 โ for all โ ๐ก โค ๐ โ log โก ( 2 / ๐ ) 2 โ ๐ .
Now, set ๐
156 ๐ป โ 2 โ ๐ , ๐
โ 156 โ ๐พ 12 โ ๐ป โ ๐ 2 โ
โ ๐พ โ ๐ป 48 โ 156 โ ๐ 2 โ โฅ ๐พ โ ๐ป 96 โ 156 โ ๐ 2 and ๐
min โก ( 23 2 โ ๐ป 2 โ ๐ 2 156 2 โ ๐ 2 , 1 ) . Then, define
๐น ๐ โ ( ๐ฑ )
๐ป โ ๐ 2 156 โ ๐น โ ( ๐ฑ / ๐ ) .
Then ๐น ๐ is ๐ป โ ๐ 2 ๐ป 0 โ 1 ๐ 2 โ 156
๐ป
- smooth, ๐น ๐ โ ( 0 ) โ inf ๐ฑ ๐น ๐ โ ( ๐ฑ ) โค 12 โ ๐ โ ๐ป โ ๐ 2 156 โค ๐พ , and ๐น ๐ is 437 โ ๐ โ ๐ป โ ๐ 156 โค 11 โ ๐ป โ ๐พ
- Lipschitz. We can construct an oracle Grad ๐ from Grad by:
Grad ๐ โ ( ๐ฑ , ๐ณ )
๐ป โ ๐ 156 โ Grad โ ( ๐ฑ / ๐ , ๐ณ ) .
so that if ๐ < 1 , we have:
๐ผ
[
โ
Grad
๐
โ
(
๐ฑ
,
๐ณ
)
โ
โ
๐น
๐
โ
(
๐ฑ
)
โ
2
]
โค
๐ป
2
โ
๐
2
156
2
โ
23
2
๐
๐ 2 .
Alternatively, if ๐
1 , clearly the variance is 0.
Further, since an oracle for ๐น ๐ can be constructed from the oracle for ๐น , if we run ๐ด on ๐น ๐ , with probability at least 1 โ ๐ ,
โ โ ๐น ๐ โ ( ๐ฑ ๐ก ) โ
๐ป โ ๐ 156 โ โ โ ๐น โ ( ๐ฑ ๐ก ) โ โฅ ๐ โ for all โ ๐ก โค ๐ โ log โก ( 2 / ๐ ) 2 โ ๐ .
Finally, we calculate:
๐ โ log โก ( 2 / ๐ ) 2 โ ๐ โฅ 1.5 โ 10 โ 8 โ ๐ 2 โ ๐พ โ ๐ป ๐ 4 โ 3 โ 10 โ 4 โ ๐ 2 โ log โก ( 2 / ๐ ) ๐ 2 .
Thus, there exists a constant ๐พ and an ๐ 0 such that for all ๐ < ๐ 0 ,
๐ผ [ โ โ ๐น ๐ โ ( ๐ฑ ๐ก ) โ ] โฅ ๐ for all โ ๐ก โค ๐พ โ ๐ป โ ๐พ โ ๐ 2 ๐ 4 . โ
From this result, we have our main lower bound (the formal version of Theorem 18):
Theorem 28.
For any ๐ฟ , ๐ , ๐พ , ๐บ โฅ 11 โ 2 โ ๐ โ ๐พ ๐ฟ , there is a distribution over ๐บ -Lipschitz ๐ถ โ functions ๐น with ๐น โ ( 0 ) โ inf ๐น โ ( ๐ฑ ) โค ๐พ and stochastic gradient oracles Grad with ๐ผ [ โ Grad โ ( ๐ฑ , ๐ณ ) โ 2 ] โค ๐บ 2 such that for any algorithm ๐ด โ A rand , if ๐ด is provided as input a randomly selected oracle Grad, ๐ด will require ฮฉ โ ( ๐บ 2 โ ๐พ / ๐ฟ โ ๐ 3 ) iterations to identify a point ๐ฅ with ๐ผ [ โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ ] โค ๐ .
Proof.
From Theorem 27, for any ๐ป , ๐ โฒ , ๐พ , and ๐ we have a distribution over ๐ถ โ functions ๐น and oracles Grad such that ๐น is ๐ป -smooth, 11 โ ๐ป โ ๐พ -Lischitz and ๐น โ ( 0 ) โ inf ๐น โ ( ๐ฑ ) โค ๐พ and Grad has variance ๐ 2 such that ๐ด requires ฮฉ โ ( ๐ป โ ๐พ โ ๐ 2 / ๐ โฒ โฃ 4 ) iterations to output a point ๐ฑ such that ๐ผ [ โ โ ๐น โ ( ๐ฑ ) โ ] โค ๐ โฒ . Set ๐
๐บ / 2 , ๐ป
๐ / ๐ฟ and ๐ โฒ
2 โ ๐ . Then, we see that Grad has variance ๐บ 2 / 2 , and ๐น is 11 โ ๐ป โ ๐พ
11 โ ๐ โ ๐พ ๐ฟ โค ๐บ / 2 -Lipschitz so that ๐ผ [ โ Grad โ ( ๐ฑ , ๐ณ ) โ 2 ] โค ๐บ 2 . Further by Proposition!14, if โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ โค ๐ , then โ โ ๐น โ ( ๐ฑ ) โ โค ๐ + ๐ป โ ๐ฟ
2 โ ๐ . Therefore, since ๐ด cannot output a point ๐ฑ with ๐ผ [ โ โ ๐น โ ( ๐ฑ ) โ ] โค ๐ โฒ
2 โ ๐ in less than ฮฉ โ ( ๐ป โ ๐พ โ ๐ 2 / ๐ โฒ โฃ 4 ) iterations, we see that ๐ด also cannot output a point ๐ฑ with ๐ผ [ โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ ] โค ๐ in less than ฮฉ โ ( ๐ป โ ๐พ โ ๐ 2 / ๐ โฒ โฃ 4 )
ฮฉ โ ( ๐พ โ ๐บ 2 / ๐ 3 โ ๐ฟ ) iterations. โ
F.3Definition and Properties of ๐ ๐ต
Consider the function ๐ ๐ต , ๐ : โ ๐ โ โ defined by
๐ ๐ต , ๐ โ ( ๐ฑ )
โ ๐ฑ โ 2 1 + โ ๐ฑ โ 2 / ๐ต 2
๐ฑ โค โ ๐ ๐ต , ๐ โ ( ๐ฑ ) .
This function has the following properties, all of which follow from direct calculuation:
Proposition 29.
๐ ๐ต , ๐ satisfies:
1.
โ
๐
๐ต
,
๐
โ
(
๐ฑ
)
2 โ ๐ฑ 1 + โ ๐ฑ โ 2 / ๐ต 2 โ ๐ฑ โ โ ๐ฑ โ 2 ๐ต 2 โ ( 1 + โ ๐ฑ โ 2 / ๐ต 2 ) 3 / 2
(
2
โ
โ
๐
๐ต
โ
(
๐ฑ
)
โ
2
๐ต
2
)
โ
๐
๐ต
โ
(
๐ฑ
)
.
2.
โ
2
๐
๐ต
,
๐
โ
(
๐ฑ
)
1 1 + โ ๐ฑ โ 2 / ๐ต 2 โ ( 2 โ ๐ผ โ 3 โ ๐ฑ๐ฑ โค ๐ต 2 โ ( 1 + โ ๐ฑ โ 2 / ๐ต 2 ) โ โ ๐ฑ โ 2 โ ๐ผ ๐ต 2 โ ( 1 + โ ๐ฑ โ 2 / ๐ต 2 ) + 2 โ โ ๐ฑ โ 2 โ ๐ฑ๐ฑ โค ๐ต 4 โ ( 1 + โ ๐ฑ โ 2 / ๐ต 2 ) 2 ) .
3.
โ ๐ฑ โ 1 + โ ๐ฑ โ 2 / ๐ต 2
โค โ โ ๐ ๐ต , ๐ โ ( ๐ฑ ) โ โค 3 โ โ ๐ฑ โ 1 + โ ๐ฑ โ 2 / ๐ต 2 โค 3 โ ๐ต .
4.
โ โ 2 ๐ ๐ต , ๐ โ ( ๐ฑ ) โ op
โค 8 1 + โ ๐ฑ โ 2 / ๐ต 2 โค 8 .
Appendix GProof of Theorem 13
First, we state and prove a theorem analogous to Theorem 8.
Theorem 30.
Assume ๐น : โ ๐ โ โ is well-behaved. In Algorithm 1, set ๐ ๐ to be a random variable sampled uniformly from [ 0 , 1 ] . Set ๐ , ๐พ โ โ and ๐
๐พ โ ๐ . For ๐
1 , โฆ , ๐ , set ๐ข ๐ ๐
โ ๐ท โ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ ๐ฅ ๐ | โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ ๐ฅ ๐ | for some ๐ท โ > 0 . Finally, suppose Var โ ( ๐ ๐ , ๐ ) โค ๐ ๐ 2 for ๐
1 , โฆ , ๐ . Then, we have
๐ผ
[
1
๐พ
โ
โ
๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ 1 ] โค ๐น โ ( ๐ฑ 0 ) โ ๐น โ ๐ท โ โ ๐ + ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] ๐ท โ โ ๐ + ๐ท โ โ โ ๐
1 ๐ ๐ ๐ ๐ .
Proof.
In Theorem 7, set ๐ฎ ๐ to be equal to ๐ฎ 1 for the first ๐ iterations, ๐ฎ 2 for the second ๐ iterations and so on. In other words, ๐ฎ ๐
๐ฎ ๐ โ ๐ โ ๐ โ ( ๐ , ๐ ) + 1 for ๐
1 , โฆ , ๐ .
From Theorem 7, we have
๐ผ [ ๐น โ ( ๐ฑ ๐ ) ]
๐น โ ( ๐ฑ 0 ) + ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] + ๐ผ [ โ ๐
1 ๐ โจ ๐ ๐ , ๐ฎ ๐ โฉ ] .
Now, since ๐ข ๐ , ๐
โ ๐ท โ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ ๐ฅ ๐ | โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ ๐ฅ ๐ | , ๐ผ [ ๐ ๐ ]
โ ๐น โ ( ๐ฐ ๐ ) , and Var โ ( ๐ ๐ , ๐ ) โค ๐ ๐ 2 for ๐
1 , โฆ , ๐ , we have
๐ผ [ โ ๐
1
๐
โจ
๐
๐
,
๐ฎ
๐
โฉ
]
โค
๐ผ
[
โ
๐
1 ๐พ โจ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) , ๐ฎ ๐ โฉ + ๐ท โ โ โ ๐
1 ๐พ โ โ ๐ก
1
๐
(
โ
๐น
โ
(
๐ฐ
๐ก
๐
)
โ
๐
๐
)
โ
1
]
โค
๐ผ
[
โ
๐
1 ๐พ โจ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) , ๐ฎ ๐ โฉ ] + ๐ท โ โ ๐พ โ ๐ โ โ ๐
1 ๐ ๐ ๐
๐ผ [ โ โ ๐
1 ๐พ ๐ท โ โ ๐ โ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ 1 ] + ๐ท โ โ ๐พ โ ๐ โ โ ๐
1 ๐ ๐ ๐ .
Putting this all together, we have
๐น โ โค ๐ผ [ ๐น โ ( ๐ฑ ๐ ) ] โค ๐น โ ( ๐ฑ 0 ) + ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐ ) ] + ๐ท โ โ ๐พ โ ๐ โ โ ๐
1 ๐ ๐ ๐ โ ๐ท โ โ ๐ โ โ ๐
1 ๐พ ๐ผ [ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ 1 ] .
Dividing by ๐พ โ ๐ โ ๐ท โ
๐ท โ โ ๐ and reordering, we have the stated bound. โ
We can now prove Theorem 13.
Proof of Theorem 13.
Since ๐ guarantees โ ๐ซ ๐ โ โ โค ๐ท โ , for all ๐ < ๐ โฒ โค ๐ + ๐ โ 1 , we have
โ ๐ฐ ๐ โ ๐ฐ ๐ โฒ โ โ
โ
๐ฑ
๐
โ
(
1
โ
๐
๐
)
โ
๐ซ
๐
โ
๐ฑ
๐
โฒ
โ
1
+
๐
๐
โฒ
โ
๐ซ
๐
โฒ
โ
โ
โค
โ
โ
๐
๐
+
1
๐
โฒ
โ
1
๐ซ
๐
โ
โ
+
โ
๐ซ
๐
โ
โ
+
โ
๐ซ
๐
โฒ
โ
โ
โค
๐ท
โ
โ
(
(
๐
โฒ
โ
1
)
โ
(
๐
+
1
)
+
1
)
+
2
โ
๐ท
โ
๐ท โ โ ( ๐ โฒ โ ๐ + 1 )
โค ๐ท โ โ ๐ .
Therefore, we clearly have โ ๐ฐ ๐ก ๐ โ ๐ฐ ยฏ ๐ โ โ โค ๐ท โ โ ๐
๐ฟ .
Note that from the choice of ๐พ and ๐ we have ๐
๐พ โ ๐ โฅ ๐ โ ๐ โฅ ๐ / 2 . Now, observe that Var โ ( ๐ ๐ , ๐ ) โค ๐ผ [ ๐ ๐ ๐ 2 ] โค ๐บ ๐ 2 . Thus, applying Theorem 30 in concert with the additional assumption ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] โค ๐ท โ โ ๐พ โ ๐ โ โ ๐
1 ๐ ๐บ ๐ , we have
๐ผ [ 1 ๐พ โ โ ๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1
๐
โ
๐น
โ
(
๐ฐ
๐ก
๐
)
โ
1
]
โค
2
โ
๐น
โ
(
๐ฑ
0
)
โ
๐น
โ
๐ท
โ
โ
๐
+
2
โ
๐พ
โ
๐ท
โ
โ
๐
โ
โ
๐
1 ๐ ๐บ ๐ ๐ท โ โ ๐ + โ ๐
1 ๐ ๐บ ๐ ๐
2 โ ๐ โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ + 3 โ โ ๐
1
๐
๐บ
๐
๐
โค
max
โก
(
5
โ
(
โ
๐
1 ๐ ๐บ ๐ ) 2 / 3 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 1 / 3 ( ๐ โ ๐ฟ ) 1 / 3 , 6 โ โ ๐
1 ๐ ๐บ ๐ ๐ ) + 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ ,
where the last inequality is due to the choice of ๐ .
Now to conclude, observe that โ ๐ฐ ๐ก ๐ โ ๐ฐ ยฏ ๐ โ โ โค ๐ฟ for all ๐ก and ๐ , and also that ๐ฐ ยฏ ๐
1 ๐ โ โ ๐ก
1 ๐ ๐ฐ ๐ก ๐ . Therefore ๐
{ ๐ฐ 1 ๐ , โฆ , ๐ฐ ๐ ๐ } satisfies the conditions in the infimum in Definition 12 so that โ โ ๐น โ ( ๐ฐ ยฏ ๐ ) โ 1 , ๐ฟ โค โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ 1 . โ
Appendix HDirectional Derivative Setting
In the main text, our algorithms make use of a stochastic gradient oracle. However, the prior work of Zhang et al. (2020b) instead considers a stochastic directional gradient oracle. This is a less common setup, and other works (e.g., Davis et al. (2021)) have also taken our route of tackling non-smooth optimization via an oracle that returns gradients at points of differentiability.
Nevertheless, all our results extend easily to the exact setting of Zhang et al. (2020b) in which ๐น is Lipschitz and directionally differentiable and we have access to a stochastic directional gradient oracle rather than a stochastic gradient oracle. To quantify this setting, we need a bit more notation which we copy directly from Zhang et al. (2020b) below:
First, from Clarke (1990) and Zhang et al. (2020b), the generalized directional derivative of a function ๐น in a direction ๐ is
๐น โ โ ( ๐ฑ , ๐ )
lim sup ๐ฒ โ ๐ฑ โ ๐ก โ 0 ๐ โ ( ๐ฒ + ๐ก โ ๐ ) โ ๐ โ ( ๐ฒ ) ๐ก .
(4)
Further, the generalized gradient is the set
โ ๐น โ ( ๐ฑ )
{ ๐ : โจ ๐ , ๐ โฉ โค โจ ๐น โ โ ( ๐ฑ , ๐ ) , ๐ โฉ โ for all โ ๐ } .
Finally, ๐น : โ ๐ โ โ is Hadamard directionally differentiable in the direction ๐ฏ โ โ ๐ if for any function ๐ : โ + โ โ ๐ such that lim ๐ก โ 0 ๐ โ ( ๐ก ) โ ๐ โ ( 0 ) ๐ก
๐ฏ and ๐ โ ( 0 )
๐ฑ , the following limit exists:
lim ๐ก โ 0 ๐น โ ( ๐ โ ( ๐ก ) ) โ ๐น โ ( ๐ฑ ) ๐ก .
If ๐น is Hadamard directionally differentiable, then the above limit is denoted ๐น โฒ โ ( ๐ฑ , ๐ฏ ) . When ๐น is Hadamard directionally differentiable for all ๐ฑ and ๐ฏ , then we say simply that ๐น is directionally differentiable.
With these definitions, a stochastic directional oracle for a Lipschitz, directionally differentiable, and bounded from below function ๐น is an oracle Grad โ ( ๐ฑ , ๐ฏ , ๐ณ ) that outputs ๐ โ โ ๐น โ ( ๐ฑ ) such that โจ ๐ , ๐ฏ โฉ
๐น โฒ โ ( ๐ฑ , ๐ฏ ) . In this case, Zhang et al. (2020b) shows (Lemma 3) that ๐น satisfies an alternative notion of well-behavedness:
๐น โ ( ๐ฒ ) โ ๐น โ ( ๐ฑ )
โซ 0 1 โจ ๐ผ [ Grad โ ( ๐ฑ + ๐ก โ ( ๐ฒ โ ๐ฑ ) , ๐ฒ โ ๐ฑ , ๐ณ ) ] , ๐ฒ โ ๐ฑ โฉ โ ๐ ๐ก .
(5)
Next, we define:
Definition 31.
A point ๐ฑ is a ( ๐ฟ , ๐ ) stationary point of ๐น for the generalized gradient if there is a set of points ๐ contained in the ball of radius ๐ฟ centered at ๐ฑ such that for ๐ฒ selected uniformly at random from ๐ , ๐ผ [ ๐ฒ ]
๐ฑ and for all ๐ฒ there is a choice of ๐ ๐ฒ โ โ ๐น โ ( ๐ฒ ) such that โ ๐ผ [ ๐ ๐ฒ ] โ โค ๐ .
Similarly, we have the definition:
Definition 32.
Given a point ๐ฑ , and a number ๐ฟ
0 , define:
โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ โ inf ๐ โ ๐ต โ ( ๐ฑ , ๐ฟ ) , 1 | ๐ | โ โ ๐ฒ โ ๐ ๐ฒ
๐ฑ , ๐ ๐ฒ โ โ ๐น โ ( ๐ฒ ) โ 1 | ๐ | โ โ ๐ฒ โ ๐ ๐ ๐ฒ โ .
In fact, whenever a locally Lipschitz function ๐น is differentiable at a point ๐ฑ , we have that โ ๐น โ ( ๐ฑ ) โ โ ๐น โ ( ๐ฑ ) , so that โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ โค โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ . Thus our results in the main text also bound โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ . However, while a gradient oracle is also directional derivative oracle, a directional derivative oracle is only guaranteed to be a gradient oracle if ๐น is continuously differentiable at the queried point ๐ฑ . This technical issue means that when we have access to a directional derivative oracle rather than a gradient oracle, we will instead only bound โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ rather than โ โ ๐น โ ( ๐ฑ ) โ ๐ฟ .
Despite this technical complication, our overall strategy is essentially identical. The key observation is that the only time at which we used the properties of the gradient previously was when we invoked well-behavedness of ๐น . When we have a directional derivative instead of the gradient, the alternative notion of well-behavedness in (5) will play an identical role. Thus, our approach is simply to replace the call to Grad โ ( ๐ฐ ๐ , ๐ณ ๐ ) in Algorithm 1 with a call instead to Grad โ ( ๐ฐ ๐ , ๐ซ ๐ , ๐ณ ๐ ) (see Algorithm 4). With this change, all of our analysis in the main text applies almost without modification. Essentially, we only need to change notation in a few places to reflect the updated definitions.
Algorithm 4 Online-to-Non-Convex Conversion (directional derivative oracle version) โInput: Initial point ๐ฑ 0 , ๐พ โ โ , ๐ โ โ , online learning algorithm ๐ , ๐ ๐ for all ๐ โSet ๐
๐พ โ ๐ โfor ๐
1 โ โฆ โ ๐ do โโGet ๐ซ ๐ from ๐ โโSet ๐ฑ ๐
๐ฑ ๐ โ 1 + ๐ซ ๐ โโSet ๐ฐ ๐
๐ฑ ๐ โ 1 + ๐ ๐ โ ๐ซ ๐ โโSample random ๐ณ ๐ โโGenerate directional derivative ๐ ๐
Grad โ ( ๐ฐ ๐ , ๐ซ ๐ , ๐ณ ๐ ) โโSend ๐ ๐ to ๐ as gradient โend for โSet ๐ฐ ๐ก ๐
๐ฐ ( ๐ โ 1 ) โ ๐ + ๐ก for ๐
1 , โฆ , ๐พ and ๐ก
1 , โฆ , ๐ โSet ๐ฐ ยฏ ๐
1 ๐ โ โ ๐ก
1 ๐ ๐ฐ ๐ก ๐ for ๐
1 , โฆ , ๐พ โReturn { ๐ฐ ยฏ 1 , โฆ , ๐ฐ ยฏ ๐พ }
To begin this notational update, the counterpart to Theorem 7 is:
Theorem 33.
Suppose ๐น is Lipschitz and directionally differentiable. With the notation in Algorithm 4, if we let ๐ ๐ be independent random variables uniformly distributed in [ 0 , 1 ] , then for any sequence of vectors ๐ฎ 1 , โฆ , ๐ฎ ๐ , if we have the equality:
๐ผ [ ๐น โ ( ๐ฑ ๐ ) ]
๐น โ ( ๐ฑ 0 ) + ๐ผ [ โ ๐
1 ๐ โจ ๐ ๐ , ๐ซ ๐ โ ๐ฎ ๐ โฉ ] + ๐ผ [ โ ๐
1
๐
โจ
๐
๐
,
๐ฎ
๐
โฉ
]
.
Proof.
๐น
โ
(
๐ฑ
๐
)
โ
๐น
โ
(
๐ฑ
๐
โ
1
)
โซ 0 1 โจ ๐ผ [ Grad โ ( ๐ฑ ๐ โ 1 + ๐ โ ( ๐ฑ ๐ โ ๐ฑ ๐ โ 1 ) , ๐ฑ ๐ โ ๐ฑ ๐ โ 1 , ๐ณ ๐ ) ] , ๐ฑ ๐ โ ๐ฑ ๐ โ 1 โฉ โ d ๐
๐ผ [ โจ ๐ ๐ , ๐ซ ๐ โฉ ]
๐ผ [ โจ ๐ ๐ , ๐ซ ๐ โ ๐ฎ ๐ โฉ + โจ ๐ ๐ , ๐ฎ ๐ โฉ ] .
Where in the second line we have used the definition ๐ ๐
Grad โ ( ๐ฑ ๐ โ 1 + ๐ ๐ โ ( ๐ฑ ๐ โ ๐ฑ ๐ โ 1 ) , ๐ฑ ๐ โ ๐ฑ ๐ โ 1 , ๐ณ ๐ ) , the assumption that ๐ ๐ is uniform on [ 0 , 1 ] , and Fubini theorem (as Grad is bounded by Lipschitzness of ๐น ). Now, sum over ๐ and telescope to obtain the stated bound.
โ
Next, we have the following analog of Theorem 8:
Theorem 34.
With the notation in Algorithm 4, set ๐ ๐ to be a random variable sampled uniformly from [ 0 , 1 ] . Set ๐ , ๐พ โ โ and ๐
๐พ โ ๐ . Define โ ๐ก ๐
๐ผ [ ๐ ( ๐ โ 1 ) โ ๐ + ๐ก ] . Define ๐ฎ ๐
โ ๐ท โ โ ๐ก
1 ๐ โ ๐ก ๐ โ โ ๐ก
1 ๐ โ ๐ก ๐ โ for some ๐ท > 0 for ๐
1 , โฆ , ๐พ . Finally, suppose Var โ ( ๐ ๐ )
๐ 2 . Then:
๐ผ [ 1 ๐พ โ โ ๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐ก ๐ โ ]
โค ๐น โ ( ๐ฑ 0 ) โ ๐น โ ๐ท โ ๐ + ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] ๐ท โ ๐ + ๐ ๐ .
Proof.
The proof is essentially identical to that of Theorem 8. In Theorem 33, set ๐ฎ ๐ to be equal to ๐ฎ 1 for the first ๐ iterations, ๐ฎ 2 for the second ๐ iterations and so on. In other words, ๐ฎ ๐
๐ฎ ๐ โ ๐ โ ๐ โ ( ๐ , ๐ ) + 1 for ๐
1 , โฆ , ๐ . So, we have
๐ผ [ ๐น โ ( ๐ฑ ๐ ) ]
๐น โ ( ๐ฑ 0 ) + ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] + ๐ผ [ โ ๐
1 ๐ โจ ๐ ๐ , ๐ฎ ๐ โฉ ] .
Now, since ๐ฎ ๐
โ ๐ท โ โ ๐ก
1 ๐ โ ๐ก ๐ โ โ ๐ก
1 ๐ โ ๐ก ๐ โ , and Var โ ( ๐ ๐ )
๐ 2 , we have
๐ผ [ โ ๐
1
๐
โจ
๐
๐
,
๐ฎ
๐
โฉ
]
โค
๐ผ
[
โ
๐
1 ๐พ โจ โ ๐ก
1 ๐ โ ๐ก ๐ , ๐ฎ ๐ โฉ ] + ๐ผ [ ๐ท โ โ ๐
1 ๐พ โ โ ๐ก
1
๐
(
โ
๐ก
๐
โ
๐
(
๐
โ
1
)
โ
๐
+
๐ก
)
โ
]
โค
๐ผ
[
โ
๐
1 ๐พ โจ โ ๐ก
1 ๐ โ ๐ก ๐ , ๐ฎ ๐ โฉ ] + ๐ท โ ๐ โ ๐พ โ ๐
๐ผ [ โ โ ๐
1 ๐พ ๐ท โ ๐ โ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐ก ๐ โ ] + ๐ท โ ๐ โ ๐พ โ ๐ .
Putting this all together, we have
๐น
โ
โค
๐ผ
[
๐น
โ
(
๐ฑ
๐
)
]
โค
๐น
โ
(
๐ฑ
0
)
+
๐ผ
[
๐
๐
โ
(
๐ฎ
1
,
โฆ
,
๐ฎ
๐พ
)
]
+
๐
โ
๐ท
โ
๐พ
โ
๐
โ
๐ท
โ
๐
โ
โ
๐
1 ๐พ ๐ผ [ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐น โ ( ๐ฐ ๐ก ๐ ) โ ] .
Dividing by ๐พ โ ๐ท โ ๐
๐ท โ ๐ and reordering, we have the stated bound. โ
Finally, we instantiate Theorem 34 with online gradient descent to obtain the analog of Corollary 9. This result establishes that the online-to-batch conversion finds an ( ๐ฟ , ๐ ) critical point in ๐ โ ( 1 / ๐ 3 โ ๐ฟ ) iterations, even when using a directional derivative oracle. Further, our lower bound construction makes use of continuously differentiable functions, for which the directional derivative oracle and the standard gradient oracle must coincide. Thus the ๐ โ ( 1 / ๐ 3 โ ๐ฟ ) complexity is optimal in this setting as well.
Corollary 35.
Suppose we have a budget of ๐ gradient evaluations. Under the assumptions and notation of Theorem 34, suppose in addition ๐ผ [ โ ๐ ๐ โ 2 ] โค ๐บ 2 and that ๐ guarantees โ ๐ซ ๐ โ โค ๐ท for some user-specified ๐ท for all ๐ and ensures the worst-case ๐พ -shifting regret bound ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] โค ๐ท โ ๐บ โ ๐พ โ ๐ for all โ ๐ฎ ๐ โ โค ๐ท (e.g., as achieved by the OGD algorithm that is reset every ๐ iterations). Let ๐ฟ > 0 be an arbitrary number. Set ๐ท
๐ฟ / ๐ , ๐
min โก ( โ ( ๐บ โ ๐ โ ๐ฟ ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 2 / 3 โ , ๐ 2 ) , and ๐พ
โ ๐ ๐ โ . Then, for all ๐ and ๐ก , โ ๐ฐ ยฏ ๐ โ ๐ฐ ๐ก ๐ โ โค ๐ฟ .
Moreover, we have the inequality
๐ผ
[
1
๐พ
โ
โ
๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐ก ๐ โ ] โค 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ + max โก ( 5 โ ๐บ 2 / 3 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 1 / 3 ( ๐ โ ๐ฟ ) 1 / 3 , 6 โ ๐บ ๐ ) ,
which implies
1
๐พ
โ
๐ก
1 ๐พ โ โ ๐น โ ( ๐ฐ ยฏ ๐ ) โ ๐ฟ โค 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ + max โก ( 5 โ ๐บ 2 / 3 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 1 / 3 ( ๐ โ ๐ฟ ) 1 / 3 , 6 โ ๐บ ๐ ) .
Proof.
Since ๐ guarantees โ ๐ซ ๐ โ โค ๐ท , for all ๐ < ๐ โฒ โค ๐ + ๐ โ 1 , we have
โ ๐ฐ ๐ โ ๐ฐ ๐ โฒ โ
โ
๐ฑ
๐
โ
(
1
โ
๐
๐
)
โ
๐ซ
๐
โ
๐ฑ
๐
โฒ
โ
1
+
๐
๐
โฒ
โ
๐ซ
๐
โฒ
โ
โค
โ
โ
๐
๐
+
1
๐
โฒ
โ
1
๐ซ
๐
โ
+
โ
๐ซ
๐
โ
+
โ
๐ซ
๐
โฒ
โ
โค
๐ท
โ
(
(
๐
โฒ
โ
1
)
โ
(
๐
+
1
)
+
1
)
+
2
โ
๐ท
๐ท โ ( ๐ โฒ โ ๐ + 1 ) โค ๐ท โ ๐ .
Therefore, we clearly have โ ๐ฐ ๐ก ๐ โ ๐ฐ ยฏ ๐ โ โค ๐ท โ ๐
๐ฟ .
Note that from the choice of ๐พ and ๐ we have ๐
๐พ โ ๐ โฅ ๐ โ ๐ โฅ ๐ / 2 . So, for the second fact, notice that Var โ ( ๐ ๐ ) โค ๐บ 2 for all ๐ . Thus, applying Theorem 34 in concert with the additional assumption ๐ผ [ ๐ ๐ โ ( ๐ฎ 1 , โฆ , ๐ฎ ๐พ ) ] โค ๐ท โ ๐บ โ ๐พ โ ๐ , we have:
๐ผ [ 1 ๐พ โ โ ๐
1 ๐พ โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐ก ๐ โ ]
โค 2 โ ๐น โ ( ๐ฑ 0 ) โ ๐น โ ๐ท โ ๐ + 2 โ ๐พ โ ๐ท โ ๐บ โ ๐ ๐ท โ ๐ + ๐บ ๐
โค 2 โ ๐ โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ + 3 โ ๐บ ๐
โค max โก ( 5 โ ๐บ 2 / 3 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) 1 / 3 ( ๐ โ ๐ฟ ) 1 / 3 , 6 โ ๐บ ๐ ) + 2 โ ( ๐น โ ( ๐ฑ 0 ) โ ๐น โ ) ๐ฟ โ ๐ ,
where the last inequality is due to the choice of ๐ .
Finally, observe that โ ๐ฐ ๐ก ๐ โ ๐ฐ ยฏ ๐ โ โค ๐ฟ for all ๐ก and ๐ , and also that ๐ฐ ยฏ ๐
1 ๐ โ โ ๐ก
1 ๐ ๐ฐ ๐ก ๐ . Therefore ๐
{ ๐ฐ 1 ๐ , โฆ , ๐ฐ ๐ ๐ } satisfies the conditions in the infimum in Definition 32 so that โ โ ๐น โ ( ๐ฐ ยฏ ๐ ) โ ๐ฟ โค โ 1 ๐ โ โ ๐ก
1 ๐ โ ๐ก ๐ โ . โ
Report Issue Report Issue for Selection Generated by L A T E xml Instructions for reporting errors
We are continuing to improve HTML versions of papers, and your feedback helps enhance accessibility and mobile support. To report errors in the HTML that will help us improve conversion and rendering, choose any of the methods listed below:
Click the "Report Issue" button. Open a report feedback form via keyboard, use "Ctrl + ?". Make a text selection and click the "Report Issue for Selection" button near your cursor. You can use Alt+Y to toggle on and Alt+Shift+Y to toggle off accessible reporting links at each section.
Our team has already identified the following issues. We appreciate your time reviewing and reporting rendering errors we may not have found yet. Your efforts will help us improve the HTML versions for all readers, because disability should not be a barrier to accessing research. Thank you for your continued support in championing open access for all.
Have a free development cycle? Help support accessibility at arXiv! Our collaborators at LaTeXML maintain a list of packages that need conversion, and welcome developer contributions.
Xet Storage Details
- Size:
- 132 kB
- Xet hash:
- f37619abcd901921ebcdec13e99257221ddf1132b3f9f9f42f3c198d662a6be0
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.