Buckets:
Title: Attribute-Efficient PAC Learning of Low-Degree Polynomial Threshold Functions with Nasty Noise
URL Source: https://arxiv.org/html/2306.00673
Markdown Content: Back to arXiv
This is experimental HTML to improve accessibility. We invite you to report rendering errors. Use Alt+Y to toggle on accessible reporting links and Alt+Shift+Y to toggle off. Learn more about this project and help improve conversions.
Why HTML? Report Issue Back to Abstract Download PDF 1Introduction 2Preliminaries 3Main Algorithms 4Performance Guarantees 5Conclusion License: CC BY 4.0 arXiv:2306.00673v2 [cs.DS] 19 Mar 2024 Attribute-Efficient PAC Learning of Low-Degree Polynomial Threshold Functions with Nasty Noise Shiwei Zeng Stevens Institute of Technology szeng4@stevens.edu Jie Shen Stevens Institute of Technology jie.shen@stevens.edu Abstract
The concept class of low-degree polynomial threshold functions (PTFs) plays a fundamental role in machine learning. In this paper, we study PAC learning of ๐พ -sparse degree- ๐ PTFs on โ ๐ , where any such concept depends only on ๐พ out of ๐ attributes of the input. Our main contribution is a new algorithm that runs in time ( ๐ โข ๐ / ๐ ) ๐ โข ( ๐ ) and under the Gaussian marginal distribution, PAC learns the class up to error rate ๐ with ๐ โข ( ๐พ 4 โข ๐ ๐ 2 โข ๐ โ log 5 โข ๐ โก ๐ ) samples even when an ๐ โค ๐ โข ( ๐ ๐ ) fraction of them are corrupted by the nasty noise of Bshouty et al. (2002), possibly the strongest corruption model. Prior to this work, attribute-efficient robust algorithms are established only for the special case of sparse homogeneous halfspaces. Our key ingredients are: 1) a structural result that translates the attribute sparsity to a sparsity pattern of the Chow vector under the basis of Hermite polynomials, and 2) a novel attribute-efficient robust Chow vector estimation algorithm which uses exclusively a restricted Frobenius norm to either certify a good approximation or to validate a sparsity-induced degree- 2 โข ๐ polynomial as a filter to detect corrupted samples.
1Introduction
A polynomial threshold function (PTF) ๐ : โ ๐ โ { โ 1 , 1 } is of the form ๐ โข ( ๐ฅ )
sign โก ( ๐ โข ( ๐ฅ ) ) for some ๐ -variate polynomial ๐ . The class of low-degree PTFs plays a fundamental role in learning theory owing to its remarkable power for rich representations [Man94, AB99, HS07, OโD14]. In this paper, we study attribute-efficient learning of degree- ๐ PTFs: if the underlying PTF ๐ * is promised to depend only on at most ๐พ unknown attributes of the input, whether and how can one learn ๐ * by collecting ๐ โข ( poly โข ( ๐พ ๐ , log โก ๐ ) ) samples under the classic probably approximately correct (PAC) learning model [Val84].
A very special case of the problem, the class of sparse halfspaces (i.e. degree- 1 PTFs), has been extensively investigated in machine learning and statistics [Lit87, Blu90, Gen03, PV13a], and a fruitful set of results have been established even under strong noise models [PV13b, ABHZ16, Zha18, ZSA20, SZ21]. It, however, turns out that the theoretical and algorithmic understanding of learning sparse degree- ๐ PTFs fall far behind the linear counterpart.
In the absence of noise, the problem can be cast as solving a linear program by thinking of degree- ๐ PTFs as halfspaces on the space expanded by all monomials of degree at most ๐ [MT94]. However, the problem becomes subtle when samples might be contaminated adversarially. In this work, we consider the nasty noise of [BEK02], perhaps the strongest noise model in classification.
Definition 1 (PAC learning with nasty noise).
Denote by โ ๐ , ๐พ the class of ๐พ -sparse degree- ๐ PTFs on โ ๐ . Let ๐ท be a distribution on โ ๐ and ๐ * โ โ ๐ , ๐พ be the underlying PTF. A nasty adversary EX โข ( ๐ ) takes as input a sample size ๐ requested by the learner, draws ๐ instances independently according to ๐ท and annotates them by ๐ * , to form a clean sample set ๐ ยฏ
{ ( ๐ฅ ๐ , ๐ * โข ( ๐ฅ ๐ ) ) } ๐
1 ๐ . The adversary may then inspect the learning algorithm and uses its unbounded computational power to replace at most an ๐ fraction with carefully constructed samples for some ๐ < 1 2 , and returns the corrupted set ๐ ยฏ โฒ to the learner. The goal of the learner is to output a concept ๐ ^ : โ ๐ โ { โ 1 , 1 } , such that with probability 1 โ ๐ฟ (over the randomness of the samples and all internal random bits of the learning algorithm), Pr ๐ฅ โผ ๐ท โก ( ๐ ^ โข ( ๐ฅ ) โ ๐ * โข ( ๐ฅ ) ) โค ๐ for any prescribed error rate ๐ โ ( 0 , 1 ) and failure probability ๐ฟ โ ( 0 , 1 ) . We say an algorithm PAC learns the class โ ๐ , ๐พ if the guarantee holds uniformly for any member ๐ * โ โ ๐ , ๐พ .
[BEK02] presented a computationally inefficient algorithm for learning any concept class with near-optimal sample complexity and noise tolerance as far as the concept class has finite VC-dimension (see Theorem 7 therein). Since the VC-dimension of โ ๐ , ๐พ is ๐ โข ( ๐พ ๐ โข log โก ๐ ) , we have:
Fact 2.
There exists an inefficient algorithm that PAC learns โ ๐ , ๐พ with near-optimal sample complexity ๐ โข ( ๐พ ๐ โข log โก ๐ ) and noise tolerance ฮฉ โข ( ๐ ) .
Designing efficient algorithms that match such statistical guarantees thus becomes a core research line.
On the one hand, for the special case of homogeneous sparse halfspaces, [SZ21] gave a state-of-the-art algorithm with sample complexity ๐ โข ( ๐พ 2 โข log 5 โก ๐ ) and noise tolerance ฮฉ โข ( ๐ ) when the instance distribution ๐ท is isotropic log-concave. On the other hand, for learning general sparse low-degree PTFs, very little is known, since the structure of PTFs is tremendously complex. To our knowledge, it appears that the only known approach is to reducing the problem to a generic approach proposed in the early work of [KL88]. In particular, Theorem 12 therein implies that any concept class โ can be PAC learned with nasty noise in polynomial time provided that there exists a polynomial-time algorithm that PAC learns it in the absence of noise and that ๐ โค ๐ โข ( ๐ VCdim โข ( โ ) โข log โก VCdim โข ( โ ) ๐ ) , where VCdim โข ( โ ) denotes the VC-dimension of โ . We therefore have the following (see Appendix B for the proof):
Fact 3.
There exists an efficient algorithm that draws ๐ถ 0 โ ๐พ 3 โข ๐ โข log 3 โก ๐ ๐ 6 โข log โก 1 ๐ฟ samples from the nasty adversary and PAC learns โ ๐ , ๐พ provided that ๐ โค ๐ โข ( ๐ โข ๐ ๐พ ๐ โข log โก 1 ๐ ) , where ๐ถ 0
0 is an absolute constant.
The result above is appealing since it makes no distributional assumption and it runs in polynomial time. However, the main issue is on the noise tolerance: the robustness of the algorithm degrades significantly when ๐พ is large. For example, in the interesting regime ๐พ
ฮ โข ( log โก ๐ ) , the noise tolerance is dimension-dependent, meaning that the algorithmic guarantees are brittle in high-dimensional problems. See [KKMS05, KLS09, LS11, ABL17, She21b, SZ21] and a comprehensive survey by [DK19] for the importance and challenges of obtaining dimension-independent noise tolerance.
1.1Main results
Throughout the paper, we always assume:
Assumption 1.
๐ท is the Gaussian distribution ๐ฉ โข ( 0 , ๐ผ ๐ ร ๐ ) .
Our main result is an attribute-efficient algorithm that runs in time ( ๐ โข ๐ / ๐ ) ๐ โข ( ๐ ) and PAC learns โ ๐ , ๐พ with dimension-independent noise tolerance.
Theorem 4 (Theorem 19, informal).
Assume that ๐ท is the standard Gaussian distribution ๐ฉ โข ( 0 , ๐ผ ๐ ร ๐ ) . There is an algorithm that runs in time ( ๐ โข ๐ / ๐ ) ๐ โข ( ๐ ) and PAC learns โ ๐ , ๐พ by drawing ๐ถ โ ๐พ 4 โข ๐ โข ( ๐ โข log โก ๐ ) 5 โข ๐ ๐ 2 โข ๐ + 2 samples from the nasty adversary for some absolute constant ๐ถ
0 , provided that ๐ โค ๐ โข ( ๐ ๐ + 1 / ๐ 2 โข ๐ ) .
Remark 5 (Sample complexity).
It is known that for efficient and outlier-robust algorithms, ฮฉ โข ( ๐พ 2 ) samples are necessary to obtain an error bound of ๐ โข ( ๐ ) even for linear models [DKS17]. Thus, the multiplicative factor ๐พ 4 โข ๐ in our sample complexity bound is very close to the best possible scaling of ๐พ 2 โข ๐ and the best known result in Fact 3. The exponent ๐ in the factor 1 ๐ 2 โข ๐ + 2 comes from our two-step approach: we will first robustly estimate the Chow vector [Cho61] of ๐ * up to error ๐ 0 using ฮฉ โข ( 1 / ๐ 0 2 ) samples, and then apply an algorithmic result of [TTV09, DDFS14, DKS18a] to construct a PTF with misclassification error rate of ๐ โข ( ๐ โ ๐ 0 1 / ๐ + 1 ) . This in turn suggests that we have to set ๐ 0
( ๐ / ๐ ) ๐ + 1 in order to get the target error rate ๐ . As noted in [DKS18a], such overhead on the scaling of ๐ is inherent when using only Chow vector to establish PAC guarantees for degree- ๐ PTFs.
Remark 6 (Noise tolerance).
Our noise tolerance matches the best known one given by [DKS18a], which studied non-sparse low-degree PTFs. When the degree ๐ is a constant, the noise tolerance reads as ๐ ฮฉ โข ( 1 ) , qualitatively matching the information-theoretic limit of ฮฉ โข ( ๐ ) . Yet, the existence of efficient low-degree PTF learners with optimal noise tolerance is widely open.
Remark 7 (Comparison to prior works).
Most in line with this work are [SZ21] and [DKS18a]. [SZ21] gave a state-of-the-art algorithm for learning ๐พ -sparse halfspaces, but their algorithm cannot be generalized to learn sparse low-degree PTFs. [DKS18a] developed an efficient algorithm for learning non-sparse PTFs. Their sample complexity bound reads as 1 ๐ 2 โข ๐ + 2 โ ( ๐ โข ๐ ) ๐ โข ( ๐ ) , which is not attribute-efficient and thus is inapplicable for real-world problems where the number of samples is orders of magnitude less than that of attributes. At a high level, our result can be thought of as a significant generalization of both.
Remark 8 (Running time).
The computational cost of our algorithm is ( ๐ โข ๐ / ๐ ) ๐ โข ( ๐ ) which we believe may not be significantly improved in the presence of the nasty noise. This is because the adversary has the power to inspect the algorithm and to corrupt any samples, which forces any robust algorithm to carefully verify the covariance matrix whose size is ๐ ๐ โข ( ๐ ) ร ๐ ๐ โข ( ๐ ) ; see Section 1.2 and Section 3. Under quite different problem settings, prior works leveraged the underlying sparsity for improved computational complexity; see Section 1.3.
1.2Overview of main techniques
Our starting point to learn sparse low-degree PTFs is an elegant algorithmic result from [DKS18a], which shows that as far as one is able to approximate the Chow vector of ๐ * [Cho61], it is possible to reconstruct a PTF ๐ ^ with PAC guarantee in time ( ๐ โข ๐ / ๐ ) ๐ โข ( ๐ ) . To apply such scheme, we will need to 1) properly define the Chow vector since it depends on the choice of the basis of polynomials; and 2) estimate the Chow vector of ๐ * in time ( ๐ โข ๐ / ๐ ) ๐ โข ( ๐ ) . Our technical novelty lies in new structural and algorithmic ingredients to achieve attribute efficiency.
- Structural result: attribute sparsity induces sparse Chow vectors under the basis of Hermite polynomials. Prior works such as the closely related work of [DKS18a] tend to use the basis of monomials to define Chow vectors. However, there is no guarantee that such definition would exhibit the desired sparsity structure. For example, consider that ๐ท is the standard Gaussian distribution. For ๐พ -sparse degree- ๐ PTFs on โ ๐ , the number of monomials with non-zero coefficients can be as large as ( ๐ ๐ ) โ ๐ 2 โ for any ๐พ โค ๐ / 2 , ๐ โฅ 2 (see Lemma 22). Our first technical insight is that, the condition that a degree- ๐ PTF is ๐พ -sparse implies a ๐ -sparse Chow vector with respect to the basis of Hermite polynomials of degree at most ๐ ( ๐ is roughly 2 โข ๐พ ๐ , see Lemma 10). This endows a sparsity structure of the Chow vector of ๐
- , which in turn is leveraged into our algorithmic design since we can now focus on a much narrower space of Chow vectors and thus lower sample complexity.
It is worth mentioning that while we present our results under Gaussian distribution and thus use the Hermite polynomials as the basis to ease analysis, the choice of basis can go well beyond that; see Appendix B.4 for more discussions.
Algorithmic result: attribute-efficient robust Chow vector estimation. Denote by ๐ โข ( ๐ฅ ) the vector of all ๐ -variate Hermite polynomials of degree at most ๐ . The Chow vector (also known as Fourier coefficients) of a Boolean-valued function ๐ : โ ๐ โ { โ 1 , 1 } is defined as ๐ ๐ :
๐ผ ๐ฅ โผ ๐ท [ ๐ ( ๐ฅ ) โ ๐ ( ๐ฅ ) ] . As we discussed, ๐ ๐
- is ๐ -sparse on an unknown support set. To estimate it within error ๐ 0 in โ 2 -norm, it suffices to find some ๐ -sparse vector ๐ข , such that for all 2 โข ๐ -sparse unit vector ๐ฃ , we have | โจ ๐ฃ , ๐ข โ ๐ ๐
โฉ | โค ๐ 0 (see Lemma 45). We will choose ๐ข as an empirical Chow vector, i.e. ๐ข
โ ( ๐ฅ , ๐ฆ ) โ ๐ ยฏ โฒโฒ ๐ฆ โ ๐ โข ( ๐ฅ ) , where ๐ ยฏ โฒโฒ needs to be a carefully selected subset of ๐ ยฏ โฒ . Now recent developments in noise-tolerant classification [ABL17, SZ21, She23] suggest that such estimation error is governed by the maximum eigenvalue on all possible 2 โข ๐ -sparse directions of the empirical covariance matrix1 ฮฃ :
1 | ๐ ยฏ โฒโฒ | โ ๐ฅ โ ๐ ยฏ โฒโฒ ๐ ( ๐ฅ ) ๐ ( ๐ฅ ) โค . This structural result can be cast into algorithmic design: find a large enough subset ๐ ยฏ โฒโฒ such that the maximum sparse eigenvalue of ( ฮฃ โ ๐ผ ) is close to zero (note that ๐ผ ๐ฅ โผ ๐ท โก [ ๐ โข ( ๐ฅ ) โข ๐ โข ( ๐ฅ ) โค ]
๐ผ ). Unfortunately, there are two technical challenges: first, computing the maximum sparse eigenvalue is NP-hard; second, searching for such a subset is also computationally intractable.
2a) Small Frobenius norm certifies a good approximation. We tackle the first challenge by considering a sufficient condition: if the Frobenius norm of ( ฮฃ โ ๐ผ ) restricted on its ( 2 โข ๐ ) 2 largest entries (in magnitude) is small, then so is the maximum sparse eigenvalue โ this would imply the empirical Chow vector be a good approximation to ๐ ๐ * ; see Theorem 17.
2b) Large Frobenius norm validates a filter. It remains to show that when the restricted Frobenius norm is large, say larger than some carefully chosen parameter ๐ , how to find a proper subset ๐ ยฏ โฒโฒ that is clean enough, in the sense that its distributional properties act almost as it be an uncorrupted sample set. Our key idea is to construct a polynomial ๐ 2 such that (i) its empirical mean on the current sample set ๐ ยฏ โฒ equals the restricted Frobenius norm (which is large); and (ii) it has small value on clean samples. These two properties ensure that there must be a noticeable fraction of samples in ๐ ยฏ โฒ that caused a large function value of ๐ 2 , and they are very likely the corrupted ones; these will then be filtered to produce the new sample set ๐ ยฏ โฒโฒ (Theorem 14). In addition, the polynomial ๐ 2 is constructed in such a way that it is sparse under the basis { ๐ ๐ โข ( ๐ฅ ) โ ๐ ๐ โข ( ๐ฅ ) } , for the sake of attribute efficiency.
We check the Frobenius norm condition every time a new sample set ๐ ยฏ โฒโฒ is produced, and show that after a finite number of phases, we must be able to obtain a clean enough sample set ๐ ยฏ โฒโฒ that allows us to output a good estimate of the Chow vector ๐ ๐ * (Theorem 18).
We note that the idea of using Frobenius norm as a surrogate of the maximum sparse eigenvalue value has been explored in [DKK + 19, ZS22b] for robust sparse mean estimation. In those works, the Frobenius-norm condition was combined with a localized eigenvalue condition to establish their main results, while we discover that the Frobenius norm itself suffices for our purpose. This appears an interesting and practical finding as it reduces the computational cost and simplifies algorithmic design.
1.3Related works
The problem of learning from few samples dates back to the 1980s, when practitioners were confronting a pressing challenge: the number of samples available is orders of magnitude less than that of attributes, making classical algorithms fail to provide guarantees. The challenge persists even in the big data era, since in many domains such as healthcare, there is a limited availability of samples (i.e. patients) [CW08]. This has motivated a flurry of research on attribute-efficient learning of sparse concepts. A partial list of interesting works includes [Lit87, Blu90, CDS98, Tib96, Tro04, CT05, Fou11, PV13b, SL17a, SL17b, SL18, WSL18, She20] that studied linear models in the absence of noise (or with benign noise). Later, [CSV13, NJS13, CLS15] studied the problem of phase retrieval which can be seen as learning sparse quadratic polynomials. The setup was generalized in [CM20] which studied efficient learning of sparse low-degree polynomials. The work of [ZS22a, ZS23] implied efficient PAC learning of sparse PTFs when only labels are corrupted under a crowdsourcing PAC model [ABHM17].
In the presence of the nasty noise, the problem becomes subtle. Without distributional assumptions on ๐ท , it is known that even for the special case of learning halfspaces under the adversarial label noise, it is computationally hard when the noise rate is ๐ [GR06, FGKP06, Dan16]. Thus, distribution-independent algorithms are either unable to tolerate the nasty noise at a rate greater than ๐ [KL88], or runs in super-polynomial time [BEK02]. This motivates the study of efficient algorithms under distributional assumptions [KKMS05, KLS09, ABL17, SZ21, She23], which is the research line we follow. In unsupervised learning such as mean and covariance estimation, similar noise models are investigated broadly in recent years since the seminal works of [DKK + 16, LRV16]; see [DK19] for a comprehensive survey.
The interplay between sparsity and robustness is more involved than it appears to. Under the statistical-query framework, [DKS17] showed that any efficient and robust algorithms must draw ฮฉ โข ( ๐พ 2 ) samples in the presence of the nasty noise, complementing sample complexity upper bounds obtained in recent years [BDLS17, DKK + 19, SZ21, DKK + 22]. This is in stark contrast to learning with label noise, where ๐ โข ( ๐พ ) sample complexity can be established [Zha18, ZSA20, She21a].
We note that orthogonal to exploring sparsity for improved sample complexity, there are elegant works that explore sparsity for improved computational complexity for learning Boolean-valued functions [HS07, APVZ14], or using low-degree PTFs as primitives to approximate other concepts such as halfspaces [KKMS05] and decision lists [STT12].
Lastly, it is worth mentioning that low-rank matrix estimation [CR09, CLMW11, XCS12, XCM13, SXL14, SLX16, SL16], or more specifically, the one-bit variant [DPvdBW14], is a relevant field but little progress has been made towards algorithmic robustness [SAL19].
1.4Roadmap
We collect notations and definitions in Section 2. The main algorithms are described in Section 3 with a few lemmas to illustrate the idea, and the primary performance guarantees are stated in Section 4. We conclude this work in Section 5. All omitted proofs can be found in the appendix.
2Preliminaries
Vectors and matrices. For a vector ๐ฃ โ โ ๐ , we use ๐ฃ ๐ to denote its ๐ -th element. For two vectors ๐ข and ๐ฃ , we write ๐ข โ ๐ฃ as the inner product in the Euclidean space. We denote by โฅ ๐ฃ โฅ 1 , โฅ ๐ฃ โฅ 2 , โฅ ๐ฃ โฅ โ the โ 1 -norm, โ 2 -norm, and โ โ -norm of ๐ฃ respectively. The support set of a vector ๐ฃ is the index set of its non-zero elements, and โฅ ๐ฃ โฅ 0 denotes the cardinality of the support set. We will use the hard thresholding operator H ๐ โข ( ๐ฃ ) to produce a ๐ -sparse vector: the ๐ largest (in magnitude) elements of ๐ฃ are retained and the rest are set to zero. Let ฮ โ [ ๐ ] where [ ๐ ] :
{ 1 , โฆ , ๐ } . The restriction of ๐ฃ on ฮ , ๐ฃ ฮ , is obtained by keeping the elements in ฮ while setting the rest to zero.
Let ๐ด and ๐ต be two matrices in โ ๐ 1 ร ๐ 2 . We write tr โก ( ๐ด ) as the trace of ๐ด when it is square, and write โจ ๐ด , ๐ต โฉ :
tr ( ๐ด โค ๐ต ) . We denote by โฅ ๐ด โฅ ๐น the Frobenius norm, which equals โจ ๐ด , ๐ด โฉ . We will also use โฅ ๐ด โฅ 0 to count the number of non-zero entries in ๐ด . Let ๐ โ [ ๐ 1 ] ร [ ๐ 2 ] . The restriction of ๐ด on ๐ , ๐ด ๐ , is obtained by keeping the elements in ๐ but setting the rest to zero.
Probability, ๐ฟ 2 -space. Let ๐ท be a distribution on โ ๐ and ๐ be a function with the same support of ๐ท . We denote by ๐ผ ๐ โผ ๐ท โก [ ๐ โข ( ๐ ) ] the expectation of ๐ on ๐ท . Let ๐ be a finite set of instances. We write ๐ผ ๐ โผ ๐ [ ๐ ( ๐ ) ] :
1 | ๐ | โ ๐ฅ โ ๐ ๐ ( ๐ฅ ) as the empirical mean of ๐ on ๐ . To ease notation, we will often use ๐ผ โก [ ๐ โข ( ๐ท ) ] in place of ๐ผ ๐ โผ ๐ท โก [ ๐ โข ( ๐ ) ] , and likewise for ๐ผ โก [ ๐ โข ( ๐ ) ] . Similarly, we will write Pr ( ๐ ( ๐ท ) > ๐ก ) :
Pr ๐ โผ ๐ท ( ๐ ( ๐ ) > ๐ก ) , and Pr ( ๐ ( ๐ ) > ๐ก ) :
Pr ๐ โผ ๐ ( ๐ ( ๐ )
๐ก ) where ๐ โผ ๐ signifies uniform distribution on ๐ .
The ๐ฟ 2 โข ( โ ๐ , ๐ท ) space is equipped with the inner product โจ ๐ , ๐ โฉ ๐ท :
๐ผ ๐ฅ โผ ๐ท [ ๐ ( ๐ฅ ) โ ๐ ( ๐ฅ ) ] for any functions ๐ and ๐ on โ ๐ . The induced ๐ฟ 2 -norm of a function ๐ is given by โฅ ๐ โฅ ๐ฟ 2 โข ( ๐ท ) :
โจ ๐ , ๐ โฉ ๐ท
๐ผ โก [ ๐ 2 โข ( ๐ท ) ] , which we will simply write as โฅ ๐ โฅ ๐ฟ 2 when ๐ท is clear from the context.
Polynomials. Denote by ๐ซ ๐ , ๐ the class of polynomials on โ ๐ with degree at most ๐ . A degree- ๐ polynomial threshold function (PTF) is of the form ๐ โข ( ๐ฅ )
sign โก ( ๐ โข ( ๐ฅ ) ) for some ๐ โ ๐ซ ๐ , ๐ . Denote by He ๐ โข ( ๐ฅ )
1 ๐ ! โข ( โ 1 ) ๐ โ ๐ โ ๐ฅ 2 2 โข d ๐ d โข ๐ฅ ๐ โข ๐ โ ๐ฅ 2 2 the normalized univariate degree- ๐ Hermite polynomial on โ . The normalized ๐ -variate Hermite polynomial is given by He ๐ โข ( ๐ฅ )
โ ๐
1 ๐ He ๐ ๐ โข ( ๐ฅ ๐ ) for some multi-index ๐ โ โ ๐ ; for brevity we refer to them as Hermite polynomials. It is known that He โค ๐ :
{ He ๐ : ๐ โ โ ๐ , โฅ ๐ โฅ 1 โค ๐ } form a complete orthonormal basis for polynomials of degree at most ๐ in ๐ฟ 2 โข ( โ ๐ , ๐ท ) ; see Prop. 11.33 of [OโD14]. It is easy to see that He โค ๐ contains ๐ :
1 + โ ๐ก
1 ๐ ( ๐ก + ๐ โ 1 ๐ก ) members; we collect them as a vector ๐ โข ( ๐ฅ )
( ๐ 1 โข ( ๐ฅ ) , โฆ , ๐ ๐ โข ( ๐ฅ ) ) , with the first element ๐ 1 โข ( ๐ฅ ) โก 1 . In our analysis, it suffices to keep in mind that ๐ < ( ๐ + 1 ) ๐ .
Given the vector ๐ โข ( ๐ฅ ) and the distribution ๐ท , the Chow vector [Cho61, DKS18a] of a Boolean-valued function ๐ : โ ๐ โ { โ 1 , 1 } is defined as follows:
๐ ๐ :
๐ผ ๐ฅ โผ ๐ท [ ๐ ( ๐ฅ ) โ ๐ ( ๐ฅ ) ] ,
(2.1)
where we multiplied each element of ๐ โข ( ๐ฅ ) by ๐ โข ( ๐ฅ ) .
Definition 9 (Sparse polynomials and PTFs).
We say a polynomial ๐ โ ๐ซ ๐ , ๐ is ๐พ -sparse if there exists an index set ฮ โ [ ๐ ] with | ฮ | โค ๐พ , such that ๐ โข ( ๐ฅ )
๐ โข ( ๐ฅ ฮ ) for some ๐ โ ๐ซ ๐ , ๐ . We say a PTF ๐ โข ( ๐ฅ )
sign โก ( ๐ โข ( ๐ฅ ) ) is ๐พ -sparse if ๐ is ๐พ -sparse. The class of ๐พ -sparse PTFs on โ ๐ with degree at most ๐ is denoted by โ ๐ , ๐พ .
One important observation is that our definition of sparse polynomials implies a sparsity pattern in the Chow vector; see Appendix B for the proof.
Lemma 10.
Let ๐ be a ๐พ -sparse degree- ๐ PTF. Then ๐ ๐ is a ๐ -sparse vector under the basis of Hermite polynomials, where ๐
๐ + 1 if ๐พ
1 and ๐ โค 2 โข ๐พ ๐ otherwise.
As we discussed in Section 1.2, there will be two concept classes involved in our algorithm and analysis. The first is the class of polynomials that have a sparse Chow vector under the basis of ๐ โข ( ๐ฅ ) :
๐ซ ๐ , ๐ , 2 โข ๐ 1 :
{ ๐ 1 : ๐ฅ โฆ โจ ๐ฃ , ๐ ( ๐ฅ ) โฉ , ๐ฃ โ โ ( ๐ + 1 ) ๐ , โฅ ๐ฃ โฅ 2
1 , โฅ ๐ฃ โฅ 0 โค 2 ๐ } ,
(2.2)
which will be useful in characterizing the approximation error to the Chow vector of interest. Another class consists of quadratic terms in ๐ โข ( ๐ฅ ) ,
๐ซ ๐ , ๐ , ๐ 2 :
{
๐
2
:
๐ฅ
โฆ
โจ
๐ด
๐
,
๐
(
๐ฅ
)
๐
(
๐ฅ
)
โค
โ
๐ผ
โฉ
,
๐
โค
๐ , โฅ ๐ โฅ 0 โค ๐ , ๐ด โ ๐ ( ๐ + 1 ) ๐ , โฅ ๐ด ๐ โฅ ๐น
1 }
(2.3)
where ๐ ( ๐ + 1 ) ๐ :
{ ๐ด : ๐ด โ โ ( ๐ + 1 ) ๐ ร ( ๐ + 1 ) ๐ , ๐ด โค
๐ด } . Note that the polynomials in ๐ซ ๐ , ๐ , ๐ 2 have degree at most 2 โข ๐ , and can be represented as a linear combination of at most ๐ elements of the form ๐ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) . They will be used to construct certain distributional statistics based on the empirical samples for filtering.
We will often use subscript to stress the membership of a polynomial in either class: we will write ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 and ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 , rather than using the subscript for counting.
Reserved symbols. Throughout the paper, ๐พ always refers to the number of non-zero attributes that a sparse PTF depends on, and ๐ is the sparsity of the Chow vector under the Hermite polynomials ๐ โข ( ๐ฅ ) (see Lemma 10). We reserve ๐ , ๐ฟ , ๐ as in Definition 1. We wrote ๐ ยฏ โฒ as the corrupted sample set, and ๐ โฒ as the one without labels.
The capital and lowercase letters ๐ถ and ๐ , and their subscript variants, are always used to denote some absolute constants, though we do not track closely their values. We reserve
๐พ
( ๐ถ 1 โข ๐ โ log โก ๐ โข ๐ ๐ โข ๐ฟ ) ๐ / 2 , ๐ 2
๐ถ 2 โ ๐ 3 4 โ ( ๐ 0 โข ๐ ) ๐ .
(2.4)
As will be clear in our analysis, ๐พ upper bounds max ๐ฅ โ ๐ โฅ ๐ ( ๐ฅ ) โฅ โ for ๐ drawn from ๐ท . Thus, we will only keep samples in ๐ ยฏ โฒ with ๐ฅ โ ๐ ๐พ where
๐ ๐พ :
{ ๐ฅ โ โ ๐ : โฅ ๐ ( ๐ฅ ) โฅ โ โค ๐พ } .
(2.5)
The quantity ๐ 2 upper bound โฅ ๐ 2 โฅ ๐ฟ 2 ; see Lemma 30.
Algorithm 1 Main Algorithm: Attribute-Efficient Robust Chow Vector Estimator 0: A nasty adversary EX โข ( ๐ ) with ๐ โ [ 0 , 1 2 โ ๐ ] for some absolute constant ๐ โ ( 0 , 1 2 ] , hypothesis class โ ๐ , ๐พ that contains ๐ * , target error rate ๐ โ ( 0 , 1 ) , failure probability ๐ฟ โ ( 0 , 1 ) . 0: A sparse vector ๐ข โ โ ( ๐ + 1 ) ๐ . 1: ๐ ยฏ โฒ โ draw ๐ถ โ ๐ 5 โข ๐ โข ๐พ 4 โข ๐ ๐ 2 โข log 5 โข ๐ โก ( ๐ โข ๐ ๐ โข ๐ฟ ) samples from EX โข ( ๐ ) . 2: ๐ โ ๐ + 1 if ๐พ
1 or ๐ โ 2 โข ๐พ ๐ if ๐พ > 1 . 3: ๐ โ 28 ๐ 2 โ [ ๐ 2 โ ( ๐ 0 โข log โก 1 ๐ + ๐ 0 โข ๐ ) ๐ โ ๐ + ๐ ] . 4: ๐ max โ 4 โข ๐ โข ๐ โข ๐พ 2 ๐ + 1 . 5: ๐ 1 โฒ ยฏ โ ๐ โฒ ยฏ โฉ { ( ๐ฅ , ๐ฆ ) : โฅ ๐ โข ( ๐ฅ ) โฅ โ โค ๐พ } . 6: for phase ๐
1 to ๐ max do 7: ฮฃ โ ๐ผ ๐ฅ โผ ๐ ๐ โฒ โก [ ๐ โข ( ๐ฅ ) โข ๐ โข ( ๐ฅ ) โค ] , { ( ๐ ๐ก , ๐ ๐ก ) } ๐ก
1 4 โข ๐ 2 โ index set of the largest (in magnitude) 2 โข ๐ diagonal entries and 2 โข ๐ 2 โ ๐ entries above the main diagonal of ฮฃ โ ๐ผ . ๐ โ { ( ๐ ๐ก , ๐ ๐ก ) } ๐ก โฅ 1 โช { ( ๐ ๐ก , ๐ ๐ก ) } ๐ก โฅ 1 . 8: if โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โค ๐ then return ๐ข โ H ๐ โข ( ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ ๐ โฒ โก [ ๐ฆ โ ๐ โข ( ๐ฅ ) ] ) . 9: ๐ ๐ + 1 โฒ โ SparseFilter โข ( ๐ ๐ โฒ , ๐ , ฮฃ , ๐ , ๐พ , ๐ 2 ) . 10: end for
Algorithm 2 SparseFilter โข ( ๐ โฒ , ๐ , ฮฃ , ๐ , ๐พ , ๐ 2 ) 1: ๐ด โ 1 โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โข ( ฮฃ โ ๐ผ ) ๐ . 2: ๐ 2 โข ( ๐ฅ ) โ โจ ๐ด , ๐ โข ( ๐ฅ ) โข ๐ โข ( ๐ฅ ) โค โ ๐ผ โฉ . 3: Find ๐ก โ ( 0 , 4 โข ๐ โข ๐พ 2 ) such that
Pr โก ( | ๐ 2 โข ( ๐ โฒ ) | โฅ ๐ก ) โฅ 6 โข exp โก ( โ ( ๐ก / ๐ 2 ) 1 / ๐ / ๐ 0 ) + 3 โข ๐ ๐ โข ๐พ 2 .
4: return ๐ โฒโฒ โ { ๐ฅ โ ๐ โฒ : | ๐ 2 โข ( ๐ฅ ) | โค ๐ก } . 3Main Algorithms
Our main algorithm, Algorithm 1, aims to approximate the Chow vector of the underlying polynomial threshold function ๐ * โ โ ๐ , ๐พ by drawing a small number of samples from the nasty adversary. Observe that the setting of ๐ at Step 2 follows from Lemma 10, i.e. ๐ is the sparsity of ๐ ๐ * under the basis of Hermite polynomials. With this in mind, we design three sparsity-induced components in the algorithm: pruning samples that must be outliers (Step 5), certifying that the sample set is clean enough and returning the empirical Chow vector (Step 8), or filtering samples with a carefully designed condition (Step 9). We elaborate on each component in the following.
3.1Pruning
Since the outliers created by the nasty adversary may be arbitrary, it is useful to design some simple screening rule to remove samples that must have been corrupted. In this step, we leverage the distributional assumption that ๐ท , the distribution of instances, is the standard Gaussian ๐ฉ โข ( 0 , ๐ผ ๐ ร ๐ ) . Since the concept class consists of polynomials with degree at most ๐ , it is known that any Hermite polynomial ๐ ๐ โข ( ๐ฅ ) must concentrate around its mean with a known tail bound [Jan97]. As the mean of ๐ ๐ โข ( ๐ฅ ) equals zero for all ๐ โ 1 (recall that ๐ 1 โข ( ๐ฅ ) โก 1 ), it is possible to specify a certain radius ๐พ for pruning. Similar to [ZS22b], we apply the โ โ -norm metric for attribute efficiency, that is, we remove all samples ( ๐ฅ , ๐ฆ ) in ๐ ยฏ โฒ satisfying โฅ ๐ โข ( ๐ฅ ) โฅ โ
๐พ . The following lemma shows that with high probability, no clean sample will be pruned under a proper choice of ๐พ .
Lemma 11.
Let ๐ be a set of samples drawn independently from ๐ท . With probability at least 1 โ ๐ฟ ๐พ , we have max ๐ฅ โ ๐ โฅ ๐ ( ๐ฅ ) โฅ โ โค ๐พ where ๐พ :
( ๐ 0 log | ๐ | โข ( ๐ + 1 ) ๐ ๐ฟ ๐พ ) ๐ / 2 .
Recall that the concrete value of ๐พ is given in (2.4); it is obtained by setting | ๐ | as the same size as in Step 1 of Algorithm 1 and setting ๐ฟ ๐พ
๐ 2 โข ๐ฟ 64 โข ๐ 2 2 (note that ๐ฟ ๐พ โค ๐ โข ( ๐ฟ ) ). The appearance of ๐ฟ in ๐ฟ ๐พ is not surprising. For the multiplicative factor ๐ 2 64 โข ๐ 2 2 , technically speaking, it ensures that the total variation distance between the distribution ๐ท conditioned on the event ๐ฅ โ ๐ ๐พ and ๐ท is ๐ โข ( ๐ ) , thus one can in principle consider uniform concentration on the former to ease analysis (since it is defined on a bounded domain); see Proposition 13.
3.2Filtering
At Step 7 of Algorithm 1, we compute the empirical covariance matrix ฮฃ and the index set ๐ of the ( 2 โข ๐ ) 2 largest entries (in magnitude) of ฮฃ โ ๐ผ . As we highlighted in Section 1.2, this is a computationally efficient way to obtain an upper bound on the maximum eigenvalue of ฮฃ โ ๐ผ on all 2 โข ๐ -sparse directions. The structural constraint on ๐ comes from the observation that for 2 โข ๐ -sparse ๐ฃ , we have ๐ฃ โค โข ( ฮฃ โ ๐ผ ) โข ๐ฃ
โจ ฮฃ โ ๐ผ , ๐ฃ โข ๐ฃ โค โฉ and ๐ฃ โข ๐ฃ โค has 2 โข ๐ non-zero diagonal entries and 4 โข ๐ 2 โ 2 โข ๐ off-diagonal symmetric entries.
If the restricted Frobenius norm, โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น , is greater than some threshold ๐ , Algorithm 1 will invoke a filtering subroutine, Algorithm 2, to remove samples that were potentially corrupted. The high-level idea of Algorithm 2 follows from prior works on robust mean estimation [DKK + 16, DKK + 19, ZS22b]: under the condition that a certain measure of the empirical covariance matrix is large, there must be some samples that behave in quite a different way from those drawing from ๐ท . Our technical novelty is a new algorithm and analysis showing that the Frobenius norm itself suffices to validate a certain type of test that can identify those potentially corrupted samples โ this is a new feature as existing robust sparse mean estimation algorithms [DKK + 19, ZS22b] rely on a combination of the Frobenius norm and a localized eigenvalue condition. An immediate implication of our finding is that one can expect lower computational cost of our algorithm due to the lack of eigenvalue computation.
Now we discuss how to design a test to filter potentially corrupted samples. The idea is to create a sample-dependent polynomial ๐ 2 with the following two properties: 1) its empirical mean on ๐ โฒ equals โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น ; and 2) ๐ 2 is small (in expectation) on uncorrupted samples. In this way, since we have the condition that โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น is large, there must be a noticeable fraction of samples in ๐ โฒ that correspond to large function values of ๐ 2 . This combined with the second property suffice to identify abnormal samples.
Indeed, since ฮฃ
๐ผ ๐ฅ โผ ๐ โฒ โก [ ๐ โข ( ๐ฅ ) โข ๐ โข ( ๐ฅ ) โค ] , we can show that
โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น
1 โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โข โจ ( ฮฃ โ ๐ผ ) ๐ , ๐ผ ๐ฅ โผ ๐ โฒ โก [ ๐ โข ( ๐ฅ ) โข ๐ โข ( ๐ฅ ) โค ] โ ๐ผ โฉ
๐ผ ๐ฅ โผ ๐ โฒ โก [ 1 โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โข โจ ( ฮฃ โ ๐ผ ) ๐ , ๐ โข ( ๐ฅ ) โข ๐ โข ( ๐ฅ ) โค โ ๐ผ โฉ ] .
This gives the design of ๐ 2 in Algorithm 2 which has the desired feature: its expectation on ๐ท equals zero since ๐ โข ( ๐ฅ ) is an orthonormal basis in ๐ฟ 2 โข ( โ ๐ , ๐ท ) . Yet, we remark that the degree of ๐ 2 is as large as 2 โข ๐ , which leads to a heavy-tailed distribution even for uncorrupted data; and thus the nasty adversary may inject comparably heavy-tailed data. In Lemma 30, we show that the ๐ฟ 2 -norm of ๐ 2 on ๐ท is upper bounded by ๐ 2
๐ โข ( ๐ ๐ ) ; thus the threshold ๐ is proportional to ๐ 2 . The additional multiplicative factor in ๐ , ( ๐ 0 โข log โก 1 ๐ + ๐ 0 โข ๐ ) ๐ โ ๐ , is the maximum amount that those ๐ -fraction of heavy-tailed outliers can deteriorate the restricted Frobenius norm without appearing quite different from uncorrupted samples. In other words, with this scaling of ๐ , if the outliers were to deviate our estimate significantly, they would trigger the filtering condition.
Now we give intuition on Step 3 of Algorithm 2. We can use standard results on Gaussian tail bound of polynomials [Jan97] to show that
Pr โก ( | ๐ 2 โข ( ๐ท ) | โฅ ๐ก ) โค exp โก ( โ ( ๐ก / ๐ 2 ) 1 / ๐ / ๐ 0 ) , โ ๐ก
0 .
By uniform convergence [VC71], the above implies a low frequency of the event | ๐ 2 โข ( ๐ฅ ) | โฅ ๐ก on a set of uncorrupted samples (provided that the sample size is large enough; see Part 5 of Definition 12.). On the other hand, the empirical average of ๐ 2 on the input instance set ๐ โฒ (which equals โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น ) is large. Thus, there must be some threshold ๐ก such that | ๐ 2 โข ( ๐ฅ ) | โฅ ๐ก occurs with a nontrivial frequency, and this is an indicator of being outliers. In Step 3 of Algorithm 2, the nontrivial frequency is set as a constant factor of the one of uncorrupted samples โ it is known that this suffices to produce a cleaner instance set; see e.g. [DKK + 16]. To further guarantee a bounded running time, we show that it suffices to find a ๐ก in ( 0 , 4 โข ๐ โข ๐พ 2 ) , thanks to the pruning step (see Lemma 30).
It is worth mentioning that our primary treatment on attribute efficiency lies in applying uniform convergence to derive the low frequency event. In fact, since the size of ๐ is at most 4 โข ๐ 2 , it is possible to show that the VC-dimension of the class ๐ซ ๐ , ๐ , ๐ 2 that ๐ 2 resides is ๐ โข ( ๐ โข log โก ๐ ๐ ) , with ๐
4 โข ๐ 2 .
3.3Termination
Lastly, we describe the case that Algorithm 1 terminates and output ๐ข at Step 8. Due to the selection of ๐ , it is possible to show that โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โค ๐ implies ๐ฃ โค โข ฮฃ โข ๐ฃ โค ๐ + 1 for all 2 โข ๐ -sparse unit vector ๐ฃ , i.e. the maximum eigenvalue of ฮฃ on all 2 โข ๐ -sparse directions is as small as ๐ + 1 . This in turn implies that the variance caused by corrupted samples is well-controlled. Therefore, we output the empirical Chow vector. We note that Algorithm 1 outputs ๐ข which is the empirical one followed by a hard thresholding operation. This ensures that ๐ข is ๐ -sparse, the same sparsity level as ๐ ๐ * . More importantly, since we are only guaranteed with a small maximum eigenvalue on 2 โข ๐ -sparse directions, it is likely that on the full direction, the maximum eigenvalue could be very large, which would fail to certify a good approximation to ๐ ๐ * . In other words, had we not applied the hard thresholding operation, the empirical estimate ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ ๐ โฒ โก [ ๐ฆ โ ๐ โข ( ๐ฅ ) ] could be far away from the target Chow vector.
The maximum number of iterations, ๐ max , comes from our analysis on the progress of the filtering step: we will show in Section 4 that each time Algorithm 2 is invoked, a noticeable fraction of outliers will be removed while most clean samples are retained, thus after at most ๐ max iterations, the restricted Frobenius norm must be less than ๐ .
4Performance Guarantees
Our analysis of filtering relies on the existence of a good set ๐ โ โ ๐ and shows that Algorithm 2 strictly reduces the distance between the corrupted set and ๐ every time it is invoked by Algorithm 1, until the termination condition is met (Theorem 14). We then show that the output of Algorithm 1 must be close to the Chow vector of the underlying PTF (Theorem 17), and this occurs within ๐ max phases (Theorem 18). Then, a black-box application of the algorithmic result from [TTV09, DDFS14, DKS18a] leads to PAC guarantees of a PTF that is reconstructed from our estimated Chow vector (Theorem 19).
We will phrase our results in terms of some deterministic conditions on ๐ . Let ๐ | ๐ ๐พ :
๐ โฉ ๐ ๐พ and ๐ท | ๐ ๐พ be the distribution ๐ท conditioned on the event ๐ฅ โ ๐ ๐พ .
Definition 12 (Good set).
Given ๐ โ ( 0 , 1 ) , ๐ฟ โ ( 0 , 1 ) , and concept class โ ๐ , ๐พ , we say an instance set ๐ โ โ ๐ is a good set if all the following properties hold simultaneously and uniformly over all ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 ( ๐ is given in Lemma 10), all ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 with ๐
4 โข ๐ 2 , and all ๐ก
0 :
1.
๐ | ๐ ๐พ
๐ ;
2.
| Pr โก ( ๐ 1 โข ( ๐ )
๐ก ) โ Pr โก ( ๐ 1 โข ( ๐ท )
๐ก ) | โค ๐ผ 1 ;
3.
| Pr โก ( ๐ 1 โข ( ๐ | ๐ ๐พ )
๐ก ) โ Pr โก ( ๐ 1 โข ( ๐ท | ๐ ๐พ )
๐ก ) | โค ๐ผ 1 ;
4.
| ๐ผ ๐ฅ โผ ๐ โก [ ๐ โข ( ๐ฅ ) โ ๐ 1 โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท โก [ ๐ โข ( ๐ฅ ) โ ๐ 1 โข ( ๐ฅ ) ] | โค ๐ผ 1 โฒ ;
5.
| Pr โก ( ๐ 2 โข ( ๐ )
๐ก ) โ Pr โก ( ๐ 2 โข ( ๐ท )
๐ก ) | โค ๐ผ 2 ;
6.
| Pr โก ( ๐ 2 โข ( ๐ | ๐ ๐พ )
๐ก ) โ Pr โก ( ๐ 2 โข ( ๐ท | ๐ ๐พ )
๐ก ) | โค ๐ผ 2 ;
7.
| ๐ผ โก [ ๐ 2 โข ( ๐ ) ] โ ๐ผ โก [ ๐ 2 โข ( ๐ท ) ] | โค ๐ผ 2 โฒ ,
where ๐ผ 1
๐ ๐ โข ๐พ 2 , ๐ผ 1 โฒ
๐ / 6 , ๐ผ 2
๐ 4 โข ๐ โข ๐พ 2 , ๐ผ 2 โฒ
๐ .
We show that for a set of instances independently drawn from ๐ท , it is indeed a good set. Note that this gives the sample size at Step 1 of Algorithm 1.
Proposition 13.
Let ๐ be a set of ๐ถ โ ๐ 5 โข ๐ โข ๐พ 4 โข ๐ ๐ 2 โข log 5 โข ๐ โก ( ๐ โข ๐ ๐ โข ๐ฟ ) instances drawn independently from ๐ท . Then with probability 1 โ ๐ฟ , ๐ is a good set.
4.1Analysis of SparseFilter
Recall in Definition 1 that the nasty adversary first draws ๐ according to ๐ท and annotates it with ๐ * to obtain ๐ ยฏ โ โ ๐ ร { โ 1 , 1 } . Then it replaces an ๐ fraction with malicious samples to generate the sample set ๐ ยฏ โฒ that is returned to the learner. Denote by ฮ โข ( ๐ , ๐ โฒ ) the symmetric difference between ๐ and ๐ โฒ normalized by | ๐ | , i.e.
ฮ ( ๐ , ๐ โฒ ) :
|
๐
๐
โฒ
|
+
|
๐
โฒ
๐
|
|
๐
|
.
(4.1)
By definition, it follows that ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ . The following theorem is the primary characterization of the performance of our filtering approach (Algorithm 2).
Theorem 14.
Consider Algorithm 2. Assume that โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น
๐ and there exists a good set ๐ such that ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ . Then there exists a threshold ๐ก that satisfies Step 3. In addition, the output ๐ โฒโฒ satisfies ฮ โข ( ๐ , ๐ โฒโฒ ) โค ฮ โข ( ๐ , ๐ โฒ ) โ ๐ 4 โข ๐ โข ๐พ 2 .
We show this theorem by contradiction: had we been unable to find such ๐ก , the tail bound at Step 3 would have implied small expectation of ๐ 2 on ๐ โฒ . As discussed in Section 3.2, the polynomial ๐ 2 is chosen such that โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น
๐ผ โก [ ๐ 2 โข ( ๐ โฒ ) ] ; this in turn suggests that we would contradict the condition โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น
๐ when ๐ is properly chosen.
Formally, let ๐ฝ โฒ ( ๐ , ๐ , ๐ ) :
2 โ ๐ โ ( ๐ 0 log 1 ๐ + ๐ 0 โ ๐ / 2 ) ๐ / 2 โ ๐ and ๐พ 2 :
4 ๐ 2 ๐พ 2 . We have:
Lemma 15.
Consider Algorithm 2. Assume that โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น > ๐ and there exists a good set ๐ such that ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ . Let ๐ธ :
๐
โฒ
๐
. If there does not exist a threshold
๐ก
0 that satisfies Step 3, then
| ๐ธ | | ๐ โฒ | โข sup ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 ๐ผ โก [ | ๐ 2 โข ( ๐ธ ) | ] โค 7 โข ( 1 + 1 ๐ ) โ [ ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) + ๐ผ 2 โข ๐พ 2 ] .
Lemma 16.
Consider Algorithm 2. Assume that there exists a good set ๐ with ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ . Let ๐ฟ :
๐
๐
โฒ
. We have
| ๐ฟ | | ๐ | โข sup ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 ๐ผ โก [ | ๐ 2 โข ( ๐ฟ ) | ] โค 2 โข ( 1 + 1 ๐ ) โข [ ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) + ๐ผ 2 โข ๐พ 2 ] .
Now observe that | ๐ โฒ | โ โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น
| ๐ โฒ | โ ๐ผ โก [ ๐ 2 โข ( ๐ โฒ ) ]
| ๐ | โ ๐ผ โก [ ๐ 2 โข ( ๐ ) ] + | ๐ธ | โ ๐ผ โก [ ๐ 2 โข ( ๐ธ ) ] โ | ๐ฟ | โ ๐ผ โก [ ๐ 2 โข ( ๐ฟ ) ] . For the right-hand side, we can roughly think of ๐ผ โก [ ๐ 2 โข ( ๐ ) ] โ ๐ผ โก [ ๐ 2 โข ( ๐ท ) ] which can be bounded as ๐ท is Gaussian. This combined with Lemma 15 and Lemma 16 can establish the existence of ๐ก . We then use a general result that is implicit in prior filter-based algorithms [DKK + 16]: given the existence of ๐ก , there must be a nontrivial fraction of the instances in ๐ โฒ that can be filtered; see also Lemma 38 where we provide a generic proof. This establishes Theorem 14; see Appendix D for the full proof.
4.2Analysis of termination
Let ๐ฝ ๐
2 โข ( ๐ 0 โข log โก 1 ๐ + ๐ 0 โข ๐ ) ๐ โ ๐ for some parameter ๐ โ ( 0 , 1 ) . The following theorem shows that whenever the termination condition is met, i.e. โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โค ๐ , the output must be close to the target Chow vector.
Theorem 17.
Consider Algorithm 1. If at some phase ๐ we have โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โค ๐ and ฮ โข ( ๐ , ๐ ๐ โฒ ) โค 2 โข ๐ for some good set ๐ , then the following holds for the output ๐ข :
โฅ ๐ข โ ๐ ๐ * โฅ 2 โค 192 ๐ 2 โข ๐ โข ( ๐ฝ ๐ + ๐ฝ ๐ ) + ๐ 2 .
We note that the upper bound seems not depending on
๐
โ this is because
๐
โค
๐
โข
(
๐ฝ
๐
)
. To show the theorem, we will first prove that the deviation of the expectation of
๐ฆ
โ
๐
1
โข
(
๐ฅ
)
between
๐
ยฏ
โฒ
and
๐
ยฏ
is small, and then apply Part 4 of Definition 12 to establish the closeness to the expectation on
๐ท
. To obtain the first deviation bound, we observe that it is almost governed by the expectation on
๐
๐
โฒ
and on
๐
โฒ
๐
. The former is easy to control since it is a subset of the good set
๐
. We show that the latter is also bounded since the termination condition implies a small variance on all sparse directions of the covariance matrix
ฮฃ
that is computed on
๐
โฒ
; this suggests that the contribution from the corrupted instances cannot be large. See Appendix E for the proof.
4.3Main results Theorem 18 (Chow vector estimation).
The following holds for Algorithm 1. Given any target error rate ๐ โ ( 0 , 1 ) and failure probability ๐ฟ โ ( 0 , 1 ) , Algorithm 1 runs in at most ๐ max
4 โข ๐ โข ๐ ๐ โ ( ๐ถ 1 โข ๐ โ log โก ๐ โข ๐ ๐ โข ๐ฟ ) ๐ + 1 phases, and outputs a ๐ -sparse vector ๐ข such that with probability at least 1 โ ๐ฟ ,
โฅ ๐ข โ ๐ ๐ * โฅ 2 โค 192 ๐ 2 โข ๐ โข ( ๐ฝ ๐ + ๐ฝ ๐ ) + ๐ 2 .
In addition, Algorithm 1 runs in ๐ โข ( poly โข ( ( ๐ โข ๐ ) ๐ , 1 / ๐ ) ) time.
Proof sketch.
In view of Proposition 13 and Step 1 of Algorithm 1, there is a good set ๐ such that ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ . We will inductively show the invariant ฮ โข ( ๐ , ๐ ๐ + 1 โฒ ) โค ฮ โข ( ๐ , ๐ ๐ โฒ ) โ ๐ 4 โข ๐ โข ๐พ 2 before Algorithm 1 terminates. In fact, by Part 1 of Definition 12, it follows that no instances in ๐ will be pruned at Step 5. Thus, ฮ โข ( ๐ , ๐ 1 โฒ ) โค ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ . If โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น
๐ , then Theorem 14 implies that we can obtain ๐ 2 โฒ such that ฮ โข ( ๐ , ๐ 2 โฒ ) โค ฮ โข ( ๐ , ๐ 1 โฒ ) โ ๐ 4 โข ๐ โข ๐พ 2 . By induction, we can show that such progress holds for any phase ๐ before the termination condition is met. Since the symmetric difference is non-negative, the algorithm must terminate within the claimed ๐ max phases, upon when the output is guaranteed to be close to ๐ ๐ * in view of Theorem 17. See Appendix E for the full proof. โ
Lastly, the algorithmic results from [TTV09, DDFS14, DKS18a] state that as long as ๐ข is ๐ -close to ๐ ๐ * under the โ 2 -norm, it is possible to construct a PTF ๐ ^ in time ( ๐ ๐ ) ๐ โข ( ๐ ) that has misclassification error of ๐ โข ( ๐ โ ๐ 1 / ( ๐ + 1 ) ) . This gives our main result on PAC guarantees (see Appendix F for the proof).
Theorem 19 (PAC guarantees).
There exists an algorithm ๐ such that the following holds. Given any ๐ 0 โ ( 0 , 1 ) , failure probability ๐ฟ โ ( 0 , 1 ) , and the concept class โ ๐ , ๐พ , it draws ๐ถ โ ๐ 5 โข ๐ โข ๐พ 4 โข ๐ ๐ 0 2 โ log 5 โข ๐ โก ( ๐ โข ๐ ๐ 0 โข ๐ฟ ) samples from EX โข ( ๐ ) and outputs a PTF ๐ ^ such that with probability at least 1 โ ๐ฟ ,
Pr ๐ฅ โผ ๐ท โก ( ๐ ^ โข ( ๐ฅ ) โ ๐ * โข ( ๐ฅ ) ) โค ๐ 1 โ ๐ โ ( ๐ โข ( ๐ฝ ๐ + ๐ฝ ๐ 0 ) + ๐ 0 ) 1 ๐ + 1 .
In particular, for any target error rate ๐ โ ( 0 , 1 ) , by setting ๐ 0
๐ ๐ + 1 ๐ 2 โ ๐ 2 โข ๐ , we have Pr ๐ฅ โผ ๐ท โก ( ๐ ^ โข ( ๐ฅ ) โ ๐ * โข ( ๐ฅ ) ) โค ๐ provided ๐ โค 1 2 โข ๐ 0 . Moreover, the algorithm runs in ( ๐ โข ๐ / ๐ ) ๐ โข ( ๐ ) time.
5Conclusion
We studied the important problem of attribute-efficient PAC learning of low-degree PTFs. We showed that for the class of sparse PTFs where the concept depends only on a subset of its input attributes, it is possible to design an efficient algorithm that PAC learns the class with sample complexity poly-logarithmic in the dimension, even in the presence of the nasty noise. In addition, the noise tolerance of our algorithm is dimension-independent, and matches the best known result established for learning of non-sparse PTFs.
References [AB99] โ Martin Anthony and Peter L. Bartlett.Neural Network Learning: Theoretical Foundations.Cambridge University Press, 1999. [ABHM17] โ Pranjal Awasthi, Avrim Blum, Nika Haghtalab, and Yishay Mansour.Efficient PAC learning from the crowd.In Proceedings of the 30th Annual Conference on Learning Theory, pages 127โ150, 2017. [ABHZ16] โ Pranjal Awasthi, Maria-Florina Balcan, Nika Haghtalab, and Hongyang Zhang.Learning and 1-bit compressed sensing under asymmetric noise.In Proceedings of the 29th Annual Conference on Learning Theory, pages 152โ192, 2016. [ABL17] โ Pranjal Awasthi, Maria-Florina Balcan, and Philip M. Long.The power of localization for efficiently learning linear separators with noise.Journal of the ACM, 63(6):50:1โ50:27, 2017. [APVZ14] โ Alexandr Andoni, Rina Panigrahy, Gregory Valiant, and Li Zhang.Learning sparse polynomial functions.In Proceedings of the 25th Annual ACM-SIAM Symposium on Discrete Algorithms, pages 500โ510, 2014. [BDLS17] โ Sivaraman Balakrishnan, Simon S. Du, Jerry Li, and Aarti Singh.Computationally efficient robust sparse estimation in high dimensions.In Proceedings of the 30th Annual Conference on Learning Theory, pages 169โ212, 2017. [BEHW89] โ Anselm Blumer, Andrzej Ehrenfeucht, David Haussler, and Manfred K. Warmuth.Learnability and the Vapnik-Chervonenkis dimension.Journal of the ACM, 36(4):929โ965, 1989. [BEK02] โ Nader H. Bshouty, Nadav Eiron, and Eyal Kushilevitz.PAC learning with nasty noise.Theoretical Computer Science, 288(2):255โ275, 2002. [Blu90] โ Avrim Blum.Learning boolean functions in an infinite attribute space.In Proceedings of the 22nd Annual ACM Symposium on Theory of Computing, pages 64โ72, 1990. [CDS98] โ Scott Shaobing Chen, David L. Donoho, and Michael A. Saunders.Atomic decomposition by basis pursuit.SIAM Journal on Scientific Computing, 20(1):33โ61, 1998. [Cho61] โ Chung-Kong Chow.On the characterization of threshold functions.In Proceedings of the 2nd Annual Symposium on Switching Circuit Theory and Logical Design (FOCS), pages 34โ38, 1961. [CLMW11] โ Emmanuel J. Candรจs, Xiaodong Li, Yi Ma, and John Wright.Robust principal component analysis?Journal of the ACM, 58(3):11:1โ11:37, 2011. [CLS15] โ Emmanuel J. Candรจs, Xiaodong Li, and Mahdi Soltanolkotabi.Phase retrieval via Wirtinger flow: Theory and algorithms.IEEE Transactions on Information Theory, 61(4):1985โ2007, 2015. [CM20] โ Sitan Chen and Raghu Meka.Learning polynomials in few relevant dimensions.In Proceedings of the 34th Annual Conference on Learning Theory, pages 1161โ1227, 2020. [CR09] โ Emmanuel J. Candรจs and Benjamin Recht.Exact matrix completion via convex optimization.Foundations of Computational Mathematics, 9(6):717โ772, 2009. [CSV13] โ Emmanuel J. Candรจs, Thomas Strohmer, and Vladislav Voroninski.Phaselift: Exact and stable signal recovery from magnitude measurements via convex programming.Communications on Pure and Applied Mathematics, 66(8):1241โ1274, 2013. [CT05] โ Emmanuel J. Candรจs and Terence Tao.Decoding by linear programming.IEEE Transactions on Information Theory, 51(12):4203โ4215, 2005. [CW08] โ Emmanuel J. Candรจs and Michael B. Wakin.An introduction to compressive sampling.IEEE Signal Processing Magazine, 25(2):21โ30, 2008. [Dan16] โ Amit Daniely.Complexity theoretic limitations on learning halfspaces.In Proceedings of the 48th Annual ACM Symposium on Theory of Computing, pages 105โ117, 2016. [DDFS14] โ Anindya De, Ilias Diakonikolas, Vitaly Feldman, and Rocco A. Servedio.Nearly optimal solutions for the Chow parameters problem and low-weight approximation of halfspaces.Journal of the ACM, 61(2):11:1โ11:36, 2014. [DK19] โ Ilias Diakonikolas and Daniel M. Kane.Recent advances in algorithmic high-dimensional robust statistics.CoRR, abs/1911.05911, 2019. [DKK + 16] โ Ilias Diakonikolas, Gautam Kamath, Daniel M. Kane, Jerry Li, Ankur Moitra, and Alistair Stewart.Robust estimators in high dimensions without the computational intractability.In Proceedings of the 57th Annual IEEE Symposium on Foundations of Computer Science, pages 655โ664, 2016. [DKK + 19] โ Ilias Diakonikolas, Daniel Kane, Sushrut Karmalkar, Eric Price, and Alistair Stewart.Outlier-robust high-dimensional sparse estimation via iterative filtering.In Proceedings of the 33rd Annual Conference on Neural Information Processing Systems, pages 10688โ10699, 2019. [DKK + 22] โ Ilias Diakonikolas, Daniel M. Kane, Sushrut Karmalkar, Ankit Pensia, and Thanasis Pittas.Robust sparse mean estimation via sum of squares.In Proceedings of the The 35th Annual Conference on Learning Theory, pages 4703โ4763, 2022. [DKS17] โ Ilias Diakonikolas, Daniel M. Kane, and Alistair Stewart.Statistical query lower bounds for robust estimation of high-dimensional gaussians and gaussian mixtures.In Proceedings of the 58th IEEE Annual Symposium on Foundations of Computer Science, pages 73โ84, 2017. [DKS18a] โ Ilias Diakonikolas, Daniel M. Kane, and Alistair Stewart.Learning geometric concepts with nasty noise.In Proceedings of the 50th Annual ACM Symposium on Theory of Computing, pages 1061โ1073, 2018. [DKS18b] โ Ilias Diakonikolas, Daniel M. Kane, and Alistair Stewart.List-decodable robust mean estimation and learning mixtures of spherical gaussians.In Proceedings of the 50th Annual ACM SIGACT Symposium on Theory of Computing, pages 1047โ1060, 2018. [DPvdBW14] โ Mark A. Davenport, Yaniv Plan, Ewout van den Berg, and Mary Wootters.1-bit matrix completion.Information and Inference: A Journal of the IMA, 3(3):189โ223, 2014. [FGKP06] โ Vitaly Feldman, Parikshit Gopalan, Subhash Khot, and Ashok Kumar Ponnuswami.New results for learning noisy parities and halfspaces.In Proceedings of the 47th Annual IEEE Symposium on Foundations of Computer Science, pages 563โ574, 2006. [Fou11] โ Simon Foucart.Hard thresholding pursuit: An algorithm for compressive sensing.SIAM Journal on Numerical Analysis, 49(6):2543โ2563, 2011. [Gen03] โ Claudio Gentile.The robustness of the ๐ -norm algorithms.Machine Learning, 53(3):265โ299, 2003. [GR06] โ Venkatesan Guruswami and Prasad Raghavendra.Hardness of learning halfspaces with noise.In Proceedings of the 47th Annual IEEE Symposium on Foundations of Computer Science, pages 543โ552, 2006. [HS07] โ Lisa Hellerstein and Rocco A. Servedio.On PAC learning algorithms for rich Boolean function classes.Theoretical Computer Science, 384(1):66โ76, 2007. [Jan97] โ Svante Janson.Gaussian Hilbert Spaces.Cambridge Tracts in Mathematics. Cambridge University Press, 1997. [KKMS05] โ Adam Tauman Kalai, Adam R. Klivans, Yishay Mansour, and Rocco A. Servedio.Agnostically learning halfspaces.In Proceedings of the 46th Annual IEEE Symposium on Foundations of Computer Science, pages 11โ20, 2005. [KL88] โ Michael J. Kearns and Ming Li.Learning in the presence of malicious errors.In Proceedings of the 20th Annual ACM Symposium on Theory of Computing, pages 267โ280, 1988. [KLS09] โ Adam R. Klivans, Philip M. Long, and Rocco A. Servedio.Learning halfspaces with malicious noise.Journal of Machine Learning Research, 10:2715โ2740, 2009. [Lit87] โ Nick Littlestone.Learning quickly when irrelevant attributes abound: A new linear-threshold algorithm.In Proceedings of the 28th Annual IEEE Symposium on Foundations of Computer Science, pages 68โ77, 1987. [LRV16] โ Kevin A. Lai, Anup B. Rao, and Santosh S. Vempala.Agnostic estimation of mean and covariance.In Proceedings of the 57th Annual IEEE Symposium on Foundations of Computer Science, pages 665โ674, 2016. [LS11] โ Philip M. Long and Rocco A. Servedio.Learning large-margin halfspaces with more malicious noise.In Proceedings of the 25th Annual Conference on Neural Information Processing Systems, pages 91โ99, 2011. [Man94] โ Yishay Mansour.Learning boolean functions via the Fourier transform.In Theoretical advances in neural computation and learning, pages 391โ424. Springer, 1994. [MT94] โ Wolfgang Maass and Gyรถrgy Turรกn.How fast can a threshold gate learn?In Proceedings of a workshop on computational learning theory and natural learning systems (vol. 1): constraints and prospects, pages 381โ414, 1994. [NJS13] โ Praneeth Netrapalli, Prateek Jain, and Sujay Sanghavi.Phase retrieval using alternating minimization.In Proceedings of the 27th Annual Conference on Neural Information Processing Systems, pages 2796โ2804, 2013. [OโD14] โ Ryan OโDonnell.Analysis of Boolean Functions.Cambridge University Press, 2014. [PV13a] โ Yaniv Plan and Roman Vershynin.One-bit compressed sensing by linear programming.Communications on Pure and Applied Mathematics, 66(8):1275โ1297, 2013. [PV13b] โ Yaniv Plan and Roman Vershynin.Robust 1-bit compressed sensing and sparse logistic regression: A convex programming approach.IEEE Transactions on Information Theory, 59(1):482โ494, 2013. [SAL19] โ Jie Shen, Pranjal Awasthi, and Ping Li.Robust matrix completion from quantized observations.In Proceedings of the 22nd International Conference on Artificial Intelligence and Statistics, pages 397โ407, 2019. [She20] โ Jie Shen.One-bit compressed sensing via one-shot hard thresholding.In Proceedings of the 36th Conference on Uncertainty in Artificial Intelligence, pages 510โ519, 2020. [She21a] โ Jie Shen.On the power of localized Perceptron for label-optimal learning of halfspaces with adversarial noise.In Proceedings of the 38th International Conference on Machine Learning, pages 9503โ9514, 2021. [She21b] โ Jie Shen.Sample-optimal PAC learning of halfspaces with malicious noise.In Proceedings of the 38th International Conference on Machine Learning, pages 9515โ9524, 2021. [She23] โ Jie Shen.PAC learning of halfspaces with malicious noise in nearly linear time.In Proceedings of the 26th International Conference on Artificial Intelligence and Statistics, pages 30โ46, 2023. [SL16] โ Jie Shen and Ping Li.Learning structured low-rank representation via matrix factorization.In Proceedings of the 19th International Conference on Artificial Intelligence and Statistics, pages 500โ509, 2016. [SL17a] โ Jie Shen and Ping Li.On the iteration complexity of support recovery via hard thresholding pursuit.In Proceedings of the 34th International Conference on Machine Learning, pages 3115โ3124, 2017. [SL17b] โ Jie Shen and Ping Li.Partial hard thresholding: Towards a principled analysis of support recovery.In Proceedings of the 31st Annual Conference on Neural Information Processing Systems, pages 3127โ3137, 2017. [SL18] โ Jie Shen and Ping Li.A tight bound of hard thresholding.Journal of Machine Learning Research, 18(208):1โ42, 2018. [SLX16] โ Jie Shen, Ping Li, and Huan Xu.Online low-rank subspace clustering by basis dictionary pursuit.In Proceedings of the 33rd International Conference on Machine Learning, pages 622โ631, 2016. [STT12] โ Rocco A. Servedio, Li-Yang Tan, and Justin Thaler.Attribute-efficient learning and weight-degree tradeoffs for polynomial threshold functions.In Proceedings of the 25th Annual Conference on Learning Theory, pages 1โ19, 2012. [SXL14] โ Jie Shen, Huan Xu, and Ping Li.Online optimization for max-norm regularization.In Proceedings of the 28th Annual Conference on Neural Information Processing Systems, pages 1718โ1726, 2014. [SZ21] โ Jie Shen and Chicheng Zhang.Attribute-efficient learning of halfspaces with malicious noise: Near-optimal label complexity and noise tolerance.In Proceedings of the 32nd International Conference on Algorithmic Learning Theory, pages 1072โ1113, 2021. [Tib96] โ Robert Tibshirani.Regression shrinkage and selection via the Lasso.Journal of the Royal Statistical Society: Series B (Methodological), 58(1):267โ288, 1996. [Tro04] โ Joel A. Tropp.Greed is good: algorithmic results for sparse approximation.IEEE Transactions on Information Theory, 50(10):2231โ2242, 2004. [TTV09] โ Luca Trevisan, Madhur Tulsiani, and Salil P. Vadhan.Regularity, boosting, and efficiently simulating every high-entropy distribution.In Proceedings of the 24th Annual IEEE Conference on Computational Complexity, pages 126โ136, 2009. [Val84] โ Leslie G. Valiant.A theory of the learnable.Communications of the ACM, 27(11):1134โ1142, 1984. [VC71] โ Vladimir Naumovich Vapnik and Alexey Yakovlevich Chervonenkis.On the uniform convergence of relative frequencies of events to their probabilities.Theory of Probability and its Applications, 16(2):264, 1971. [WSL18] โ Jing Wang, Jie Shen, and Ping Li.Provable variable selection for streaming features.In Proceedings of the 35th International Conference on Machine Learning, pages 5158โ5166, 2018. [XCM13] โ Huan Xu, Constantine Caramanis, and Shie Mannor.Outlier-robust PCA: the high-dimensional case.IEEE Transactions on Information Theory, 59(1):546โ572, 2013. [XCS12] โ Huan Xu, Constantine Caramanis, and Sujay Sanghavi.Robust PCA via outlier pursuit.IEEE Transactions on Information Theory, 58(5):3047โ3064, 2012. [Zha18] โ Chicheng Zhang.Efficient active learning of sparse halfspaces.In Proceedings of the 31st Annual Conference On Learning Theory, pages 1856โ1880, 2018. [ZS22a] โ Shiwei Zeng and Jie Shen.Efficient PAC learning from the crowd with pairwise comparisons.In Proceedings of the 39th International Conference on Machine Learning, pages 25973โ25993, 2022. [ZS22b] โ Shiwei Zeng and Jie Shen.List-decodable sparse mean estimation.In Proceedings of the 36th Annual Conference on Neural Information Processing Systems, pages 24031โ24045, 2022. [ZS23] โ Shiwei Zeng and Jie Shen.Semi-verified PAC learning from the crowd.In Proceedings of the 26th International Conference on Artificial Intelligence and Statistics, pages 505โ522, 2023. [ZSA20] โ Chicheng Zhang, Jie Shen, and Pranjal Awasthi.Efficient active learning of sparse halfspaces with arbitrary bounded noise.In Proceedings of the 34th Annual Conference on Neural Information Processing Systems, pages 7184โ7197, 2020.
We summarize a few useful results and list reserved hyper-parameters in Appendix A; they will be frequently used in our analysis. We provide proofs for results in Section 1 and Section 2 in Appendix B. Appendix C collects statistical results on the concept classes of interest, which are used in Appendix D and Appendix E to establish guarantees on Algorithm 2 and Algorithm 1, respectively. We assemble all pieces and prove the main result, Theorem 19, in Appendix F.
Appendix ASummary of Useful Facts and Reserved Hyper-Parameters
We will often need the condition that ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ , which implies
( 1 โ 2 โข ๐ ) โข | ๐ | โค | ๐ โฒ | โค | ๐ | .
(A.1)
In particular, when ๐ โ [ 0 , 1 2 โ ๐ ] for some absolute constant ๐ โ ( 0 , 1 2 ] , we have
| ๐ โฒ | โค | ๐ | โค 1 1 โ 2 โข ๐ โข | ๐ โฒ | โค ( 1 + 1 ๐ โ ๐ ) โข | ๐ โฒ | .
(A.2)
The above two inequalities also imply
|
๐
โฒ
๐
|
โค
2
โข
๐
โข
|
๐
|
โค
2
โข
๐
1
โ
2
โข
๐
โข
|
๐
โฒ
|
โค
๐
๐
โข
|
๐
โฒ
|
and
|
๐
๐
โฒ
|
โค
2
โข
๐
โข
|
๐
|
โค
2
โข
๐
1
โ
2
โข
๐
โข
|
๐
โฒ
|
โค
๐
๐
โข
|
๐
โฒ
|
.
(A.3)
It is known that for any vector ๐ข ,
โฅ ๐ข โฅ 1 โค โฅ ๐ข โฅ 0 โ โฅ ๐ข โฅ 2 .
(A.4)
The above will often be applied together with Holderโs inequality:
| ๐ข โ ๐ฃ | โค โฅ ๐ข โฅ 1 โ โฅ ๐ฃ โฅ โ โค โฅ ๐ข โฅ 0 โ โฅ ๐ข โฅ 2 โ โฅ ๐ฃ โฅ โ .
(A.5) Fact 20.
Let ๐ be a positive random variable. Then ๐ผ โก [ ๐ ]
โซ 0 โ Pr โก ( ๐
๐ก ) โข d โก ๐ก .
Fact 21 (Tail bound of Gaussian polynomials [Jan97]).
Let ๐ท be the standard Gaussian distribution ๐ฉ โข ( 0 , ๐ผ ๐ ร ๐ ) . There exists an absolute constant ๐ 0
1 such that the following tail bound holds for all degree- ๐ polynomials ๐ : โ ๐ โ โ :
Pr ๐ฅ โผ ๐ท โก ( | ๐ โข ( ๐ฅ ) โ ๐ผ โก [ ๐ โข ( ๐ท ) ] | โฅ ๐ก โข Var [ ๐ โข ( ๐ท ) ] ) โค exp โก ( โ ๐ก 2 / ๐ / ๐ 0 ) , โ ๐ก
0 .
In particular, if ๐ is such that ๐ผ โก [ ๐ โข ( ๐ท ) ]
0 , we have
Pr ๐ฅ โผ ๐ท โก ( | ๐ โข ( ๐ฅ ) | โฅ ๐ก โข โฅ ๐ โฅ ๐ฟ 2 ) โค exp โก ( โ ๐ก 2 / ๐ / ๐ 0 ) .
A.1Reserved Hyper-Parameters
Recall that ๐ โ ( 0 , 1 ) is the noise rate, ๐ฟ โ ( 0 , 1 ) is the failure probability, ๐ is the degree of the PTFs. Denote by ๐ ๐พ
{ ๐ฅ โ โ ๐ : โฅ ๐ โข ( ๐ฅ ) โฅ โ โค ๐พ } the instances of interest. Given an instance set ๐ โ โ ๐ , let ๐ | ๐ ๐พ
๐ โฉ ๐ ๐พ . For a distribution ๐ท supported on โ ๐ , let ๐ท | ๐ ๐พ be the distribution ๐ท conditioned on the event that ๐ฅ โ ๐ ๐พ .
โข
๐ฝ โข ( ๐ , ๐ , ๐ )
๐ 2 โ ( ๐ 0 โข log โก 1 ๐ + ๐ 0 โข ๐ ) ๐ โ ๐ , which upper bounds โซ 0 โ ๐ก โ min โก { ๐ , ๐ ๐ , ๐ โข ( ๐ก ) } โข d โก ๐ก for ๐ ๐ , ๐ โข ( ๐ก )
exp โก ( โ ( ๐ก / ๐ ) 2 / ๐ / ๐ 0 ) ; see Lemma 24;
โข
๐ฝ โฒ โข ( ๐ , ๐ , ๐ )
2 โ ๐ โ ( ๐ 0 โข log โก 1 ๐ + ๐ 0 โ ๐ / 2 ) ๐ / 2 โ ๐ , which upper bounds โซ 0 โ min โก { ๐ , ๐ ๐ , ๐ โข ( ๐ก ) } โข d โก ๐ก ; see Lemma 27;
โข
๐พ
( ๐ 0 โข log โก | ๐ | โ ( ๐ + 1 ) ๐ ๐ฟ ๐พ ) ๐ / 2
( ๐ถ 1 โข ๐ โ log โก ๐ โข ๐ ๐ โข ๐ฟ ) ๐ / 2 , which upper bounds max ๐ฅ โ ๐ โฅ ๐ ( ๐ฅ ) โฅ โ with probability 1 โ ๐ฟ ๐พ for ๐ drawn from ๐ท ; see Lemma 23 and Definition 12;
โข
๐พ 1
2 โข ๐ โข ๐พ , which upper bounds | ๐ 1 โข ( ๐ฅ ) | for ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 and ๐ฅ โ ๐ ๐พ ; see Lemma 29;
โข
๐พ 2
2 โข ๐ โข ๐พ 2 , which upper bounds | ๐ 2 โข ( ๐ฅ ) | for ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 and ๐ฅ โ ๐ ๐พ ; see Lemma 30;
โข
๐ 2
๐ถ 2 โ ๐ 3 4 โ ( ๐ 0 โข ๐ ) ๐ , which upper bounds โฅ ๐ 2 โฅ ๐ฟ 2 for ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 ; see Lemma 30;
Appendix BOmitted Proofs from Section 1 and Section 2 B.1Proof of Fact 3 Proof.
It is known from [MT94] that in the absence of noise, โ ๐ , ๐พ can be PAC learned efficiently by using linear programming to find a concept that fits all the samples since in this case, empirical risk minimization with 0 / 1 -loss is equivalent to solving a linear program. The number of samples is at least ๐ ๐ฟ :
๐ถ 0 โ 1 ๐ 2 ( ๐พ ๐ log ๐ + log 1 ๐ฟ ) due to uniform convergence theory [BEHW89] and the VC-dimension of โ ๐ , ๐พ . Then Theorem 12 of [KL88] shows that when ๐ โค 1 ๐ 1 / 2 โข log โก ๐ 1 / 2 , it is possible to learn the same concept class by using 2 โข ๐ ๐ฟ 2 โข log โก 1 ๐ฟ โ ๐ ๐ฟ
2 โข ๐ ๐ฟ 3 โข log โก 1 ๐ฟ samples. Substituting ๐ ๐ฟ gives the result. โ
B.2Proof of Lemma 10 Proof.
By definition, we know that there exists ๐ โ ๐ซ ๐ , ๐ and ฮฉ โ [ ๐ ] with | ฮ | โค ๐พ , such that ๐ โข ( ๐ฅ )
sign โก ( ๐ โข ( ๐ฅ ฮ ) ) . Let ฮ ยฏ :
[
๐
]
ฮ
. Since we choose Hermite polynomials as the basis, we have that
๐
๐
โข
(
๐ฅ
)
๐ ๐ โข ( ๐ฅ ฮ ) โ ๐ ๐ โข ( ๐ฅ ฮ ยฏ ) where we define ๐ ๐ โข ( ๐ฅ ฮ ยฏ )
1 if ๐ ๐ โข ( ๐ฅ ) does not depend on ๐ฅ ฮ ยฏ .
We calculate the ๐ -th element of the Chow vector of ๐ as follows:
๐ผ ๐ฅ โผ ๐ท โก [ ๐ โข ( ๐ฅ ) โ ๐ ๐ โข ( ๐ฅ ) ]
๐ผ ๐ฅ โผ ๐ท โก [ sign โก ( ๐ โข ( ๐ฅ ฮ ) ) โ ๐ ๐ โข ( ๐ฅ ) ]
๐ผ ๐ฅ โผ ๐ท โก [ sign โก ( ๐ โข ( ๐ฅ ฮ ) ) โ ๐ ๐ โข ( ๐ฅ ฮ ) โ ๐ ๐ โข ( ๐ฅ ฮ ยฏ ) ]
(B.1)
=
๐ผ ๐ฅ โผ ๐ท โก [ sign โก ( ๐ โข ( ๐ฅ ฮ ) ) โ ๐ ๐ โข ( ๐ฅ ฮ ) ] โ ๐ผ ๐ฅ โผ ๐ท โก [ ๐ ๐ โข ( ๐ฅ ฮ ยฏ ) ]
(B.2)
=
๐ผ
๐ฅ
โผ
๐ท
โก
[
sign
โก
(
๐
โข
(
๐ฅ
ฮ
)
)
โ
๐
๐
โข
(
๐ฅ
ฮ
)
]
โ
0
0
(B.3)
as long as ๐ ๐ depends on some elements in ฮ ยฏ . Equivalently, the above is non-zero for all ๐ ๐ that depends only on ฮ . Note that there are at most
โ ๐
0
๐
๐พ
๐
โค
{
๐
+
1
,
if
โข
๐พ
1 ,
๐พ ๐ + 1 โ 1 ๐พ โ 1 โค 2 โข ๐พ ๐ ,
if โข ๐พ โฅ 2
(B.4)
such ๐ ๐ โs. This gives the desired sparsity bound. โ
B.3The basis of monomials
As a complementary discussion to Lemma 10, we also give derivation for the sparsity of the Chow parameters under the basis of monomial polynomials.
Lemma 22.
Let ๐ be a ๐พ -sparse degree- ๐ PTF. Then ๐ ๐ is a ๐ -sparse vector under the basis of monomial polynomials, where ๐ โฅ ( ๐ ๐ ) โ ๐ 2 โ .
Proof.
Consider the same setting as that in Lemma 10, except that the basis is now under monomial polynomials. Since multivariate monomials are constructed by the production of univariate monomials, the ๐ -th element of the Chow vector of ๐ can be written as
๐ผ ๐ฅ โผ ๐ท โก [ ๐ โข ( ๐ฅ ) โ ๐ ๐ โข ( ๐ฅ ) ]
๐ผ ๐ฅ โผ ๐ท โก [ sign โก ( ๐ โข ( ๐ฅ ฮ ) ) โ ๐ ๐ โข ( ๐ฅ ฮ ) ] โ ๐ผ ๐ฅ โผ ๐ท โก [ ๐ ๐ โข ( ๐ฅ ฮ ยฏ ) ] .
However, now the term ๐ผ ๐ฅ โผ ๐ท โก [ ๐ ๐ โข ( ๐ฅ ฮ ยฏ ) ] equals zero only when ๐ ๐ โข ( ๐ฅ ฮ ยฏ ) includes at least one univariate monomial ๐ฅ ๐ โ for some ๐ โ ฮ ยฏ where โ โ โค + is an odd integer. For ๐พ โค ๐ 2 , ๐ โฅ 2 , the total number of non-zero elements in ๐ ๐ is at least
โ ๐
1 โ ๐ 2 โ ( ๐ โ ๐พ + ๐ โ 1 ๐ ) โฅ โ ๐
1 โ ๐ 2 โ ( ๐ โ ๐พ + ๐ โ 1 ๐ ) ๐ โฅ ( ๐ โ ๐พ + โ ๐ 2 โ โ 1 โ ๐ 2 โ ) โ ๐ 2 โ โฅ ( ๐ ๐ ) โ ๐ 2 โ ,
which depends polynomially in the dimension ๐ , making it undesirable in the attribute-efficient learning. โ
B.4Other choices of polynomial basis
As mentioned in Section 1.2, the choice of appropriate basis that demonstrates sparsity structure of the Chow parameters can go well beyond that of Hermite polynomials. More generally, under the assumption that ๐ท is a product distribution (Eq.(B.2)), we require the basis to be a product basis (so Eq.(B.1) holds) with zero mean under the distribution ๐ท (so Eq.(B.3) holds). To this end, there exist other choices of basis under different distributional assumptions. For example, under the uniform distribution over [ โ 1 , 1 ] ๐ , the multivariate Legendre polynomials also form an appropriate basis. Another necessary property of ๐ท in our analysis is the finiteness of moments up to order 4 โข ๐ , so that we can obtain tail bound for any degree- 4 โข ๐ polynomial; this is needed to establish Lemma 30.
Appendix CGeneral Statistical Results
Recall that we assume ๐ท is the standard Gaussian ๐ฉ โข ( 0 , ๐ผ ๐ ร ๐ ) in this paper.
C.1Tail bound on โฅ ๐ โข ( ๐ฅ ) โฅ โ
The tail bound of Fact 21 implies the following upper bound on the magnitude of ๐ โข ( ๐ฅ ) .
Lemma 23 (Restatement of Lemma 11).
The following holds for all ๐ก
1 :
Pr ๐ฅ โผ ๐ท โก ( โฅ ๐ โข ( ๐ฅ ) โฅ โ โฅ ๐ก )
โค ( ๐ + 1 ) ๐ โข exp โก ( โ ๐ก 2 / ๐ / ๐ 0 ) ,
Pr ๐ โผ ๐ท ( max ๐ฅ โ ๐ โฅ ๐ ( ๐ฅ ) โฅ โ โฅ ๐ก )
โค | ๐ | โ ( ๐ + 1 ) ๐ โ exp โก ( โ ๐ก 2 / ๐ / ๐ 0 ) .
In particular, with probability at least 1 โ ๐ฟ ๐พ , we have max ๐ฅ โ ๐ โฅ ๐ ( ๐ฅ ) โฅ โ โค ๐พ where ๐พ :
( ๐ 0 log | ๐ | โข ( ๐ + 1 ) ๐ ๐ฟ ๐พ ) ๐ / 2 . When ๐ฟ ๐พ
๐ 2 โข ๐ฟ 64 โข ๐ 2 2 and | ๐ |
๐ถ โ ๐ 5 โข ๐ โข ๐พ 4 โข ๐ ๐ 2 โข log 5 โข ๐ โก ( ๐ โข ๐ ๐ โข ๐ฟ ) , we have ๐พ
( ๐ถ 1 โข ๐ โ log โก ๐ โข ๐ ๐ โข ๐ฟ ) ๐ / 2 .
Proof.
Denote ๐
( ๐ + 1 ) ๐ the dimension of the vector ๐ โข ( ๐ฅ ) . Let ๐ ๐ โข ( ๐ฅ ) be the ๐ -th element of ๐ โข ( ๐ฅ ) , where 1 โค ๐ โค ๐ . We note that ๐ 1 โข ( ๐ฅ ) โก 1 . Now for any ๐ โ 1 , since ๐ โข ( ๐ฅ ) is orthonormal in ๐ฟ 2 โข ( โ ๐ , ๐ท ) , we have ๐ผ โก [ ๐ ๐ โข ( ๐ท ) ]
0 and โฅ ๐ ๐ โฅ ๐ฟ 2
1 . By Fact 21, we have
Pr ๐ฅ โผ ๐ท โก ( | ๐ ๐ โข ( ๐ฅ ) | โฅ ๐ก ) โค exp โก ( โ ๐ก 2 / ๐ / ๐ 0 ) .
Taking the union bound over all ๐ โ { 2 , โฆ , ๐ } gives
Pr ๐ฅ โผ ๐ท โก ( max 2 โค ๐ โค ๐ โก | ๐ ๐ โข ( ๐ฅ ) | โฅ ๐ก ) โค ( ๐ โ 1 ) โข exp โก ( โ ๐ก 2 / ๐ / ๐ 0 ) โค ๐ โข exp โก ( โ ๐ก 2 / ๐ / ๐ 0 ) .
Note that for all ๐ก
1 , we have
Pr ๐ฅ โผ ๐ท โก ( โฅ ๐ โข ( ๐ฅ ) โฅ โ โฅ ๐ก ) โค ๐ โข exp โก ( โ ๐ก 2 / ๐ / ๐ 0 ) .
(C.1)
Now for ๐ being a set of independent draws from ๐ท , we have by union bound that
Pr ๐ โผ ๐ท ( max ๐ฅ โ ๐ โฅ ๐ ( ๐ฅ ) โฅ โ โฅ ๐ก ) โค | ๐ | โ ๐ โ exp ( โ ๐ก 2 / ๐ / ๐ 0 ) .
(C.2)
The proof is complete. โ
C.2 ๐ฝ โข ( ๐ , ๐ , ๐ ) , ๐ฝ โฒ โข ( ๐ , ๐ , ๐ ) Lemma 24.
Let ๐ ๐ , ๐ โข ( ๐ก )
exp โก ( โ ( ๐ก / ๐ ) 2 / ๐ / ๐ 0 ) where ๐ is independent of ๐ก . Then โซ 0 โ ๐ก โ min โก { ๐ , ๐ ๐ , ๐ โข ( ๐ก ) } โข d โก ๐ก โค ๐ฝ โข ( ๐ , ๐ , ๐ ) where ๐ฝ ( ๐ , ๐ , ๐ ) :
๐ 2 โ ( ๐ 0 log 1 ๐ + ๐ 0 ๐ ) ๐ โ ๐ .
Proof.
Denote ๐ 0
๐ 0 โ ๐ 2 / ๐ . Let ๐ก 0
( ๐ 0 โข log โก 1 ๐ ) ๐ / 2 , which satisfies ๐
๐ ๐ , ๐ โข ( ๐ก 0 ) . It follows that
โซ 0 โ ๐ก โ min โก { ๐ , ๐ ๐ , ๐ โข ( ๐ก ) } โข d โก ๐ก
โซ 0 ๐ก 0 ๐ก โ ๐ โข d โก ๐ก + โซ ๐ก 0 โ ๐ก โ ๐ โ ๐ก 2 / ๐ / ๐ 0 โข d โก ๐ก
๐ 1 1 2 โข ๐ก 0 2 โข ๐ + ๐ โ ๐ 0 ๐ 2 โข โซ ๐ก 0 2 / ๐ / ๐ 0 โ ๐ โ ๐ข โ ๐ข ๐ โ 1 โข d โก ๐ข
๐
2
1
2
โข
๐ก
0
2
โข
๐
+
๐
โ
๐
0
๐
2
โ
ฮ
โข
(
๐
,
๐ก
0
2
/
๐
/
๐
0
)
โค
๐
3
1
2
โข
๐ก
0
2
โข
๐
+
๐
โ
๐
0
๐
2
โ
exp
โก
(
โ
๐ก
0
2
/
๐
/
๐
0
)
โ
(
๐ก
0
2
/
๐
/
๐
0
+
๐
)
๐
โ
1
๐ 4 1 2 โ ๐ โ ( ๐ 0 โข log โก 1 ๐ ) ๐ + ๐ โ ๐ 0 ๐ 2 โ ๐ โ ( log โก 1 ๐ + ๐ ) ๐ โ 1
โค ( ๐ 0 โข log โก 1 ๐ + ๐ 0 โข ๐ ) ๐ โ ๐ .
In the above, ๐ 1 follows from the change of variables ๐ข :
๐ก 2 / ๐ / ๐ , ๐ 2 follows from the definition of upper incomplete gamma function, ๐ 3 follows from Lemma 28, ๐ 4 follows from the setting of ๐ก 1 , and the last step follows from simple algebraic relaxation. The result follows by replacing ๐ 0 with ๐ 0 โ ๐ 2 / ๐ . โ
Corollary 25.
The following holds:
sup ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 โซ 0 โ ๐ก โ min โก { ๐ , Pr โก ( | ๐ 1 โข ( ๐ท ) |
๐ก ) } โค ๐ฝ โข ( ๐ , ๐ , 2 ) .
Proof.
We will use the tail bound from Lemma 29. Let ๐ก 0
2 โข ( ๐ 0 โข log โก 1 ๐ ) ๐ / 2 . Since ๐ 0
1 , we have ๐ก 0
2 . By Lemma 29, we also have Pr โก ( | ๐ 1 โข ( ๐ท ) |
๐ก 0 ) โค ๐ . Therefore, we can write
โซ 0 โ ๐ก โ min โก { ๐ , Pr โก ( ๐ 1 โข ( ๐ท ) โฅ ๐ก ) } โข d โก ๐ก
โซ 0 ๐ก 0 ๐ก โ ๐ โข d โก ๐ก + โซ ๐ก 0 โ ๐ก โ ๐ โ ( ๐ก / 2 ) 2 / ๐ / ๐ 0 โข d โก ๐ก .
Using the same proof as Lemma 24 gives the desired result. โ
Corollary 26.
The following holds:
sup ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 โซ 0 โ ๐ก โ min โก { ๐ , Pr โก ( | ๐ 2 โข ( ๐ท ) |
๐ก ) } โค ๐ฝ โข ( ๐ , 2 โข ๐ , ๐ 2 ) .
Proof.
This follows immediately from the tail bound on Pr โก ( | ๐ 2 โข ( ๐ท ) |
๐ก ) in Lemma 30 and Lemma 24. โ
The following lemma provides another type of bound.
Lemma 27.
Let ๐ ๐ , ๐ โข ( ๐ก )
exp โก ( โ ( ๐ก / ๐ ) 2 / ๐ / ๐ 0 ) where ๐ is independent of ๐ก . Then โซ 0 โ min โก { ๐ , ๐ ๐ , ๐ โข ( ๐ก ) } โข d โก ๐ก โค ๐ฝ โฒ โข ( ๐ , ๐ , ๐ ) where ๐ฝ โฒ ( ๐ , ๐ , ๐ ) :
2 ๐ โ ( ๐ 0 log 1 ๐ + ๐ 0 โ ๐ 2 ) ๐ / 2 โ ๐ .
Proof.
Denote ๐ 0
๐ 0 โ ๐ 2 / ๐ . Let ๐ก 0
( ๐ 0 โข log โก 1 ๐ ) ๐ / 2 , which satisfies ๐
๐ ๐ , ๐ โข ( ๐ก 0 ) . It follows that
โซ 0 โ ๐ก โ min โก { ๐ , ๐ ๐ , ๐ โข ( ๐ก ) } โข d โก ๐ก
โซ 0 ๐ก 0 ๐ โข d โก ๐ก + โซ ๐ก 0 โ ๐ โ ๐ก 2 / ๐ / ๐ 0 โข d โก ๐ก
๐ 1 ๐ก 0 โข ๐ + ๐ 0 ๐ / 2 โข โซ ๐ก 0 2 / ๐ / ๐ 0 โ ๐ โ ๐ข โ ๐ข ๐ / 2 โ 1 โข d โก ๐ข
๐
2
๐ก
0
โข
๐
+
๐
0
๐
/
2
โ
ฮ
โข
(
๐
/
2
,
๐ก
0
2
/
๐
/
๐
)
โค
๐
3
๐ก
0
โข
๐
+
๐
0
๐
/
2
โ
exp
โก
(
โ
๐ก
0
2
/
๐
/
๐
0
)
โ
(
๐ก
0
2
/
๐
/
๐
0
+
๐
/
2
)
๐
/
2
โ
1
๐ 4 ๐ โ ( ๐ 0 โข log โก 1 ๐ ) ๐ / 2 + ๐ 0 ๐ / 2 โ ๐ โ ( log โก 1 ๐ + ๐ 2 ) ๐ / 2 โ 1
โค 2 โข ๐ 0 ๐ / 2 โ ( log โก 1 ๐ + ๐ 2 ) ๐ / 2 โ ๐ .
In the above, ๐ 1 follows from the change of variables ๐ข :
๐ก 2 / ๐ / ๐ , ๐ 2 follows from the definition of upper incomplete gamma function, ๐ 3 follows from Lemma 28, ๐ 4 follows from the setting of ๐ก 0 , and the last step follows from simple algebraic relaxation. The result follows by noting ๐ 0
๐ 0 โ ๐ 2 / ๐ . โ
Lemma 28 (Claim 3.11 of [DKS18b]).
Consider the upper incomplete gamma function ฮ โข ( ๐ , ๐ฅ )
โซ ๐ฅ โ ๐ก ๐ โ 1 โข ๐ โ ๐ก โข d โก ๐ก . We have ฮ โข ( ๐ , ๐ฅ ) โค ๐ โ ๐ฅ โ ( ๐ฅ + ๐ ) ๐ โ 1 for all ๐ โฅ 1 and ๐ฅ โฅ 0 .
C.3Concept class: basic properties
Recall that ๐ โข ( ๐ฅ ) is the vector of all Hermite polynomials on โ ๐ with degree at most ๐ . Note that ๐ โข ( ๐ฅ ) has ( ๐ + 1 ) ๐ elements. We defined two classes of polynomials:
๐ซ ๐ , ๐ , 2 โข ๐ 1 :
{ ๐ : โ ๐ โ โ : ๐ ( ๐ฅ )
โจ ๐ฃ , ๐ ( ๐ฅ ) โฉ , ๐ฃ โ โ ( ๐ + 1 ) ๐ , โฅ ๐ฃ โฅ 2
1 , โฅ ๐ฃ โฅ 0 โค ๐ } ,
(C.3)
and
๐ซ ๐ , ๐ , ๐ 2 :
{ ๐ : โ ๐ โ โ : ๐
โจ ๐ด ๐ , ๐ ๐ โค โ ๐ผ โฉ , ๐ด โ ๐ ( ๐ + 1 ) ๐ , ๐ โค
๐ , โฅ ๐ โฅ 0 โค ๐ , โฅ ๐ด ๐ โฅ ๐น
1 } ,
(C.4)
where
๐ ( ๐ + 1 ) ๐
{ ๐ด : ๐ด โ โ ( ๐ + 1 ) ๐ ร ( ๐ + 1 ) ๐ , ๐ด โค
๐ด } .
(C.5)
Note that the polynomials in ๐ซ ๐ , ๐ , ๐ 2 have degree at most 2 โข ๐ , and can be represented as a linear combination of at most ๐ elements of the form ๐ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) .
We collect a few basic properties of the sparse polynomial classes.
Lemma 29.
For all ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 , the following holds:
โข
Deterministic property: | ๐ 1 โข ( ๐ฅ ) | โค 2 โข ๐ โ โฅ ๐ โข ( ๐ฅ ) โฅ โ ; in particular, | ๐ 1 โข ( ๐ฅ ) | โค ๐พ 1 for all ๐ฅ โ ๐ ๐พ , where ๐พ 1 :
2 โข ๐ ๐พ ;
โข
Distributional property: for all ๐ก โฅ 2 ,
Pr โก ( | ๐ 1 โข ( ๐ท ) | โฅ ๐ก ) โค ๐ โ ( ๐ก / 2 ) 2 / ๐ / ๐ 0 .
Proof.
By Holderโs inequality, we have
| ๐ 1 โข ( ๐ฅ ) |
| ๐ฃ โ ๐ โข ( ๐ฅ ) | โค โฅ ๐ฃ โฅ 0 โ โฅ ๐ฃ โฅ 2 โ โฅ ๐ โข ( ๐ฅ ) โฅ โ โค 2 โข ๐ โ 1 โ โฅ ๐ โข ( ๐ฅ ) โฅ โ ,
where the first inequality follows from (A.5) and the second inequality follows from the fact that ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 .
To show the tail bound, we will decompose ๐ฃ
( ๐ฃ 1 , ๐ฃ ~ ) and ๐ โข ( ๐ฅ )
( 1 , ๐ ~ โข ( ๐ฅ ) ) so that ๐ผ โก [ ๐ ~ โข ( ๐ท ) ]
0 . In this way, we have ๐ 1 โข ( ๐ฅ )
๐ฃ 1 + ๐ฃ ~ โ ๐ ~ โข ( ๐ฅ )
๐ฃ 1 + โฅ ๐ฃ ~ โฅ 2 โ ๐ โข ( ๐ฅ ) , where ๐ ( ๐ฅ ) :
๐ฃ ยฏ โ ๐ ~ ( ๐ฅ ) and ๐ฃ ยฏ :
๐ฃ ~ / โฅ ๐ฃ ~ โฅ 2 .
Observe that ๐ผ โก [ ๐ โข ( ๐ท ) ]
0 and Var [ ๐ โข ( ๐ท ) ]
1 . By Fact 21, for all ๐ก
0 ,
Pr โก ( | ๐ โข ( ๐ท ) | โฅ ๐ก ) โค ๐ โ ๐ก 2 / ๐ / ๐ 0 .
(C.6)
By simple calculation, we can show that
| ๐ 1 โข ( ๐ฅ ) |
( ๐ฃ 1 + โฅ ๐ฃ ~ โฅ 2 โ ๐ โข ( ๐ฅ ) ) 2 โค 2 โ ๐ฃ 1 2 + โฅ ๐ฃ ~ โฅ 2 2 โ ๐ 2 โข ( ๐ฅ ) โค 2 โข | ๐ โข ( ๐ฅ ) |
for ๐ โข ( ๐ฅ ) โฅ 1 . Thus, for all ๐ก โฅ 2 , we have
Pr โก ( | ๐ 1 โข ( ๐ท ) | โฅ ๐ก ) โค Pr โก ( 2 โข | ๐ โข ( ๐ท ) | โฅ ๐ก )
Pr โก ( | ๐ โข ( ๐ท ) | โฅ ๐ก / 2 ) โค ๐ โ ( ๐ก / 2 ) 2 / ๐ / ๐ 0 ,
(C.7)
where the last step follows from (C.6). โ
Lemma 30.
For all ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 , the following holds:
โข
Deterministic property: | ๐ 2 โข ( ๐ฅ ) | โค 2 โข ๐ โ โฅ ๐ โข ( ๐ฅ ) โฅ โ 2 ; in particular, | ๐ 2 โข ( ๐ฅ ) | โค ๐พ 2 for all ๐ฅ โ ๐ ๐พ , where ๐พ 2 :
2 ๐ โ ๐พ 2 ;
โข
Distributional properties: ๐ผ โก [ ๐ 2 โข ( ๐ท ) ]
0 , โฅ ๐ 2 โฅ ๐ฟ 2 โค ๐ 2 where ๐ 2 :
๐ถ 2 โ ๐ 3 4 โ ( ๐ 0 ๐ ) ๐ , and
Pr โก ( | ๐ 2 โข ( ๐ท ) | โฅ ๐ก ) โค exp โก ( โ ( ๐ก / ๐ 2 ) 1 / ๐ / ๐ 0 ) , โ ๐ก
0 .
Proof.
By the Cauchy-Schwartz inequality,
| ๐ 2 โข ( ๐ฅ ) | โค โฅ ๐ด ๐ โฅ ๐น โ โฅ ( ๐ โข ( ๐ฅ ) โข ๐ โข ( ๐ฅ ) โค โ ๐ผ ) ๐ โฅ ๐น โค โฅ ๐ โฅ 0 โ โฅ ๐ โข ( ๐ฅ ) โฅ โ 2 + โฅ ๐ผ ๐ โฅ ๐น โค ๐ โข ( โฅ ๐ โข ( ๐ฅ ) โฅ โ 2 + 1 ) ,
where in the second inequality we use the fact that each entry of the matrix ๐ โข ( ๐ฅ ) โข ๐ โข ( ๐ฅ ) โค takes the form ๐ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) whose magnitude is always upper bounded by โฅ ๐ โข ( ๐ฅ ) โฅ โ 2 , and there are at most โฅ ๐ โฅ 0 such entries. Since ๐ 1 โข ( ๐ฅ )
1 , we always have 1 โค โฅ ๐ โข ( ๐ฅ ) โฅ โ 2 . Thus | ๐ 2 โข ( ๐ฅ ) | โค 2 โข ๐ โ โฅ ๐ โข ( ๐ฅ ) โฅ โ 2 .
Now we show the distributional properties. Since ๐ โข ( ๐ฅ ) is a complete orthonormal basis in ๐ฟ 2 โข ( โ ๐ , ๐ท ) , it follows that
๐ผ โก [ ๐ 2 โข ( ๐ท ) ]
โจ ๐ด ๐ , ๐ผ โ ๐ผ โฉ
0 .
(C.8)
Now we bound โฅ ๐ 2 โฅ ๐ฟ 2 , which equals ๐ผ โก [ ๐ 2 2 โข ( ๐ท ) ] . Recall that ๐ด ๐ is symmetric with โฅ ๐ด ๐ โฅ ๐น
1 , and thus can be written as
๐ด ๐
๐ โค โข ฮ โข ๐ ,
(C.9)
for some orthonormal matrix ๐ and diagonal matrix ฮ with โฅ ฮ โฅ ๐น
1 . Let ๐ โข ( ๐ฅ )
๐ โ ๐ โข ( ๐ฅ ) . Observe that ๐ผ โก [ ๐ โข ( ๐ท ) ]
0 and ๐ผ โก [ ๐ โข ( ๐ท ) โข ๐ โข ( ๐ท ) โค ]
๐ผ . Then
๐ผ โก [ ๐ 2 2 โข ( ๐ท ) ]
Var [ ๐ โข ( ๐ท ) โค โข ฮ โข ๐ โข ( ๐ท ) ]
Var [ โ ๐ ฮ ๐ โข ๐ โข ๐ ๐ 2 โข ( ๐ท ) ] โค โ ๐ ฮ ๐ โข ๐ 2 โข Var [ ๐ ๐ 2 โข ( ๐ท ) ] ,
(C.10)
where ฮ ๐ โข ๐ denotes the ๐ -th diagonal element of ฮ and ๐ ๐ โข ( ๐ฅ ) denotes the ๐ -th component of the vector-valued function ๐ โข ( ๐ฅ ) , and the last step follows from the fact that ๐ผ โก [ ๐ ๐ โข ( ๐ท ) โ ๐ ๐ โข ( ๐ท ) ]
0 for ๐ โ ๐ and ๐ผ โก [ ๐ ๐ โข ( ๐ท ) ]
0 for all ๐ . It thus remains to upper bound Var [ ๐ ๐ 2 โข ( ๐ท ) ] .
By the definition of variance, we have
Var [ ๐ ๐ 2 โข ( ๐ท ) ]
๐ผ โก [ ๐ ๐ 4 โข ( ๐ท ) ] โ ( ๐ผ โก [ ๐ ๐ 2 โข ( ๐ท ) ] ) 2
๐ผ โก [ ๐ ๐ 4 โข ( ๐ท ) ] โ 1 โค ๐ถ 2 2 โ ๐ 3 2 โ ( ๐ 0 โข ๐ ) 2 โข ๐ ,
where we applied Lemma 31 in the last step. Plugging it into (C.10), we get
๐ผ โก [ ๐ 2 2 โข ( ๐ท ) ] โค ๐ถ 2 2 โ ๐ 3 2 โ ( 2 โข ๐ โ 1 ๐ 0 โข ๐ ) 2 โข ๐ โ 1 โข โ ๐ ฮ ๐ โข ๐ 2
๐ถ 2 2 โ ๐ 3 2 โ ( ๐ 0 โข ๐ ) 2 โข ๐ ,
(C.11)
where the equality follows from the construction that โฅ ฮ โฅ ๐น
1 and โ ๐ ฮ ๐ โข ๐ 2
โฅ ฮ โฅ ๐น 2 . The proof is complete by noting that โฅ ๐ 2 โฅ ๐ฟ 2
๐ผ โก [ ๐ 2 2 โข ( ๐ท ) ] . โ
Lemma 31.
Let ๐ฃ be a unit vector and ๐ โข ( ๐ฅ ) be a collection of orthonormal polynomials of degree at most ๐ in ๐ฟ 2 โข ( โ ๐ , ๐ท ) . Then ๐ผ โก [ ( ๐ฃ โ ๐ โข ( ๐ท ) ) 4 ] โค ๐ถ 2 2 โ ๐ 3 2 โ ( ๐ 0 โข ๐ ) 2 โข ๐ for some sufficiently large constant ๐ถ 2
0 .
Proof.
Let ๐ โข ( ๐ฅ )
๐ฃ โ ๐ โข ( ๐ฅ ) and ๐
๐ 0 โ 2 1 / ๐ . We bound the desired expectation by using Fact 20 with the tail bound in Lemma 29:
๐ผ โก [ ๐ 4 โข ( ๐ท ) ]
โซ 0 โ Pr โก ( ๐ 4 โข ( ๐ท ) > ๐ก ) โข d โก ๐ก
โซ
0
2
Pr
โก
(
๐
4
โข
(
๐ท
)
>
๐ก
)
โข
d
โก
๐ก
+
โซ
2
โ
Pr
โก
(
๐
4
โข
(
๐ท
)
>
๐ก
)
โข
d
โก
๐ก
โค
2
+
4
โข
โซ
0
โ
๐ก
3
โ
Pr
โก
(
|
๐
โข
(
๐ท
)
|
>
๐ก
)
โข
d
โก
๐ก
โค
2
+
4
โข
โซ
0
โ
๐ก
3
โ
๐
โ
๐ก
2
/
๐
/
๐
โข
d
โก
๐ก
2 + ๐ 2 โ ๐ 2 โข ๐ โ 1 โ โซ 0 โ ๐ก 2 โข ๐ โ 1 โข ๐ โ ๐ก โข d โก ๐ก
๐ 1 2 + ๐ 2 โ ๐ 2 โข ๐ โ 1 โ ( 2 โข ๐ โ 1 ) !
โค ๐ 2 2 + ๐ 2 โ ๐ 2 โข ๐ โ 1 โ 2 โข ๐ โข ( 2 โข ๐ โ 1 ) โข ( 2 โข ๐ โ 1 ๐ ) 2 โข ๐ โ 1 โ ๐ 1 12 โข ( 2 โข ๐ โ 1 )
where ๐ 1 follows from the known fact on the value of the Gamma function, and ๐ 2 follows from the Stirlingโs approximation. The result follows by noting that ๐
๐ 0 โ 2 1 / ๐ and choosing a large enough constant ๐ถ 2 . โ
C.4Concept class: uniform convergence and sample complexity Lemma 32.
The VC-dimension of the class โ ๐ , ๐ , 2 โข ๐ 1 :
{ โ : ๐ฅ โฆ sign ( ๐ 1 ( ๐ฅ ) ) , ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 } is ๐ โข ( ๐ โ ๐ โข log โก ๐ ) , and that of the class โ ๐ , ๐ , ๐ 2 :
{ โ : ๐ฅ โฆ sign ( ๐ 2 ( ๐ฅ ) ) , ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 } is ๐ โข ( ๐ โ ๐ โข log โก ๐ ) .
Proof.
For the class โ ๐ , ๐ , ๐ 1 , we can consider the class of polynomials in ๐ซ ๐ , ๐ , 2 โข ๐ 1 with a fixed support set. It is easy to see that the VC-dimension of such class is ๐ + 1 . Now note that the number of the choices of such support set is
โ ๐
0 ๐ ( ( ๐ + 1 ) ๐ ๐ ) โค ( ๐ โข ( ๐ + 1 ) ๐ ๐ ) ๐ .
The concept class union argument states that for any โ
โช ๐
1 ๐ โ ๐ , the VC dimension of โ is upper bounded by ๐ โข ( max โก { ๐ , log โก ๐ + ๐ โข log โก log โก ๐ ๐ } ) , where ๐ is an upper bound on the VC dimension of all โ ๐ . Thus, the VC-dimension of โ ๐ , ๐ , 2 โข ๐ 1 is ๐ โข ( ๐ โ ๐ โข log โก ๐ ) by algebraic calculations.
Likewise, for โ ๐ , ๐ , ๐ 2 , we can first fix the support ๐ โ [ ( ๐ + 1 ) ๐ ] ร [ ( ๐ + 1 ) ๐ ] in the representation of ๐ 2 . Let ๐ซ โข ( ๐ ) be the class of polynomials in ๐ซ ๐ , ๐ , ๐ 2 with the fixed ๐ . It is easy that the VC-dimension of ๐ซ โข ( ๐ ) is ๐ + 1 . Now note that the number of choices of ๐ is
โ ๐
0 ๐ ( ( ๐ + 1 ) 2 โข ๐ ๐ ) โค ( ๐ โข ( ๐ + 1 ) 2 โข ๐ ๐ ) ๐ .
Using the same argument gives that the VC-dimension of โ ๐ , ๐ , ๐ 2 is ๐ โข ( ๐ โ ๐ โข log โก ๐ ) . โ
Proposition 33 (Restatement of Prop. 13).
Let ๐ be a set of ๐ถ โ ๐ 5 โข ๐ โข ๐พ 4 โข ๐ ๐ 2 โข log 5 โข ๐ โก ( ๐ โข ๐ ๐ โข ๐ฟ ) instances drawn independently from ๐ท , where ๐ถ
0 is a sufficiently large constant. Then with probability 1 โ ๐ฟ , ๐ is a good set in the sense of Definition 12.
Proof.
By Lemma 11, our setting of ๐ฟ ๐พ and | ๐ | , it follows that with probability at least 1 โ ๐ฟ ๐พ , we must have ๐ | ๐ ๐พ
๐ . This proves Part 1. From now on, we condition on this event happening.
We note that by the classical VC theory [AB99] and our VC-dimension upper bound in Lemma 32, Parts 2, 3, 5, 6 in Definition 12 all hold with probability 1 โ ๐ฟ / 4 as far as
| ๐ | โฅ ๐ถ โ ( VCdim ๐ผ 2 โ log โก 4 โ VCdim ๐ผ โข ๐ฟ ) ,
(C.12)
where VCdim :
max { ๐ โ ๐ log ๐ , ๐ โ ๐ log ๐ }
๐ โ ๐ 2 log ๐ , and ๐ผ :
min { ๐ผ 1 , ๐ผ 2 } โค ๐ 2 โข ๐ โข ๐พ 2 .
We now show Part 4. For ๐ฅ โ ๐ ๐พ , we have | ๐ ๐ โข ( ๐ฅ ) | โค ๐พ with certainty. Therefore, by Hoeffdingโs inequality for bounded random variables, we have that
Pr โก ( | ๐ผ ๐ | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) ] โ ๐ผ ๐ท | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) ] |
๐ก ) โค 2 โข exp โก ( โ | ๐ | โข ๐ก 2 4 โข ๐พ 2 ) .
Therefore, taking the union bound over ๐ we obtain that if
| ๐ | โฅ 32 โข ๐ โข ๐พ 2 ( ๐ผ 1 โฒ ) 2 โ log โก 16 โข ( ๐ + 1 ) ๐ ๐ฟ ,
(C.13)
then with probability at least 1 โ ๐ฟ / 8 , we have
max 1 โค ๐ โค ( ๐ + 1 ) ๐ โก | ๐ผ ๐ | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) ] โ ๐ผ ๐ท | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) ] | โค 1 2 โ ๐ผ 1 โฒ 2 โข ๐ .
Now we observe that for any ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 , we have ๐ 1 โข ( ๐ฅ )
โจ ๐ฃ , ๐ โข ( ๐ฅ ) โฉ with โฅ ๐ฃ โฅ 1 โค ๐ . Thus
| ๐ผ ๐ฅ โผ ๐ | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โ ๐ 1 โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โ ๐ 1 โข ( ๐ฅ ) ] |
| ๐ฃ โ ( ๐ผ ๐ฅ โผ ๐ | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) ] ) |
โค
๐ โ โฅ ๐ผ ๐ฅ โผ ๐ | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) ] โฅ โ
โค
1 2 โข ๐ผ 1 โฒ .
(C.14)
On the other hand, recall that for any ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 , โฅ ๐ 1 โฅ ๐ฟ 2
1 in view of Lemma 29. Thus Lemma 34 tells that
sup ๐ : | ๐ | โค 1 , ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 | ๐ผ ๐ฅ โผ ๐ท โก [ ๐ โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) ] | โค 4 โข Pr ๐ฅ โผ ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โค 4 โข ๐ฟ ๐พ ,
where the last step follows from Lemma 23. Since we set ๐ฟ ๐พ such that ๐ฟ ๐พ โค ( ๐ผ 1 โฒ ) 2 64 , we have
sup ๐ : | ๐ | โค 1 , ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 | ๐ผ ๐ฅ โผ ๐ท โก [ ๐ โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) ] | โค 1 2 โข ๐ผ 1 โฒ .
(C.15)
Part 4 follows from applying triangle inequality on (C.4) and (C.15), and the conditioning ๐ | ๐ ๐พ
๐ .
Lastly, we show Part 7. We note that for any fixed index ( ๐ , ๐ ) โ [ ( ๐ + 1 ) ๐ ] ร [ ( ๐ + 1 ) ๐ ] , sup ๐ฅ โ ๐ ๐พ | ๐ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) | โค ๐พ 2 holds with certainty. Therefore, Hoeffdingโs inequality for bounded random variable tells that
Pr โก ( | ๐ผ ๐ | ๐ ๐พ โก [ ๐ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) ] โ ๐ผ ๐ท | ๐ ๐พ โก [ ๐ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) ] |
๐ก ) โค 2 โข exp โก ( โ | ๐ | โข ๐ก 2 4 โข ๐พ 4 ) .
Thus, by taking the union bound over all choices of ( ๐ , ๐ ) , we obtain that with probability 1 โ ๐ฟ / 8 ,
max ( ๐ , ๐ ) โ [ ( ๐ + 1 ) ๐ ] ร [ ( ๐ + 1 ) ๐ ] โก | ๐ผ ๐ | ๐ ๐พ โก [ ๐ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) ] โ ๐ผ ๐ท | ๐ ๐พ โก [ ๐ ๐ โข ( ๐ฅ ) โข ๐ ๐ โข ( ๐ฅ ) ] | โค 1 2 โ ๐ผ 2 โฒ ๐
(C.16)
as far as
| ๐ | โฅ 16 โข ๐ โข ๐พ 4 ( ๐ผ 2 โฒ ) 2 โ log โก 16 โข ( ๐ + 1 ) 2 โข ๐ ๐ฟ .
(C.17)
Now, for any ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 , we have ๐ 2 โข ( ๐ฅ )
โจ ๐ด ๐ , ๐ โข ( ๐ฅ ) โข ๐ โข ( ๐ฅ ) โค โฉ โ โจ ๐ด ๐ , ๐ผ โฉ . Thus,
| ๐ผ ๐ | ๐ ๐พ โก [ ๐ 2 โข ( ๐ฅ ) ] โ ๐ผ ๐ท | ๐ ๐พ โก [ ๐ 2 โข ( ๐ฅ ) ] |
|
โ
(
๐
,
๐
)
โ
๐
๐ด
๐
โข
๐
โข
(
๐ผ
๐
|
๐
๐พ
โก
[
๐
๐
โข
(
๐ฅ
)
โข
๐
๐
โข
(
๐ฅ
)
]
โ
๐ผ
๐ท
|
๐
๐พ
โก
[
๐
๐
โข
(
๐ฅ
)
โข
๐
๐
โข
(
๐ฅ
)
]
)
|
โค
โฅ
๐
โฅ
0
โ
max
(
๐
,
๐
)
โ
[
(
๐
+
1
)
๐
]
ร
[
(
๐
+
1
)
๐
]
โก
|
๐ผ
๐
|
๐
๐พ
โก
[
๐
๐
โข
(
๐ฅ
)
โข
๐
๐
โข
(
๐ฅ
)
]
โ
๐ผ
๐ท
|
๐
๐พ
โก
[
๐
๐
โข
(
๐ฅ
)
โข
๐
๐
โข
(
๐ฅ
)
]
|
โค
๐
โ
1
2
โ
๐ผ
2
โฒ
๐
1 2 โข ๐ผ 2 โฒ .
(C.18)
On the other hand, by Lemma 30, we have โฅ ๐ 2 โฅ ๐ฟ 2 โค ๐ 2 for all ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 . Thus, Lemma 34 tells that
sup ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 | ๐ผ ๐ฅ โผ ๐ท โก [ ๐ 2 โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท | ๐ ๐พ โก [ ๐ 2 โข ( ๐ฅ ) ] | โค 4 โข ๐ 2 โข Pr ๐ฅ โผ ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โค 4 โข ๐ 2 โข ๐ฟ ๐พ .
Since we set ๐ฟ ๐พ such that ๐ฟ ๐พ โค ( ๐ผ 2 โฒ ) 2 64 โข ๐ 2 2 , we have
sup ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 | ๐ผ ๐ฅ โผ ๐ท โก [ ๐ 2 โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท | ๐ ๐พ โก [ ๐ 2 โข ( ๐ฅ ) ] | โค 4 โข ๐ 2 โข Pr ๐ฅ โผ ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โค 1 2 โข ๐ผ 2 โฒ .
(C.19)
Part 7 follows from applying triangle inequality on (C.4) and (C.19), and the conditioning ๐ | ๐ ๐พ
๐ .
Observe that by the union bound, all these parts hold simultaneously with probability at least 1 โ ๐ฟ ๐พ โ ๐ฟ / 4 โ ๐ฟ / 8 โ ๐ฟ / 8 โฅ 1 โ ๐ฟ since we set ๐ฟ ๐พ โค ๐ฟ / 2 . In addition, to satisfy all the requirements on the sample size involved in all parts, i.e. (C.12), (C.13), and (C.17), we need
| ๐ | โฅ ๐ถ โฒ โ ( ๐พ 4 โ ๐ 4 โ log โก ๐ ๐ 2 โข log โก ๐พ โข ๐ โข ๐ ๐ โข ๐ ๐ โข ๐ฟ ) ,
(C.20)
for some large enough constant ๐ถ โฒ
0 . Our setting on | ๐ | follows by plugging the setting of ๐พ in Definition 12 into the above equation and noting that ๐ โค max โก { ๐ + 1 , 2 โข ๐พ ๐ } . The proof is complete. โ
Lemma 34 (Total variation distance).
Assume that Pr ๐ฅ โผ ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โฅ 1 2 and let ๐
0 be a finite real number. The following holds uniformly for all functions ๐ and ๐ satisfying ๐ : โ ๐ โ [ โ 1 , 1 ] and โฅ ๐ โฅ ๐ฟ 2 โค ๐ :
| ๐ผ ๐ฅ โผ ๐ท โก [ ๐ โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท | ๐ ๐พ โก [ ๐ โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) ] | โค 4 โข ๐ โข Pr ๐ฅ โผ ๐ท โก ( ๐ฅ โ ๐ ๐พ ) .
Proof.
Denote ๐ง โข ( ๐ฅ )
๐ โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) . Let ๐ ๐ ๐พ ๐ โข ( ๐ฅ ) be the indicator function which outputs 1 if ๐ฅ โ ๐ ๐พ and 0 otherwise. By simple calculation, we have
๐ผ ๐ฅ โผ ๐ท โก [ ๐ง โข ( ๐ฅ ) ]
Pr ๐ฅ โผ ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โ ๐ผ ๐ท | ๐ ๐พ โก [ ๐ง โข ( ๐ฅ ) ] + ๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) โ ๐ ๐ ๐พ ๐ โข ( ๐ฅ ) ] ,
namely,
๐ผ ๐ท | ๐ ๐พ โก [ ๐ง โข ( ๐ฅ ) ]
๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) ] Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โ ๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) โ ๐ ๐ ๐พ ๐ โข ( ๐ฅ ) ] Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) .
(C.21)
Therefore,
| ๐ผ ๐ท | ๐ ๐พ โก [ ๐ง โข ( ๐ฅ ) ] โ ๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) ] |
| Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โ ๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) ] Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โ ๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) โ ๐ ๐ ๐พ ๐ โข ( ๐ฅ ) ] Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) |
โค Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โ | ๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) ] | + | ๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) โ ๐ ๐ ๐พ ๐ โข ( ๐ฅ ) ] | Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ )
โค 1 1 / 2 โ Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โ | ๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) ] | + | ๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) โ ๐ ๐ ๐พ ๐ โข ( ๐ฅ ) ] | 1 / 2 ,
(C.22)
where we applied the condition Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โฅ 1 / 2 in the last step.
Observe that
| ๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) ] | โค ๐ผ ๐ท โก [ ๐ง 2 โข ( ๐ฅ ) ] โค ๐ผ ๐ท โก [ ๐ 2 โข ( ๐ฅ ) ]
โฅ ๐ โฅ ๐ฟ 2 โค ๐ .
(C.23)
On the other hand,
| ๐ผ ๐ท โก [ ๐ง โข ( ๐ฅ ) โ ๐ ๐ ๐พ ๐ โข ( ๐ฅ ) ] | โค ๐ผ ๐ท โก [ ๐ง 2 โข ( ๐ฅ ) ] โ ๐ผ ๐ท โก [ ๐ ๐ ๐พ ๐ โข ( ๐ฅ ) ] โค ๐ โ Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) .
(C.24)
Combining (C.4), (C.23), (C.24), and noting that any probability is always no greater than its root completes the proof. โ
Appendix DAnalysis of Algorithm 2: Proof of Theorem 14 Proof of Theorem 14.
Note that in view of our construction of ๐ 2 in the algorithm, we have ๐ผ โก [ ๐ 2 โข ( ๐ โฒ ) ]
โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น . Denote ๐ธ
๐
โฒ
๐
and
๐ฟ
๐
๐
โฒ
. Then,
| ๐ โฒ | โ โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น
| ๐ โฒ | โ ๐ผ โก [ ๐ 2 โข ( ๐ โฒ ) ]
| ๐ | โ ๐ผ โก [ ๐ 2 โข ( ๐ ) ] + | ๐ธ | โ ๐ผ โก [ ๐ 2 โข ( ๐ธ ) ] โ | ๐ฟ | โ ๐ผ โก [ ๐ 2 โข ( ๐ฟ ) ] .
(D.1)
Observe that Lemma 30 tells that ๐ผ โก [ ๐ 2 โข ( ๐ท ) ]
0 , which combined with Part 7 of Definition 12 gives ๐ผ โก [ ๐ 2 โข ( ๐ ) ] โค ๐ผ 2 โฒ . In addition, Lemma 36 shows | ๐ฟ | โ | ๐ผ โก [ ๐ 2 โข ( ๐ฟ ) ] | โค 2 โข ( 1 + 1 ๐ ) โข | ๐ | โ ( ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) + ๐ผ 2 โข ๐พ 2 ) . Assume for contradiction that no such threshold ๐ก exists. Then Lemma 35 gives | ๐ธ | โ | ๐ผ โก [ ๐ 2 โข ( ๐ธ ) ] | โค 7 โข ( 1 + 1 ๐ ) โข | ๐ โฒ | โ ( ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) + ๐ผ 2 โข ๐พ 2 ) . Plugging these into (D.1), we obtain that
| ๐ โฒ | โ โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โค | ๐ | โ ๐ผ 2 โฒ + 7 โข ( 1 + 1 ๐ ) โข | ๐ โฒ | โ ( ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) + ๐ผ 2 โข ๐พ 2 ) + 2 โข ( 1 + 1 ๐ ) โข | ๐ | โ ( ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) + ๐ผ 2 โข ๐พ 2 ) .
Diving both sides by | ๐ โฒ | and noting that (A.2) shows | ๐ | โค ( 1 + 1 2 โข ๐ ) โข | ๐ โฒ | , we obtain
โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โค 7 โข ( 1 + 1 ๐ ) โข ( 1 + 1 2 โข ๐ ) โข ( ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) + ๐ผ 2 โฒ + ๐ผ 2 โข ๐พ 2 ) โค 14 ๐ 2 โข ( ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) + ๐ผ 2 โฒ + ๐ผ 2 โข ๐พ 2 ) ,
where the last step follows since ๐ โ ( 0 , 1 2 ] . Recall that we set ๐ผ 2 โฒ
๐ and ๐ผ 2
๐ / ๐พ 2 in Definition 12. Thus, the above inequality reads as
โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โค 14 ๐ 2 โข ( ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) + 2 โข ๐ )
๐ ,
which contradicts the condition of the proposition that โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น
๐ .
Note that the existence of such threshold ๐ก combined with Lemma 38 implies the desired progress in the symmetric difference. In particular, by combining Part 5 of Definition 12 and Lemma 30, we have
Pr โก ( ๐ 2 โข ( ๐ )
๐ก ) โค exp โก ( โ ( ๐ก / ๐ 2 ) 1 / ๐ / ๐ 0 ) + ๐ผ 2 , โ ๐ก
0 .
(D.2)
We also just showed that there exists ๐ก
0 such that
Pr โก ( ๐ 2 โข ( ๐ โฒ )
๐ก ) โฅ 6 โข exp โก ( โ ( ๐ก / ๐ 2 ) 1 / ๐ / ๐ 0 ) + 6 โข ๐ผ 2 .
(D.3)
In addition, (A.2) tells | ๐ โฒ | โฅ 1 2 โข | ๐ | . Thus, Lemma 38 asserts that
ฮ โข ( ๐ , ๐ โฒโฒ ) โค ฮ โข ( ๐ , ๐ โฒ ) โ exp โก ( โ ( ๐ก / ๐ 2 ) 1 / ๐ / ๐ 0 ) โ ๐ผ 2 โค ฮ โข ( ๐ , ๐ โฒ ) โ ๐ผ 2 .
(D.4)
This completes the proof by noting that we set ๐ผ 2
๐ ๐พ 2
๐ 4 โข ๐ โข ๐พ 2 . โ
D.1Auxiliary results Lemma 35 (Restatement of Lemma 15).
Consider Algorithm 2. Suppose that ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ and โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น > ๐ . Let ๐ธ
๐
โฒ
๐
. If there does not exist a threshold
๐ก
0 that satisfies Step 3, then
( | ๐ธ | / | ๐ โฒ | ) โข sup ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 ๐ผ โก [ | ๐ 2 โข ( ๐ธ ) | ] โค 7 โข ( 1 + 1 ๐ ) โ [ ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) + ๐ผ 2 โข ๐พ 2 ] .
Proof.
We use Lemma 37 to establish the result. We note that ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ implies | ๐ธ | โค ๐ ๐ โข | ๐ โฒ | by (A.3). Since we assumed that no threshold ๐ก satisfies the filtering condition, we have
Pr โก ( | ๐ 2 โข ( ๐ โฒ ) |
๐ก ) โค 6 โข exp โก ( โ ( ๐ก / ๐ 2 ) 1 / ๐ / ๐ 0 ) + 6 โข ๐ผ 2 , โ ๐ก
0 .
By Lemma 27, we have โซ 0 โ min โก { ๐ , exp โก ( โ ( ๐ก / ๐ 2 ) 1 / ๐ / ๐ 0 ) } โค ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) . Lastly, by Lemma 30, we have max ๐ฅ โ ๐ โฒ โก | ๐ 2 โข ( ๐ฅ ) | โค ๐พ 2 . Thus, using Lemma 37 gives the result. โ
Lemma 36 (Restatement of Lemma 16).
Consider Algorithm 2. Suppose that ๐ is a good set and ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ . We have
( | ๐ฟ | / | ๐ | ) โข sup ๐ 2 โ ๐ซ ๐ , ๐ , ๐ 2 ๐ผ โก [ | ๐ 2 โข ( ๐ฟ ) | ] โค 2 โข ( 1 + 1 ๐ ) โข [ ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) + ๐ผ 2 โข ๐พ 2 ] .
Proof.
We use Lemma 37 to establish the result. Similar to Lemma 35, we can show that | ๐ฟ | โค ๐ ๐ โข | ๐ | by (A.3). By combining Lemma 30 and Part 5 of Definition 12, we have
Pr โก ( | ๐ 2 โข ( ๐ ) |
๐ก ) โค exp โก ( โ ( ๐ก / ๐ 2 ) 1 / ๐ / ๐ 0 ) + ๐ผ 2 , โ ๐ก
0 .
By Lemma 27, we have โซ 0 โ min โก { ๐ , exp โก ( โ ( ๐ก / ๐ 2 ) 1 / ๐ / ๐ 0 ) } โค ๐ฝ โฒ โข ( ๐ , 2 โข ๐ , ๐ 2 ) . Lastly, by Lemma 30, we have max ๐ฅ โ ๐ โฒ โก | ๐ 2 โข ( ๐ฅ ) | โค ๐พ 2 . Thus, using Lemma 37 gives the result. โ
The following lemma borrows from Lemma 2.10 of [DKS18a]; the proof is included for completeness.
Lemma 37.
Let ๐ 0
0 be an absolute constant. Let ๐ 0 be a set of instances in โ ๐ and ๐ 1 โ ๐ 0 , with | ๐ 1 | โค ๐ 1 โข ๐ โข | ๐ 0 | for some ๐ 1 , ๐
0 . Let ๐ be such that Pr โก ( | ๐ โข ( ๐ 0 ) |
๐ก ) โค ๐ 2 โ ๐ ๐ โข ( ๐ก ) + ๐ผ 0 for all ๐ก โฅ ๐ก 0 , where ๐ 2 , ๐ ๐ โข ( ๐ก ) , ๐ผ 0
0 . Assume max ๐ฅ โ ๐ 0 โก | ๐ โข ( ๐ฅ ) | โค ๐พ 0 . Further assume that โซ 0 โ min โก { ๐ , ๐ ๐ โข ( ๐ก ) } โข d โก ๐ก โค ๐ฝ 0 . Then
( | ๐ 1 | / | ๐ 0 | ) โ ๐ผ โก [ | ๐ โข ( ๐ 1 ) | ] โค ๐ 1 โข ๐ก 0 โ ๐ + ( ๐ 1 + 1 ) โข ( ๐ 2 + 1 ) โข ๐ฝ 0 + ๐ผ 0 โข ๐พ 0 .
Proof.
Since ๐ 1 โ ๐ 0 , we have | ๐ 1 | โ Pr โก ( | ๐ โข ( ๐ 1 ) |
๐ก ) โค | ๐ 0 | โ Pr โก ( | ๐ โข ( ๐ 0 ) |
๐ก ) . Thus,
Pr โก ( | ๐ โข ( ๐ 1 ) |
๐ก ) โค min โก { 1 , | ๐ 0 | | ๐ 1 | โ Pr โก ( | ๐ โข ( ๐ 0 ) |
๐ก ) } .
(D.5)
By Fact 20, we have
(
|
๐
1
|
/
|
๐
0
|
)
โ
๐ผ
โก
[
|
๐
โข
(
๐
1
)
|
]
โค
โซ
0
โ
(
|
๐
1
|
/
|
๐
0
|
)
โข
Pr
โก
(
|
๐
โข
(
๐
1
)
|
>
๐ก
)
โข
d
โก
๐ก
๐ 1 โซ 0 ๐พ 0 ( | ๐ 1 | / | ๐ 0 | ) โข Pr โก ( | ๐ โข ( ๐ 1 ) |
๐ก ) โข d โก ๐ก
โค ๐ 2 โซ 0 ๐พ 0 min โก { | ๐ 1 | / | ๐ 0 | , Pr โก ( | ๐ โข ( ๐ 0 ) |
๐ก ) } โข d โก ๐ก
โค ๐ 3 โซ 0 ๐พ 0 min โก { ๐ 1 โข ๐ , Pr โก ( | ๐ โข ( ๐ 0 ) |
๐ก ) } โข d โก ๐ก
โค ๐ 4 โซ 0 ๐ก 0 min โก { ๐ 1 โข ๐ , 1 } โข d โก ๐ก + โซ ๐ก 0 ๐พ 0 min โก { ๐ 1 โข ๐ , ๐ 2 โ ๐ ๐ โข ( ๐ก ) + ๐ผ 0 } โข d โก ๐ก
โค ๐ 5 ๐ 1 โข ๐ โข ๐ก 0 + โซ ๐ก 0 ๐พ 0 min โก { ๐ 1 โข ๐ , ๐ 2 โ ๐ ๐ โข ( ๐ก ) } โข d โก ๐ก + โซ ๐ก 0 ๐พ 0 ๐ผ 0 โข d โก ๐ก
โค ๐ 6 ๐ 1 โข ๐ก 0 โ ๐ + ( ๐ 1 + 1 ) โข ( ๐ 2 + 1 ) โข โซ ๐ก 0 ๐พ 0 min โก { ๐ , ๐ ๐ โข ( ๐ก ) } โข d โก ๐ก + ๐ผ 0 โข ( ๐พ 0 โ ๐ก 0 )
โค ๐ 7 ๐ 1 โข ๐ก 0 โ ๐ + ( ๐ 1 + 1 ) โข ( ๐ 2 + 1 ) โข ๐ฝ 0 + ๐ผ 0 โข ๐พ 0 .
In the above, ๐ 1 follows from the condition that ๐ โข ( ๐ฅ ) โค ๐พ 0 for all ๐ฅ โ ๐ 1 , ๐ 2 follows from (D.5), ๐ 3 uses the condition | ๐ 1 | โค ๐ 1 โข ๐ โข | ๐ 0 | , ๐ 4 uses the condition of the tail bound of ๐ โข ( ๐ 0 ) when ๐ก โฅ ๐ก 0 , ๐ 5 applies elementary facts that min โก { ๐ 1 โข ๐ , 1 } โค ๐ 1 โข ๐ and min โก { ๐ , ๐ + ๐ } โค min โก { ๐ , ๐ } + ๐ for any ๐
0 , ๐ 6 uses the fact that both ๐ 1 ( ๐ 1 + 1 ) โข ( ๐ 2 + 1 ) and ๐ 1 ( ๐ 1 + 1 ) โข ( ๐ 2 + 1 ) are less than 1 for positive ๐ 1 and ๐ 2 , and ๐ 7 applies the condition on the integral and uses the fact that both ๐ and ๐ ๐ โข ( ๐ก ) are positive. โ
The following lemma is implicit in prior works but we give a slightly more general statement; see e.g. Claim 5.13 of [DKK + 16].
Lemma 38.
Let ๐ and ๐ โฒ be two instance sets with | ๐ โฒ | โฅ ๐ผ โข | ๐ | for some ๐ผ โ ( 0 , 1 ] . Suppose that there exists ๐ก 0 > 0 such that Pr โก ( ๐ โข ( ๐ ) โฅ ๐ก 0 ) โค โ 1 โข ( ๐ก 0 ) , Pr โก ( ๐ โข ( ๐ โฒ ) โฅ ๐ก 0 ) > โ 2 โข ( ๐ก 0 ) , and โ 2 โข ( ๐ก 0 ) โฅ 3 ๐ผ โ โ 1 โข ( ๐ก 0 ) . Let ๐ โฒโฒ
๐ โฒ โฉ { ๐ฅ : ๐ โข ( ๐ฅ ) โฅ ๐ก 0 } . Then ฮ โข ( ๐ , ๐ โฒโฒ ) โ ฮ โข ( ๐ , ๐ โฒ ) โค โ โ 1 โข ( ๐ก 0 ) .
Proof.
Write ๐ธ :
๐
โฒ
๐
and
๐ฟ
:
๐
๐
โฒ
. Then
๐
โฒ
๐
โช
๐ธ
๐ฟ
. Likewise, write
๐ธ
โฒ
:
๐
โฒโฒ
๐
and
๐ฟ
โฒ
:
๐
๐
โฒโฒ
. Then
๐
โฒโฒ
๐
โช
๐ธ
โฒ
๐ฟ
โฒ
. Since
๐
โฒโฒ
โ
๐
โฒ
, we have
๐ธ
โฒ
โ
๐ธ
and
๐ฟ
โฒ
โ
๐ฟ
. It is not hard to see that
ฮ โข ( ๐ , ๐ โฒโฒ ) โ ฮ โข ( ๐ , ๐ โฒ )
| ๐ธ โฒ | + | ๐ฟ โฒ | | ๐ | โ | ๐ธ | + | ๐ฟ | | ๐ |
1
|
๐
|
โ
(
|
๐ฟ
โฒ
๐ฟ
|
โ
|
๐ธ
๐ธ
โฒ
|
)
.
(D.6)
Let ๐ :
{ ๐ฅ : ๐ ( ๐ฅ ) โฅ ๐ก 0 } . By our assumption, it follows that
| ๐ โฉ ๐ | โค โ 1 โข ( ๐ก 0 ) โ | ๐ | , | ๐ โฒ โฉ ๐ |
โ 2 โข ( ๐ก 0 ) โ | ๐ โฒ | .
By basic set operations, we have
๐ธ
๐ธ
โฒ
(
๐
โฒ
๐
)
โฉ
๐
(
๐
โฒ
โฉ
๐
)
๐
(
๐
โฒ
โฉ
๐
)
(
๐
โฉ
๐
)
. Thus,
|
๐ธ
๐ธ
โฒ
|
โฅ
|
๐
โฒ
โฉ
๐
|
โ
|
๐
โฉ
๐
|
โฅ
โ
2
โข
(
๐ก
0
)
โ
|
๐
โฒ
|
โ
โ
1
โข
(
๐ก
0
)
โข
|
๐
|
โฅ
(
๐ผ
โ
โ
2
โข
(
๐ก
0
)
โ
โ
1
โข
(
๐ก
0
)
)
โข
|
๐
|
.
(D.7)
On the other hand,
๐ฟ
โฒ
๐ฟ
( ๐ โฒ โฉ ๐ ) โฉ ๐ . Thus,
|
๐ฟ
โฒ
๐ฟ
|
โค
|
๐
โฉ
๐
|
โค
โ
1
โข
(
๐ก
0
)
โ
|
๐
|
.
(D.8)
Combining (D.7) and (D.8), and the condition of โ 2 โข ( ๐ก 0 ) โฅ 3 ๐ผ โ โ 1 โข ( ๐ก 0 ) , we have
|
๐ธ
๐ธ
โฒ
|
โฅ
2
โข
โ
1
โข
(
๐ก
0
)
โ
|
๐
|
โฅ
|
๐ฟ
โฒ
๐ฟ
|
+
โ
1
โข
(
๐ก
0
)
โ
|
๐
|
.
This combined with (D.6) completes the proof. โ
Appendix EPerformance Guarantees on the Output of Algorithm 1 E.1Proof of Theorem 17 Proof of Theorem 17.
We first show the following holds:
sup ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 | ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ ๐ โฒ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท โก [ ๐ * โข ( ๐ฅ ) โ ๐ 1 โข ( ๐ฅ ) ] | โค 64 ๐ 2 โข ๐ โข ( ๐ฝ ๐ + ๐ฝ ๐ ) + ๐ 2 .
(E.1)
To ease notation, write ๐ โฒ :
๐ ๐ โฒ , ๐ฟ
๐
๐
โฒ
,
๐ธ
๐
โฒ
๐
. Let
๐
1
be an arbitrary polynomial in
๐ซ
๐
,
๐
,
2
โข
๐
1
. As
๐
โฒ
๐
โช
๐ธ
๐ฟ
, it is easy to see that
| ๐ โฒ | โ | ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ โฒ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] โ ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] |
| ( | ๐ โฒ | โ | ๐ | ) โข ๐ผ ๐ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] + | ๐ฟ | โ ๐ผ ๐ฟ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] โ | ๐ธ | โ ๐ผ ๐ธ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] |
โค
| | ๐ โฒ | โ | ๐ | | โ | ๐ผ ๐ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] | + | ๐ฟ | โ | ๐ผ ๐ฟ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] | + | ๐ธ | โ | ๐ผ ๐ธ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] | .
Note that the CauchyโSchwarz inequality states that ๐ผ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] โค ๐ผ โก [ ๐ฆ 2 ] โ ๐ผ โก [ ๐ 1 2 โข ( ๐ฅ ) ]
๐ผ โก [ ๐ 1 2 โข ( ๐ฅ ) ] where the last step follows since ๐ฆ โ { โ 1 , 1 } . Therefore, continuing the above inequality, we have
| ๐ โฒ | โ | ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ โฒ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] โ ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] |
โค
| | ๐ โฒ | โ | ๐ | | โ ๐ผ โก [ ๐ 1 2 โข ( ๐ ) ] + | ๐ฟ | โ ๐ผ โก [ ๐ 1 2 โข ( ๐ฟ ) ] + | ๐ธ | โ ๐ผ โก [ ๐ 1 2 โข ( ๐ธ ) ]
โค
| | ๐ โฒ | โ | ๐ | | โ 1 + 2 โข ๐ฝ ๐ฟ ๐พ + ๐ + | ๐ฟ | โ | ๐ | โ ( 12 โข ๐ฝ ๐ + 4 โข ๐ + ๐ ) + 6 ๐ โข | ๐ธ | โ | ๐ โฒ | โข ( ๐ + ๐ฝ ๐ + ๐ฝ ๐ฟ ๐พ + ๐ + ๐ )
(E.2)
where in the last step we applied Lemma 40, Lemma 41, Lemma 42, and denoted ๐ฝ ๐ฟ ๐พ
๐ฝ โข ( 2 โข ๐ฟ ๐พ , ๐ , 2 ) and ๐ฝ ๐
๐ฝ โข ( ๐ , ๐ , 2 ) .
On the other hand, (A.2) implies
| | ๐ โฒ | โ | ๐ | | โค 2 โข ๐ 1 โ 2 โข ๐ โข | ๐ โฒ | โค ๐ ๐ โข | ๐ โฒ |
for ๐ โ [ 0 , 1 2 โ ๐ ] . We also have the following estimates: max โก { | ๐ธ | , | ๐ฟ | } โค ๐ โข | ๐ | โค ๐ 1 โ 2 โข ๐ โข | ๐ โฒ | โค ๐ 2 โข ๐ โข | ๐ โฒ | . Plugging these into (E.1), we have
| ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ โฒ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] โ ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] | โค 1 ๐ โข [ ๐ โข 1 + ๐ฝ ๐ฟ ๐พ + ๐ + 4 โข ๐ โข ( ๐ + ๐ฝ ๐ฟ ๐พ + ๐ฝ ๐ + ๐ + ๐ ) ] .
(E.3)
On the other hand, we note that in view of Part 4 of Definition 12, we have
| ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท โก [ ๐ * โข ( ๐ฅ ) โข ๐ 1 โข ( ๐ฅ ) ] |
| ๐ผ ๐ฅ โผ ๐ โก [ ๐ * โข ( ๐ฅ ) โข ๐ 1 โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท โก [ ๐ * โข ( ๐ฅ ) โข ๐ 1 โข ( ๐ฅ ) ] | โค ๐ผ 1 โฒ ,
(E.4)
where the first step follows from the condition that ๐ * โข ( โ ) is the underlying PTF and ๐ ยฏ is an uncorrupted sample set (which implies ๐ฆ
๐ * โข ( ๐ฅ ) for any ( ๐ฅ , ๐ฆ ) โ ๐ ยฏ ). By applying triangle inequality on (E.3) and (E.4), we have
| ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ โฒ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท โก [ ๐ * โข ( ๐ฅ ) โ ๐ 1 โข ( ๐ฅ ) ] | โค 4 ๐ โข [ ๐ โข 1 + ๐ฝ ๐ฟ ๐พ + ๐ + ๐ โข ( ๐ + ๐ฝ ๐ฟ ๐พ + ๐ฝ ๐ + ๐ + ๐ ) ] + ๐ผ 1 โฒ .
(E.5)
Now recall that ๐ผ 1 โฒ
๐ / 6 , ๐ฟ ๐พ is such that ๐ฝ ๐ฟ ๐พ โค ๐ฝ ๐ , ๐ โค ๐ฝ ๐ , and ๐ โค 14 ๐ 2 โข ( ๐ฝ ๐ + ๐ ) . Thus, by rearrangement, we have
| ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ โฒ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท โก [ ๐ * โข ( ๐ฅ ) โ ๐ 1 โข ( ๐ฅ ) ] |
โค
16 ๐ 2 โข [ ๐ โข 1 + ๐ฝ ๐ + ๐ + ๐ โข ( ๐ฝ ๐ + ๐ฝ ๐ + ๐ ) ] + ๐ 6
โค ๐ 1
32 ๐ 2 โข ๐ โข ( ๐ + ๐ โข ๐ฝ ๐ + ๐ โข ๐ + ๐ฝ ๐ + ๐ฝ ๐ + ๐ ) + ๐ 6
โค ๐ 2
64 ๐ 2 โข ๐ โข ( ๐ฝ ๐ + ๐ฝ ๐ ) + ๐ 6 ,
where in ๐ 1 we used the elementary inequality ๐ + ๐ โค 2 โข ๐ + ๐ , and in ๐ 2 we used the fact that ๐ โค ๐ฝ ๐ , ๐ โข ๐ < ๐ โค ๐ฝ ๐ . This proves (E.1) since the above holds for any ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 .
Now we note that for any ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 , it can be represented as ๐ 1 โข ( ๐ฅ )
โจ ๐ฃ , ๐ โข ( ๐ฅ ) โฉ with โฅ ๐ฃ โฅ 2
1 and โฅ ๐ฃ โฅ 0 โค 2 โข ๐ . In this way, we get
| ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ โฒ โก [ ๐ฆ โ ๐ 1 โข ( ๐ฅ ) ] โ ๐ผ ๐ฅ โผ ๐ท โก [ ๐ * โข ( ๐ฅ ) โ ๐ 1 โข ( ๐ฅ ) ] |
| ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ โฒ โก [ ๐ฆ โ โจ ๐ฃ , ๐ โข ( ๐ฅ ) โฉ ] โ ๐ผ ๐ฅ โผ ๐ท โก [ ๐ * โข ( ๐ฅ ) โ โจ ๐ฃ , ๐ โข ( ๐ฅ ) โฉ ] |
| โจ ๐ฃ , ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ โฒ โก [ ๐ฆ โ ๐ โข ( ๐ฅ ) ] โฉ โ โจ ๐ฃ , ๐ผ ๐ฅ โผ ๐ท โก [ ๐ * โข ( ๐ฅ ) โ ๐ โข ( ๐ฅ ) ] โฉ |
| โจ ๐ฃ , ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ โฒ โก [ ๐ฆ โ ๐ โข ( ๐ฅ ) ] โ ๐ ๐ * โฉ | .
Using Lemma 45 completes the proof. โ
E.2Proof of Theorem 18 Proof of Theorem 18.
Let ๐ ยฏ be the uncorrupted sample set with the same size as ๐ ยฏ โฒ . Observe that by Proposition 13, ๐ is a good set and ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ . We show by induction the progress of filtering, which will imply that within ๐ max phases, Algorithm 1 must terminate.
Suppose that the algorithm returns at some phase ๐ ยฏ โฅ 1 , i.e. โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น
๐ for all 1 โค ๐ < ๐ ยฏ . We show by induction that the two invariants hold: ฮ โข ( ๐ , ๐ ๐ โฒ ) โค 2 โข ๐ and ฮ โข ( ๐ , ๐ ๐ + 1 โฒ ) โค ฮ โข ( ๐ , ๐ ๐ โฒ ) โ ๐ 2 โข ๐ โข ๐พ 2 .
Base case: ๐
1 . Note that since ๐ is a good set, ๐ | ๐ ๐พ
๐ . Thus, no samples in ๐ are pruned in Step 5 of Algorithm 1. Therefore, we have ฮ โข ( ๐ , ๐ 1 โฒ ) โค ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ . In addition, we have โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น
๐ . Thus, Theorem 14 tells us that
ฮ โข ( ๐ , ๐ 2 โฒ ) โค ฮ โข ( ๐ , ๐ 1 โฒ ) โ ๐ 2 โข ๐ โข ๐พ 2 .
(E.6)
In particular, the above implies that ฮ โข ( ๐ , ๐ 2 โฒ ) โค 2 โข ๐ .
Induction. Now suppose that ฮ โข ( ๐ , ๐ ๐ โฒ ) โค 2 โข ๐ . Then applying Theorem 14 gives us
ฮ โข ( ๐ , ๐ ๐ + 1 โฒ ) โค ฮ โข ( ๐ , ๐ ๐ โฒ ) โ ๐ 2 โข ๐ โข ๐พ 2 ,
(E.7)
and in particular, ฮ โข ( ๐ , ๐ ๐ + 1 โฒ ) โค 2 โข ๐ .
Therefore, by telescoping, we obtain that
ฮ โข ( ๐ , ๐ ๐ ยฏ โฒ ) โค ฮ โข ( ๐ , ๐ 1 โฒ ) โ ( ๐ ยฏ โ 1 ) โ ๐ 2 โข ๐ โข ๐พ 2 โค 2 โข ๐ โ ( ๐ ยฏ โ 1 ) โ ๐ 2 โข ๐ โข ๐พ 2 .
(E.8)
On the other hand, the symmetric difference ฮ โข ( ๐ , ๐ ๐ ยฏ โฒ ) is always non-negative. This implies that
๐ ยฏ โค 4 โข ๐ โข ๐ โข ๐พ 2 ๐ + 1
4 โข ๐ โข ๐ ๐ โ ( ๐ถ 1 โข ๐ โ log โก ๐ โข ๐ ๐ โข ๐ฟ ) ๐ + 1 ,
(E.9)
where we realized the setting of ๐พ in the second step.
Now we characterize the output of the algorithm. In fact, by Theorem 17, we have
โฅ H ๐ โข ( ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ ๐ ยฏ โฒ โก [ ๐ฆ โ ๐ โข ( ๐ฅ ) ] ) โ ๐ ๐ * โฅ 2 โค 192 ๐ 2 โข ๐ โข ( ๐ฝ ๐ + ๐ฝ ๐ ) + ๐ 2 .
The proof is complete by noting that H ๐ โข ( ๐ผ ( ๐ฅ , ๐ฆ ) โผ ๐ ยฏ ๐ ยฏ โฒ โก [ ๐ฆ โ ๐ โข ( ๐ฅ ) ] ) is the output of the algorithm. โ
E.3Auxiliary results Lemma 39.
If โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โค ๐ , then
sup ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 ๐ผ โก [ ๐ 1 2 โข ( ๐ โฒ ) ] โค ๐ + 1 .
Proof.
For any ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 , we can write it as ๐ 1 โข ( ๐ฅ )
๐ฃ โ ๐ โข ( ๐ฅ ) where ๐ฃ is 2 โข ๐ -sparse and โฅ ๐ฃ โฅ 2
1 . Denote by ๐ฝ the support set of ๐ฃ . Then,
๐ผ โก [ ๐ 1 2 โข ( ๐ โฒ ) ]
๐ผ โก [ ๐ฃ โค โข ๐ โข ( ๐ โฒ ) โข ๐ โค โข ( ๐ โฒ ) โข ๐ฃ ]
๐ฃ โค โข ฮฃ ๐ฝ ร ๐ฝ โข ๐ฃ
๐ฃ โค โข ( ฮฃ โ ๐ผ ) ๐ฝ ร ๐ฝ โข ๐ฃ + ๐ฃ โค โข ๐ฃ โค โฅ ๐ฃ โข ๐ฃ โค โฅ ๐น โ โฅ ( ฮฃ โ ๐ผ ) ๐ฝ ร ๐ฝ โฅ ๐น + 1 .
Since โฅ ๐ฃ โฅ 0 โค 2 โข ๐ , we know that ๐ฝ ร ๐ฝ has 2 โข ๐ diagonal entries and 4 โข ๐ 2 โ 2 โข ๐ off-diagonal symmetric entries. This implies โฅ ( ฮฃ โ ๐ผ ) ๐ฝ ร ๐ฝ โฅ ๐น โค โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โค ๐ . Now using โฅ ๐ฃ โข ๐ฃ โค โฅ ๐น
โฅ ๐ฃ โฅ 2 2
1 completes the proof. โ
Lemma 40.
Assume that ๐ is a good set. We have
sup ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 | ๐ผ โก [ ๐ 1 2 โข ( ๐ ) ] โ 1 | โค 2 โ ๐ฝ โข ( 2 โข ๐ฟ ๐พ , ๐ , 2 ) + ๐ผ 1 โข ๐พ 1 2 .
In particular, as we set ๐ผ 1 โค ๐ ๐พ 1 2 , we have
sup ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 | ๐ผ โก [ ๐ 1 2 โข ( ๐ ) ] โ 1 | โค 2 โ ๐ฝ โข ( 2 โข ๐ฟ ๐พ , ๐ , 2 ) + ๐ .
Proof.
By Fact 20,
| ๐ผ โก [ ๐ 1 2 โข ( ๐ท ) ] โ ๐ผ โก [ ๐ 1 2 โข ( ๐ท | ๐ ๐พ ) ] |
| โซ 0 โ 2 โข ๐ก โข [ Pr โก ( | ๐ 1 โข ( ๐ท ) |
๐ก ) โ Pr โก ( | ๐ 1 โข ( ๐ท | ๐ ๐พ ) |
๐ก ) ] โข d โก ๐ก |
โค โซ 0 โ 2 ๐ก min { 2 ๐ฟ ๐พ , Pr ( | ๐ 1 ( ๐ท ) | โฅ ๐ก ) d ๐ก
โค 2 โข ๐ฝ โข ( 2 โข ๐ฟ ๐พ , ๐ , 2 ) ,
where the second step follows from Lemma 44 and the last step follows from Lemma 24.
On the other hand, by Part 3 of Definition 12, we have
| ๐ผ โก [ ๐ 1 2 โข ( ๐ | ๐ ๐พ ) ] โ ๐ผ โก [ ๐ 1 2 โข ( ๐ท | ๐ ๐พ ) ] |
|
โซ
0
โ
2
โข
๐ก
โข
[
Pr
โก
(
|
๐
1
โข
(
๐
|
๐
๐พ
)
|
>
๐ก
)
โ
Pr
โก
(
|
๐
1
โข
(
๐ท
|
๐
๐พ
)
|
>
๐ก
)
]
โข
d
โก
๐ก
|
โค
โซ
0
๐พ
1
2
โข
๐ก
โข
๐ผ
1
โข
d
โก
๐ก
๐ผ 1 โข ๐พ 1 2 ,
where the inequality follows since | ๐ 1 โข ( ๐ฅ ) | โค ๐พ 1 for all ๐ฅ โ ๐ ๐พ (Lemma 29). By triangle inequality, the fact that ๐ผ โก [ ๐ 1 2 โข ( ๐ท ) ]
1 (Lemma 29), and ๐ | ๐ ๐พ
๐ ( ๐ is a good set), we complete the proof. โ
Lemma 41.
Assume that ๐ is a good set and ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ . Let ๐ฟ
๐
๐
โฒ
. We have
sup ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 ( | ๐ฟ | / | ๐ | ) โ ๐ผ โก [ ๐ 1 2 โข ( ๐ฟ ) ] โค 12 โ ๐ฝ โข ( ๐ , ๐ , 2 ) + 4 โข ๐ + ๐ผ 1 โข ๐พ 1 2 .
In particular, as we set ๐ผ 1 โค ๐ ๐พ 1 2 , we have
sup ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 ( | ๐ฟ | / | ๐ | ) โ ๐ผ โก [ ๐ 1 2 โข ( ๐ฟ ) ] โค 12 โ ๐ฝ โข ( ๐ , ๐ , 2 ) + 4 โข ๐ + ๐ .
Proof.
We will use Lemma 43 to show the result. Since ๐ is a good set, we have ๐ | ๐ ๐พ
๐ . We have | ๐ฟ | โค 2 โข ๐ โข | ๐ |
| ๐ | ๐ ๐พ | since ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ . By Lemma 29 and Part 2
in that lemma, we set ๐ 0
๐ , ๐ 1
๐ฟ , ๐ 1
2 , ๐ 0
๐ . By Lemma 29, we set ๐ ๐ โข ( ๐ก )
๐ โ ( ๐ก / 2 ) 2 / ๐ / ๐ 0 , and ๐ก 0
2 . Lemma 29 tells that we can set ๐ 2
1 . In this way, by Corollary 25, we set ๐ฝ 0
๐ฝ โข ( ๐ , ๐ , 2 ) . By Lemma 29, we can set ๐พ 0
๐พ 1 . Therefore, we obtain the desired bound. โ
Lemma 42.
Assume that ๐ is a good set, ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ , and โฅ ( ฮฃ โ ๐ผ ) ๐ โฅ ๐น โค ๐ . We have
sup ๐ 1 โ ๐ซ ๐ , ๐ , 2 โข ๐ 1 | ๐ธ | โ ๐ผ โก [ ๐ 1 2 โข ( ๐ธ ) ] โค | ๐ โฒ | โ 6 ๐ โข ( ๐ + ๐ฝ โข ( ๐ , ๐ , 2 ) + ๐ฝ โข ( 2 โข ๐ฟ ๐พ , ๐ , 2 ) + ๐ + ๐ ) .
Proof.
Recall ๐ โฒ
๐
โช
๐ธ
๐ฟ
. By algebraic calculation, we have
| ๐ธ | โ ๐ผ โก [ ๐ 1 2 โข ( ๐ธ ) ]
| ๐ โฒ | โ ๐ผ โก [ ๐ 1 2 โข ( ๐ โฒ ) ] + | ๐ฟ | โ ๐ผ โก [ ๐ 1 2 โข ( ๐ฟ ) ] โ | ๐ | โ ๐ผ โก [ ๐ 1 2 โข ( ๐ ) ]
โค | ๐ โฒ | โ ( ๐ + 1 ) + | ๐ | โ ( 12 โข ๐ฝ โข ( ๐ , ๐ , 2 ) + 4 โข ๐ + ๐ ) โ | ๐ | โ ( 1 โ 2 โ ๐ฝ โข ( 2 โข ๐ฟ ๐พ , ๐ , 2 ) โ ๐ )
โค | ๐ โฒ | โ ๐ + 12 โข | ๐ | โข ( ๐ฝ โข ( ๐ , ๐ , 2 ) + ๐ฝ โข ( 2 โข ๐ฟ ๐พ , ๐ , 2 ) + ๐ + ๐ )
where we applied Lemma 39, Lemma 40 and Lemma 41 in the first inequality and the fact | ๐ โฒ | โค | ๐ | in the last step. Since ฮ โข ( ๐ , ๐ โฒ ) โค 2 โข ๐ , in view of (A.2), we have | ๐ | โค 1 1 โ 2 โข ๐ โข | ๐ โฒ | โค 1 2 โข ๐ โข | ๐ โฒ | . Rearranging gives the desired result. โ
The following lemma is similar to Lemma 37, but we upper bound the expectation of the square of a polynomial.
Lemma 43.
Let ๐ 0
0 be an absolute constant. Let ๐ 0 be a set of instances in โ ๐ and ๐ 1 โ ๐ 0 , with | ๐ 1 | โค ๐ 1 โข ๐ โข | ๐ 0 | for ๐ 1 , ๐
0 . Let ๐ be such that Pr โก ( | ๐ โข ( ๐ 0 ) |
๐ก ) โค ๐ 2 โ ๐ ๐ โข ( ๐ก ) + ๐ผ 0 for all ๐ก โฅ ๐ก 0 , where ๐ 2 , ๐ ๐ โข ( ๐ก ) , ๐ผ 0
0 . Assume max ๐ฅ โ ๐ 0 โก | ๐ โข ( ๐ฅ ) | โค ๐พ 0 . Further assume that โซ 0 โ ๐ก โข min โก { ๐ , ๐ ๐ โข ( ๐ก ) } โข d โก ๐ก โค ๐ฝ 0 . Then
( | ๐ 1 | / | ๐ 0 | ) โ ๐ผ โก [ ๐ 2 โข ( ๐ 1 ) ] โค ๐ 1 โข ๐ก 0 2 โ ๐ + 2 โข ( ๐ 1 + 1 ) โข ( ๐ 2 + 1 ) โข ๐ฝ 0 + ๐ผ 0 โข ๐พ 0 2 .
Proof.
Since ๐ 1 โ ๐ 0 , we have | ๐ 1 | โ Pr โก ( | ๐ โข ( ๐ 1 ) |
๐ก ) โค | ๐ 0 | โ Pr โก ( | ๐ โข ( ๐ 0 ) |
๐ก ) . Thus,
Pr โก ( | ๐ โข ( ๐ 1 ) |
๐ก ) โค min โก { 1 , | ๐ 0 | | ๐ 1 | โ Pr โก ( | ๐ โข ( ๐ 0 ) |
๐ก ) } .
(E.10)
By Fact 20, we have
(
|
๐
1
|
/
|
๐
0
|
)
โ
๐ผ
โก
[
๐
2
โข
(
๐
1
)
]
โค
โซ
0
โ
2
โข
๐ก
โข
(
|
๐
1
|
/
|
๐
0
|
)
โข
Pr
โก
(
|
๐
โข
(
๐
1
)
|
>
๐ก
)
โข
d
โก
๐ก
๐ 1 โซ 0 ๐พ 0 2 โข ๐ก โข ( | ๐ 1 | / | ๐ 0 | ) โข Pr โก ( | ๐ โข ( ๐ 1 ) |
๐ก ) โข d โก ๐ก
โค ๐ 2 โซ 0 ๐พ 0 2 โข ๐ก โข min โก { | ๐ 1 | / | ๐ 0 | , Pr โก ( | ๐ โข ( ๐ 0 ) |
๐ก ) } โข d โก ๐ก
โค ๐ 3 โซ 0 ๐พ 0 2 โข ๐ก โข min โก { ๐ 1 โข ๐ , Pr โก ( | ๐ โข ( ๐ 0 ) |
๐ก ) } โข d โก ๐ก
โค ๐ 4 โซ 0 ๐ก 0 2 โข ๐ก โข min โก { ๐ 1 โข ๐ , 1 } โข d โก ๐ก + โซ ๐ก 0 ๐พ 0 2 โข ๐ก โข min โก { ๐ 1 โข ๐ , ๐ 2 โ ๐ ๐ โข ( ๐ก ) + ๐ผ 0 } โข d โก ๐ก
โค ๐ 5 โซ 0 ๐ก 0 2 โข ๐ 1 โข ๐ โข ๐ก โข d โก ๐ก + โซ ๐ก 0 ๐พ 0 2 โข ๐ก โข min โก { ๐ 1 โข ๐ , ๐ 2 โ ๐ ๐ โข ( ๐ก ) } โข d โก ๐ก + โซ ๐ก 0 ๐พ 0 2 โข ๐ก โข ๐ผ 0 โข d โก ๐ก
โค ๐ 6 ๐ 1 โข ๐ก 0 2 โ ๐ + 2 โข ( ๐ 1 + 1 ) โข ( ๐ 2 + 1 ) โข โซ ๐ก 0 ๐พ 0 ๐ก โข min โก { ๐ , ๐ ๐ โข ( ๐ก ) } โข d โก ๐ก + ๐ผ 0 โข ( ๐พ 0 2 โ ๐ก 0 2 )
โค ๐ 7 ๐ 1 โข ๐ก 0 2 โ ๐ + 2 โข ( ๐ 1 + 1 ) โข ( ๐ 2 + 1 ) โข ๐ฝ 0 + ๐ผ 0 โข ๐พ 0 2 .
In the above, ๐ 1 follows from the condition that ๐ โข ( ๐ฅ ) โค ๐พ 0 for all ๐ฅ โ ๐ 1 , ๐ 2 follows from (E.10), ๐ 3 uses the condition | ๐ 1 | โค ๐ 1 โข ๐ โข | ๐ 0 | , ๐ 4 uses the condition of the tail bound of ๐ โข ( ๐ 0 ) when ๐ก โฅ ๐ก 0 , ๐ 5 applies elementary facts that min โก { ๐ 1 โข ๐ , 1 } โค ๐ 1 โข ๐ and min โก { ๐ , ๐ + ๐ } โค min โก { ๐ , ๐ } + ๐ for any ๐
0 , ๐ 6 uses the fact that both ๐ 1 ( ๐ 1 + 1 ) โข ( ๐ 2 + 1 ) and ๐ 1 ( ๐ 1 + 1 ) โข ( ๐ 2 + 1 ) are less than 1 for positive ๐ 1 and ๐ 2 , and ๐ 7 applies the condition on the integral and uses the fact that both ๐ and ๐ ๐ โข ( ๐ก ) are positive. โ
Lemma 44.
Suppose ๐ฟ ๐พ โค 1 / 2 . The following holds for any function ๐ :
| Pr โก ( | ๐ โข ( ๐ท | ๐ ๐พ ) | โฅ ๐ก ) โ Pr โก ( | ๐ โข ( ๐ท ) | โฅ ๐ก ) | โค min โก { 2 โข ๐ฟ ๐พ , Pr โก ( | ๐ โข ( ๐ท ) | โฅ ๐ก ) } .
Proof.
Lemma 11 tells that Pr ๐ฅ โผ ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โค ๐ฟ ๐พ . Observe that
Pr โก ( | ๐ โข ( ๐ท | ๐ ๐พ ) | โฅ ๐ก ) โค Pr โก ( | ๐ โข ( ๐ท ) | โฅ ๐ก ) Pr ๐ฅ โผ ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โค 1 1 โ ๐ฟ ๐พ โข Pr โก ( | ๐ โข ( ๐ท ) | โฅ ๐ก ) โค 2 โข Pr โก ( | ๐ โข ( ๐ท ) | โฅ ๐ก ) ,
implying
| Pr โก ( | ๐ โข ( ๐ท | ๐ ๐พ ) | โฅ ๐ก ) โ Pr โก ( | ๐ โข ( ๐ท ) | โฅ ๐ก ) | โค Pr โก ( | ๐ โข ( ๐ท ) | โฅ ๐ก ) .
(E.11)
On the other hand, for any event ๐ด ,
Pr ๐ท โก ( ๐ด )
Pr ๐ท โก ( ๐ด โฃ ๐ฅ โ ๐ ๐พ ) โ Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) + Pr ๐ท โก ( ๐ด โฃ ๐ฅ โ ๐ ๐พ ) โ Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) .
This implies
| Pr ๐ท โก ( ๐ด ) โ Pr ๐ท โก ( ๐ด โฃ ๐ฅ โ ๐ ๐พ ) |
| Pr ๐ท โก ( ๐ด โฃ ๐ฅ โ ๐ ๐พ ) โ ( Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) โ 1 ) + Pr ๐ท โก ( ๐ด โฃ ๐ฅ โ ๐ ๐พ ) โ Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) |
| โ Pr ๐ท โก ( ๐ด โฃ ๐ฅ โ ๐ ๐พ ) โ Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) + Pr ๐ท โก ( ๐ด โฃ ๐ฅ โ ๐ ๐พ ) โ Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ ) |
โค
2 โข Pr ๐ท โก ( ๐ฅ โ ๐ ๐พ )
โค
2 โข ๐ฟ ๐พ .
This completes the proof. โ
Lemma 45.
For any vector ๐ค and any ๐ -sparse vector ๐ข , if sup ๐ฃ : โฅ ๐ฃ โฅ 2
1 , โฅ ๐ฃ โฅ 0 โค 2 โข ๐ | โจ ๐ฃ , ๐ค โ ๐ข โฉ | โค ๐ , then โฅ H ๐ โข ( ๐ค ) โ ๐ข โฅ 2 โค 3 โข ๐ .
Proof.
Let ฮ 0 be the support set of H ๐ โข ( ๐ค ) , ฮ 1
supp
โก
(
๐ข
)
ฮ
0
,
ฮ
2
supp โก ( ๐ข ) โฉ ฮ 0 , ฮ 3
ฮ
0
supp
โก
(
๐ข
)
. Therefore, we can decompose
โฅ H ๐ โข ( ๐ค ) โ ๐ข โฅ 2 2
โฅ ๐ข ฮ 1 โฅ 2 2 + โฅ ( ๐ค โ ๐ข ) ฮ 2 โฅ 2 2 + โฅ ๐ค ฮ 3 โฅ 2 2 .
(E.12)
Note that by choosing ๐ฃ
( ๐ค โ ๐ข ) ฮ 2 โช ฮ 3 / โฅ ( ๐ค โ ๐ข ) ฮ 2 โช ฮ 3 โฅ 2 , we get
โฅ ( ๐ค โ ๐ข ) ฮ 2 โฅ 2 2 + โฅ ๐ค ฮ 3 โฅ 2 2 โค ๐ 2 .
(E.13)
On the other side, observe that
โฅ ๐ข ฮ 1 โฅ 2 โค โฅ ( ๐ข โ ๐ค ) ฮ 1 โฅ 2 + โฅ ๐ค ฮ 1 โฅ 2
(E.14)
by triangle inequality. Since ฮ 3 is a subset of ฮ 0 , the index set of the ๐ largest elements of ๐ค , while ฮ 1 โฉ ฮ 0
โ , we know that elements of ๐ค in ฮ 1 are less than those in ฮ 3 . This combined with the fact that | ฮ 1 |
| ฮ 3 | implies that
โฅ ๐ค ฮ 1 โฅ 2 โค โฅ ๐ค ฮ 3 โฅ 2 โค ๐ .
(E.15)
where the second step follows from (E.13). In order to upper bound โฅ ( ๐ข โ ๐ค ) ฮ 1 โฅ 2 , we can pick ๐ฃ
( ๐ข โ ๐ค ) ฮ 1 / โฅ ( ๐ข โ ๐ค ) ฮ 1 โฅ 2 and get
โฅ ( ๐ข โ ๐ค ) ฮ 1 โฅ 2 โค ๐ .
(E.16)
Plugging (E.15) and (E.16) into (E.14) gives
โฅ ๐ข ฮ 1 โฅ 2 โค 2 โข ๐ .
This in conjunction with (E.13) and (E.12) gives โฅ H ๐ โข ( ๐ค ) โ ๐ข โฅ 2 โค 5 โข ๐ โค 3 โข ๐ . โ
Appendix FProof of Theorem 19 Proof.
The sample complexity and the first equation are an immediate result from Theorem 18 and Lemma 46. The second equation follows from algebraic calculation. โ
Lemma 46 ([DKS18a]).
Suppose ๐ท is ๐ฉ โข ( 0 , ๐ผ ๐ ร ๐ ) . There is an algorithm that takes as input a vector ๐ข โ โ ( ๐ + 1 ) ๐ with โฅ ๐ข โ ๐ ๐ * โฅ 2 โค ๐ , runs in time ๐ โข ( ๐ ๐ / ๐ 2 ) and outputs a degree- ๐ PTF ๐ ^ such that
Pr ๐ฅ โผ ๐ท โก ( ๐ ^ โข ( ๐ฅ ) โ ๐ * โข ( ๐ฅ ) ) โค ๐ 1 โ ๐ โ ๐ 1 ๐ + 1 ,
for some absolute constant ๐ 1
0 .
Proof.
The result is a combination of Theorem 10 of [DDFS14], Lemma 3.4 and Lemma 3.5 of [DKS18a]. The only difference is that when applying Theorem 10 of [DDFS14] to our setup, we can compute Chow vectors of a given function exactly since ๐ท is known to be Gaussian; thus no additional samples are needed and the running time is slightly better than their original analysis. See Lemma 47 for clarification. โ
We reproduce the proof of Theorem 10 of [DDFS14] but tailored to our case that ๐ท is Gaussian, and thus there is no need to acquire additional samples.
Lemma 47.
Let ๐ be a degree- ๐ PTF on โ ๐ . There is an algorithm that takes as input a vector ๐ฃ with โฅ ๐ฃ โ ๐ ๐ โฅ 2 โค ๐ , and outputs a polynomial bounded function ๐ : โ ๐ โ [ โ 1 , 1 ] such that โฅ ๐ ๐ โ ๐ ๐ โฅ 2 โค 4 โข ๐ . In addition, the algorithm runs in ๐ โข ( ๐ ๐ / ๐ 2 ) time.
Proof.
We will iteratively construct a sequence of functions { ๐ ๐ก } โ ๐ซ ๐ , ๐ . Let ๐ 0 โฒ
0 and ๐ 0
๐ 1 โข ( ๐ 0 โฒ ) , where ๐ 1 โข ( ๐ )
sign โก ( ๐ ) if | ๐ | โฅ 1 and ๐ 1 โข ( ๐ )
๐ otherwise. Given ๐ ๐ก , we compute ๐ ๐ ๐ก . Let
๐ :
โฅ ๐ฃ โ ๐ ๐ ๐ก โฅ 2 .
(F.1) Case 1. ๐ โค 3 โข ๐ .
Then
โฅ ๐ ๐ ๐ก โ ๐ ๐ โฅ 2 โค โฅ ๐ ๐ ๐ก โ ๐ฃ โฅ 2 + โฅ ๐ฃ โ ๐ ๐ โฅ 2
โฅ ๐ ๐ ๐ก โ ๐ฃ โฅ 2 + โฅ ๐ฃ โ ๐ ๐ โฅ 2 โค 4 โข ๐ .
Thus we output ๐ ๐ก .
Case 2. ๐
3 โข ๐ .
Define
โ ๐ก โฒ โข ( ๐ฅ )
( ๐ฃ โ ๐ ๐ ๐ก ) โ ๐ โข ( ๐ฅ ) , ๐ ๐ก + 1 โฒ
๐ ๐ก โฒ + 1 2 โข โ ๐ก โฒ , ๐ ๐ก + 1
๐ 1 โข ( ๐ ๐ก + 1 โฒ ) .
(F.2)
Consider the following potential function:
๐ธ โข ( ๐ก )
๐ผ โก [ ( ๐ โ ๐ ๐ก ) โข ( ๐ โ 2 โข ๐ ๐ก โฒ + ๐ ๐ก ) ] .
(F.3)
The proof of Theorem 10 of [DDFS14] implies the following two claims:
Claim 48.
๐ผ โก [ ( ๐ โ ๐ ๐ก ) โข โ ๐ก โฒ ] โฅ ๐ โข ( ๐ โ ๐ ) .
Claim 49.
Given any ๐ ๐ก โฒ and โ ๐ก โฒ , let ๐ ๐ก
๐ 1 โข ( ๐ ๐ก โฒ ) , ๐ ๐ก + 1 โฒ
๐ ๐ก โฒ + 1 2 โข โ ๐ก โฒ , ๐ ๐ก + 1
๐ 1 โข ( ๐ ๐ก + 1 โฒ ) . Then ๐ผ โก [ ( ๐ ๐ก + 1 โ ๐ ๐ก ) โข ( 2 โข ๐ ๐ก + 1 โฒ โ ๐ ๐ก โ ๐ ๐ก + 1 ) ] โค 1 2 โข ๐ผ โก [ ( โ ๐ก โฒ ) 2 ] .
Observe that by our definition of โ ๐ก โฒ , we have
๐ผ โก [ ( โ ๐ก โฒ ) 2 ]
โฅ ๐ฃ โ ๐ ๐ ๐ก โฅ 2 2
๐ 2 .
(F.4)
Therefore, the progress of ๐ธ โข ( ๐ก ) can be bounded as follows:
๐ธ โข ( ๐ก + 1 ) โ ๐ธ โข ( ๐ก )
โ ๐ผ โก [ ( ๐ โ ๐ ๐ก ) โข โ ๐ก โฒ ] + ๐ผ โก [ ( ๐ ๐ก + 1 โ ๐ ๐ก ) โข ( 2 โข ๐ ๐ก + 1 โฒ โ ๐ ๐ก โ ๐ ๐ก + 1 ) ]
โค โ ๐ โข ( ๐ โ ๐ ) + 1 2 โข ๐ 2
โค โ ๐ 2 .
In addition, we have ๐ธ โข ( ๐ก ) โฅ 0 and ๐ธ โข ( 0 )
1 . These together imply that the algorithm terminates in at most 1 ๐ 2 iterations. It is easy to see that the computational cost in each iteration is dominated by the construction of โ ๐ก โฒ โข ( โ ) , which is ๐ โข ( ๐ ๐ ) . Thus, the overall running time is ๐ โข ( ๐ ๐ / ๐ 2 ) . โ
Generated by L A T E xml Instructions for reporting errors
We are continuing to improve HTML versions of papers, and your feedback helps enhance accessibility and mobile support. To report errors in the HTML that will help us improve conversion and rendering, choose any of the methods listed below:
Click the "Report Issue" button. Open a report feedback form via keyboard, use "Ctrl + ?". Make a text selection and click the "Report Issue for Selection" button near your cursor. You can use Alt+Y to toggle on and Alt+Shift+Y to toggle off accessible reporting links at each section.
Our team has already identified the following issues. We appreciate your time reviewing and reporting rendering errors we may not have found yet. Your efforts will help us improve the HTML versions for all readers, because disability should not be a barrier to accessing research. Thank you for your continued support in championing open access for all.
Have a free development cycle? Help support accessibility at arXiv! Our collaborators at LaTeXML maintain a list of packages that need conversion, and welcome developer contributions.
Report Issue Report Issue for Selection
Xet Storage Details
- Size:
- 140 kB
- Xet hash:
- f294ac387e6f714093dc57b18844fcd42d46d22bb647fa75b88d590dcc0da5f3
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.