No artigo (de Machine Learning) de Sébastien Bubeck e Mark Sellke A Universal Law of Robustnesss via Isoperimetry é utilizada a desigualdade de Hoeffding, [Hoeffding, Wassily (1963)] na demonstração do teorema principal. Esta desigualdade probabilística apresenta o seguinte enunciado, em tradução do original
Desigualdade de Hoeffding [Hoeffding, Wassily (1963) Theorem 2]: Se forem variáveis aleatórias independentes e
,
, então, para
:
Notação: e
, em que a soma
e
é a esperança matemática de
.
Embora a demonstração deste teorema não faça referência explícita à desigualdade de Markov, no caso particular do exercício que apresento a seguir, vou usá-la para facilitar a sua demonstração, à semelhança do que é feito neste vídeo de MIT RES.6-012 Introduction to Probability. No exercício, à excepção da utilização da desigualdade de Markov, sigo, para mais fácil generalização, os passos da demonstração do teorema original adaptada ao caso apresentado.
Desigualdade de Markov: se for uma variável aleatória positiva ou nula cuja esperança matemática se designa por
e
uma constante positiva, então
Exercício (caso particular da desigualdade de Hoeffding): Sejam ,
,
,
variáveis aleatórias independentes que tomam, com igual probabilidade, os valores
e
Designando a média das variáveis aleatórias por , em que
é a sua soma, e fazendo uso da desigualdade de Markov, determine o seguinte majorante da probabilidade da média ser pelo menos
Resolução: Se substituirmos em
, obtemos a probabilidade equivalente
Seja, agora, uma constante positiva arbitrária. Como a condição
é equivalente a
, podemos escrever
Para majorar esta última probabilidade usamos a desigualdade de Markov,
que aplicada a este caso se traduz em
Substituindo o valor de , tem-se
Dado que a função exponencial é convexa, o seu gráfico é limitado superiormente, no intervalo
, pela recta que une os pontos
e
, cuja equação é dada por
Assim,
pelo que satisfaz a condição
atendendo a que , pois a distribuição de cada
é simétrica.

De e
resulta então
Para facilitar o resto do cálculo, vamos agora reescrever :
em que o expoente . As duas primeiras derivadas de
são

A segunda derivada admite a seguinte factorização
isto é, em que
, uma vez que
. Ora, o máximo de
ocorre quando
, donde
. Pelo desenvolvimento em série de Taylor, dado que
, vem
No gráfico anterior mostram-se os andamentos de ,
e
. De
e
, resulta que
, e de
,
Designe-se o expoente de por
. Visto que
e
, o segundo membro de
tem o mínimo em
. Finalmente, inserindo este valor em
, obtemos o majorante
de
indicado em
, o que demonstra a desigualdade de Hoeffding, neste caso específico.
Apresentam-se dois exemplos gráficos para os casos e
.

[Hoeffding, Wassily (1963)] Probability inequalities for sums of bounded random variables (PDF). Journal of the American Statistical Association. 58 (301): 13–30. Acessível via Wikipedia