Intervalos de Confiança I
Em algumas situações, desejamos criar um intervalo pequeno tal que seja bastante plausível que o parâmetro esteja dentro dele. A seguir, veremos formalmente como operacionalizar este objetivo. Estaremos interessados em construir um intervalo de confiança para \(\mu\).
O primeiro passo consiste em observar que um intervalo é constituído por um limite inferior, \(l_1(X)\), e um limite superior \(l_2(X)\). Assim, construir o intervalos consiste em escolher \(l_1(X)\) e \(l_2(X)\) baseados na amostra. Para cumprir nossos objetivos, gostaríamos que \(l2(X)-l_1(X)\) fosse pequeno, ou seja, o comprimento do intervalo fosse pequeno e, antes de a amostra ser observada, \(P(l_1(X) < \mu < l_2(X))\) seja grande. Em particular, fixaremos um \(\alpha\) pequeno e construíremos o intervalo de tal forma que \(P(l_1(X) < \mu < l_2(X)) = 1-\alpha\). Após obtida a amostra, dizemos que \([l_1(x),l_2(x)]\) é um intervalo de confiança \(1-\alpha\) para \(\mu\).
A seguir, veremos alguns exemplos de intervalo de confiança.
Normal com variância conhecida
Considere que \(X_{1},\ldots,X_{n}\) são observações independentes e tais que \(X_{i} \sim N(\mu,\sigma_0^2)\), onde \(\sigma_0^2\) é o desvio padrão conhecido das observações. Gostaríamos de utilizar estas observações para determinar \(l_1(X)\) e \(l_2(X)\) de tal forma que
\[ P(l_1(X) \leq \mu \leq l_2(X)) = 1-\alpha \] Para tal, note que \(\bar{X} \sim N\left(\mu,\frac{\sigma_0^2}{n}\right)\) e, portanto, decorre da padronização da distribuição normal que \[ \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0} = \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma_0^2}{n}}} \sim N(0,1) \] Como \(Z = \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0}\) tem distribuição normal padrão, podemos determinar \(c_1\) e \(c_2\) de tal forma que \(P(Z < c_1) = 0.5\alpha\) e \(P(Z > c_2)=0.5\alpha\). Neste caso, temos que:
\[P\left(c_1 < \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma_0^2}{n}}} < c_2\right) = 1-\alpha\]
No R, o comando qnorm(\(\alpha\)) determina o valor \(z\), tal que \(P(Z < z) = \alpha\). Assim, as constantes \(c_1\) e \(c_2\) podem ser obtidas no R por meio do comando qnorm: \[ \begin{align*} P\left(qnorm(0.5\alpha) \leq \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0} \leq qnorm(1-0.5\alpha)\right) &= 1-\alpha \\ P\left(\frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha) \leq (\bar{X}-\mu) \leq \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha)\right) &= 1 - \alpha \\ P\left(\bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha) \leq \mu \leq \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha) \right) &= 1 - \alpha \end{align*} \] Portanto, se tomarmos \(l_1(X) = \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha)\) e \(l_2(X) = \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha)\), então \([l_1(X),l_2(X)]\) é um intervalo de confiança \(1-\alpha\) para \(\mu\).
Aplicação numérica
Considere que \(X_{1},\ldots,X_{9}\) são independentes e \(X_i \sim N(\mu,1)\), Considere que observamos que \(\bar{X} = 8\) e desejamos construir um intervalo de confiança \(95\%\) para \(\mu\). Neste caso, temos que \(\alpha = 0.05\), assim podemos obter as quantidades apropriadas da distribuição normal e o intervalo de confiança para \(\mu\) da seguinte forma.
n = 9
media = 8
alpha = 0.05
sigma = 1
print(qnorm(1-0.5*alpha))
## [1] 1.959964
l_1 = media - sigma/sqrt(n) * qnorm(1-0.5*alpha)
l_2 = media - sigma/sqrt(n) * qnorm(0.5*alpha)
c(l_1, l_2)
## [1] 7.346679 8.653321
Isto é, \([7.34, 8.65]\) é um intervalo de confiança \(95\%\) para \(\mu\).
Interpretação
Intervalos de confiança são interpretados incorretamente com frequência. Por exemplo, considere que, antes que a amostra seja observada temos \(P(l_1(X) < \mu < l_2(X)) = 95\%\), e com base na amostra calculamos \(l_1(x) = 0.5\) e \(l_2(x)=0.7\). Dizemos que \([0.5, 0.7]\) tem confiança 95% para \(\mu\). Também é comum que se interprete que, com probabilidade 95%, \(\mu\) está em \([0.5,0.7]\). Contudo, está interpretação está errada!
Note que a probabilidade de 95% no exemplo é calculada antes de a amostra ter sido coletada. Em outras palavras, podemos interpretar que, se gerarmos vários bancos de dados independentes da mesma população, então \(\mu\) pertencerá a cerca de 95% dos intervalos gerados por meio destes bancos de dados. Contudo, após um particular banco de dados ser coletado, ou \(\mu\) está dentro do intervalo calculado ou não está. A confiança de um particular intervalo gerado não é a probabilidade de que o parâmetro pertença a ele.
Estudo de simulação
Podemos utilizar um estudo de simulação para afiar nossa intuição sobre esta interpretação. A vantagem de um estudo de simulação é que ele é uma dos raros casos em que sabemos quais são os parâmetros populacionais que geram a amostra. Assim, podemos verificar empiricamente se nossos métodos estão funcionando adequadamente. Neste exemplo, geraremos uma amostra em que \(\mu = 10\), \(\sigma = 1\) e fixaremos \(\alpha=0.05\).
mu = 10
sigma = 1
n = 36
alpha = 0.05
x = rnorm(n, mu, sigma)
Para gerar um intervalo de confiança, podemos usar o código abaixo:
ic = function(x, alpha)
{
l = mean(x) - qnorm(1-alpha/2)*sigma/sqrt(n)
u = mean(x) - qnorm(alpha/2)*sigma/sqrt(n)
c(l, u)
}
Suscintamente, a função ic nos retorna dois valores: o limite inferior e o limite superior do intervalo de confiança. Usando estes esclarecimentos, a função ic nos retorna exatamente o intervalo de confiança que vimos em aula. Para esta simulação, temos o intervalo:
library(tidyverse)
ic_obs = ic(x, alpha)
ic_obs %>% round(2)
## [1] 9.92 10.58
Como neste estudo de simulação sabemos que \(\mu = 10\), podemos verificar empiricamente se, para esta amostra, \(\mu\) pertence ao intervalo de confiança. Isto é, se \(\mu\) é inferior ao limite superior do intervalo e superior ao limite inferior do intervalo.
(mu <= ic_obs[2]) && (mu >= ic_obs[1])
## [1] TRUE
É por isso que neste curso que dizemos que, após a amostra ser observada, é falso que a probabilidade de o intervalo obtido conter o parâmetro é \(1-\alpha\). De fato, após a amostra ser observada, podemos a princípio verificar se \(\mu\) está ou não no intervalo, então a probabilidade é \(0\) ou \(1\). A única dificuldade prática é que, fora de um estudo de simulação, raramente sabemos o valor de \(\mu\). Então não é possível realizar diretamente essa verificação.
Então o que significa termos confiança de \(1-\alpha\) sobre o intervalo? Como vimos, esta garantia deve ser interpretada realizando um experimento mental em que coletamos os mesmos dados inúmeras vezes e independentemente. Se para conjunto de dados coletado construirmos um intervalo de confiança, \(1-\alpha\) destes intervalos vão conter o valor de \(\mu\).
Como estamos realizando um estudo de simulação, podemos concretizar este experimento mental:
B = 10^5
sucesso = rep(NA, B)
for(ii in 1:B)
{
x = rnorm(n, mu, sigma)
ic_obs = ic(x , alpha)
sucesso[ii] = (mu <= ic_obs[2]) && (mu >= ic_obs[1])
}
mean(sucesso) %>% round(2)
## [1] 0.95
Neste código, coletamos \(100.000\) vezes uma amostra de \(36\) observações e, para cada amostra obtida, calculamos o intervalo de confiança. Ao final do código, observamos que aproximadamente \(95\%\) dos intervalos contém o valor de \(\mu\). Isto é, a confiança de um IC é um critério de replicabilidade e não uma garantia sobre o intervalo construído para uma particular amostra observada.
Exercícios
Defina e interprete intervalo de confiança em suas próprias palavras.
Um experimentalista experiente realizou \(9\) medições da largura de um objeto usando um paquímetro. A média destas observações foi de \(1.2 mm\). O desvio padrão do experimentalista com o paquímetro é de \(0.2 mm\). Usando estas informações, construa intervalo com confiança 90%, 95% e 99% para a largura do objeto.
No exemplo da normal com variância conhecida, obtemos que o comprimento do intervalo de confiança é \(\frac{2\sigma_0 qnorm(1-0.5\alpha)}{\sqrt{n}}\). Isto ocorre pois \(qnorm(0.5\alpha)=1-qnorm(1-0.5\alpha)\). Interprete \(\sigma_0\), \(\alpha\) e \(n\) e como estas quantidades inluenciam no tamanho do intervalo de confiança.
O caso da normal com variância populacional conhecida é um caso especial do caso da normal com variância populacional desconhecida. Em particular, o intervalo de confiança obtido para a variância populacional desconhecida é válido mesmo quando ela é conhecida. Apesar disso, é indesejável usar este intervalo neste caso. Por quê?
Obtenha a linha de raciocínio completa para obter o intervalo de confiança no caso da normal com variância desconhecida.