Parâmetros e Intervalos de Confiança
Inferência estatística e parâmetros
A inferência estatística consiste em fazer afirmações sobre características de uma população a partir de amostras desta. A partir deste ponto, estudaremos diversos métodos de inferência estatística.
Para que seja possível fazer inferência estatística, a probabilidade descreve como a amostra se relaciona com a população. Por exemplo, podemos considerar \(10\) medições de um objeto com \(15\) cm de comprimento usando uma régua cujo desvio padrão é \(0.5\) cm. Neste caso, podemos denotar as \(10\) observações por \(X_{1},\ldots,X_{10}\). Antes de realizá-las, é razoável supor que sejam independentes e tais que \(X_{i} \sim N(15, 0.25)\). A distribuição \(N(15, 0.25)\) indica o comportamento de uma hipotética população de infinitas medições do objeto. Quando dizemos que \(X_{i} \sim N(15, 0.25)\), indicamos que a \(i\)-ésima observação é um membro desta população.
Contudo, ao contrário do exemplo acima, em geral não sabemos descrever perfeitamente a população que temos interesse. Por exemplo, se estamos medindo um objeto, em geral não sabemos qual é o seu comprimento. Assim, se \(X_{i}\) é uma observação do objeto usando uma régua cujo desvio padrão é \(0.5\) cm, gostaríamos de dizer que \(X_i\) segue uma distribuição normal com desvio padrão de \(0.5\) cm e média igual ao comprimento do objeto. Contudo, como o comprimento do objeto é desconhecido, não é possível fazer diretamente esta afirmação.
Para solucionar este problema, utilizamos parâmetros. Um parâmetro é uma quantidade desconhecida da população. Por exemplo, no parágrafo anterior, o comprimento do objeto medido seria um parâmetro, que poderíamos denotar por \(\mu\). Assim, as \(10\) observações usando a régua, \(X_{1}, \ldots, X_{10}\) seriam tais que \(X_{i} \sim N(\mu, 0.5)\).
Intervalos de Confiança
Em algumas situações, desejamos criar um intervalo pequeno tal que seja bastante plausível que o parâmetro esteja dentro dele. A seguir, veremos formalmente como operacionalizar este objetivo. Estaremos interessados em construir um intervalo de confiança para \(\mu\).
O primeiro passo consiste em observar que um intervalo é constituído por um limite inferior, \(l_1(X)\), e um limite superior \(l_2(X)\). Assim, construir o intervalos consiste em escolher \(l_1(X)\) e \(l_2(X)\) baseados na amostra. Para cumprir nossos objetivos, gostaríamos que \(l2(X)-l_1(X)\) fosse pequeno, ou seja, o comprimento do intervalo fosse pequeno e, antes de a amostra ser observada, \(P(l_1(X) < \mu < l_2(X))\) seja grande. Em particular, fixaremos um \(\alpha\) pequeno e construíremos o intervalo de tal forma que \(P(l_1(X) < \mu < l_2(X)) = 1-\alpha\). Após obtida a amostra, dizemos que \([l_1(x),l_2(x)]\) é um intervalo de confiança \(1-\alpha\) para \(\mu\).
A seguir, veremos alguns exemplos de intervalo de confiança.
Normal com variância conhecida
Considere que \(X_{1},\ldots,X_{n}\) são observações independentes e tais que \(X_{i} \sim N(\mu,\sigma_0^2)\), onde \(\sigma_0^2\) é o desvio padrão conhecido das observações. Gostaríamos de utilizar estas observações para determinar \(l_1(X)\) e \(l_2(X)\) de tal forma que
\[ P(l_1(X) \leq \mu \leq l_2(X)) = 1-\alpha \] Para tal, note que \(\bar{X} \sim N\left(\mu,\frac{\sigma_0^2}{n}\right)\) e, portanto, decorre da padronização da distribuição normal que \[ \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0} = \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma_0^2}{n}}} \sim N(0,1) \] Como \(Z = \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0}\) tem distribuição normal padrão, podemos determinar \(c_1\) e \(c_2\) de tal forma que \(P(Z < c_1) = 0.5\alpha\) e \(P(Z > c_2)=0.5\alpha\). No R, o comando qnorm(\(\alpha\)) determina o valor \(z\), tal que \(P(Z < z) = \alpha\). Assim, as constantes \(c_1\) e \(c_2\) podem ser obtidas no R por meio dos comandos qnorm(\(0.5\alpha\)) e qnorm(\(1-0.5\alpha\)). Concluímos que \[ \begin{align*} P\left(qnorm(0.5\alpha) \leq \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0} \leq qnorm(1-0.5\alpha)\right) &= 1-\alpha \\ P\left(\frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha) \leq (\bar{X}-\mu) \leq \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha)\right) &= 1 - \alpha \\ P\left(\bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha) \leq \mu \leq \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha) \right) &= 1 - \alpha \end{align*} \] Portanto, se tomarmos \(l_1(X) = \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha)\) e \(l_2(X) = \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha)\), então \([l_1(X),l_2(X)]\) é um intervalo de confiança \(1-\alpha\) para \(\mu\).
Aplicação numérica
Considere que \(X_{1},\ldots,X_{9}\) são independentes e \(X_i \sim N(\mu,1)\), Considere que observamos que \(\bar{X} = 8\) e desejamos construir um intervalo de confiança \(95\%\) para \(\mu\). Neste caso, temos que \(\alpha = 0.05\), assim podemos obter as quantidades apropriadas da distribuição normal e o intervalo de confiança para \(\mu\) da seguinte forma.
n = 9
media = 8
alpha = 0.05
sigma = 1
print(qnorm(1-0.5*alpha))
## [1] 1.959964
l_1 = media - sigma/sqrt(n) * qnorm(1-0.5*alpha)
print(l_1)
## [1] 7.346679
print(qnorm(0.5*alpha))
## [1] -1.959964
l_2 = media - sigma/sqrt(n) * qnorm(0.5*alpha)
print(l_2)
## [1] 8.653321
Isto é, \([7.34, 8.65]\) é um intervalo de confiança \(95\%\) para \(\mu\).
Normal com variância desconhecida
Quando \(X_1,\ldots,X_n\) são independentes e \(X_i \sim N(\mu, \sigma^2)\), sendo tanto \(\mu\) quanto \(\sigma\) desconhecidos, não é possível construir o intervalo de confiança da mesma forma que na seção anterior.
Neste caso, usamos o fato de que \[ \frac{\sqrt{n-1}(\bar{X}-\mu)}{S} \sim T_{n-1} \] onde \(T_{n-1}\) designa uma distribuição \(T_{n-1}\) de Student com \(n-1\) graus de liberdade. Notando que \(P(T_{n-1} < qt(\alpha,n-1)) = \alpha\), podemos obter por raciocínio análogo ao desenvolvido na normal com variância conhecida que \[ P\left(\bar{X}-\frac{S}{\sqrt{n-1}}qt(1-0.5\alpha,n-1) \leq \mu \leq \bar{X}-\frac{S}{\sqrt{n-1}}qt(0.5\alpha,n-1) \right) = 1 \] Assim, se \(l_1(X) = \bar{X}-\frac{S}{\sqrt{n-1}}qt(1-0.5\alpha,n-1)\) e \(l_2(X) = \bar{X}-\frac{S}{\sqrt{n-1}}qt(0.5\alpha,n-1)\), então \([l_1(X),l_2(X)]\) é um intervalo de confiança \(1-\alpha\) para \(\mu\).
Interpretação
Intervalos de confiança são interpretados incorretamente com frequência. Por exemplo, considere que, antes que a amostra seja observada temos \(P(l_1(X) < \mu < l_2(X)) = 95\%\), e com base na amostra calculamos \(l_1(x) = 0.5\) e \(l_2(x)=0.7\). Dizemos que \([0.5, 0.7]\) tem confiança 95% para \(\mu\). Também é comum que se interprete que, com probabilidade 95%, \(\mu\) está em \([0.5,0.7]\). Contudo, está interpretação está errada!
Note que a probabilidade de 95% no exemplo é calculada antes de a amostra ter sido coletada. Em outras palavras, podemos interpretar que, se gerarmos vários bancos de dados independentes da mesma população, então \(\mu\) pertencerá a cerca de 95% dos intervalos gerados por meio destes bancos de dados. Contudo, após um particular banco de dados ser coletado, ou \(\mu\) está dentro do intervalo calculado ou não está. A confiança de um particular intervalo gerado não é a probabilidade de que o parâmetro pertença a ele. Para corrobar a interpretação correta, o código abaixo gera \(10000\) bancos de dados com \(100\) observações normais de média \(\mu=2\) e desvio padrão \(\sigma=4\) e calcula a proporção de bancos de dados em que \(\mu\) pertence ao intervalo com confiança de \(95\%\) obtido.
mu = 2
sigma = 4
n = 100
num_experimentos = 10000
sucessos = 0
for(ii in 1:num_experimentos)
{
dados = rnorm(n, mu, sigma)
l1 = mean(dados) - sigma/sqrt(n) * qnorm(1-0.5*alpha)
l2 = mean(dados) - sigma/sqrt(n) * qnorm(0.5*alpha)
sucessos = sucessos + (mu > l1 & mu < l2)
}
sucessos/num_experimentos
## [1] 0.952
Exercícios
Defina e interprete intervalo de confiança em suas próprias palavras.
Um experimentalista experiente realizou \(9\) medições da largura de um objeto usando um paquímetro. A média destas observações foi de \(1.2 mm\). O desvio padrão do experimentalista com o paquímetro é de \(0.2 mm\). Usando estas informações, construa intervalo com confiança 90%, 95% e 99% para a largura do objeto.
No exemplo da normal com variância conhecida, obtemos que o comprimento do intervalo de confiança é \(\frac{2\sigma_0 qnorm(1-0.5\alpha)}{\sqrt{n}}\). Isto ocorre pois \(qnorm(0.5\alpha)=1-qnorm(1-0.5\alpha)\). Interprete \(\sigma_0\), \(\alpha\) e \(n\) e como estas quantidades inluenciam no tamanho do intervalo de confiança.
O caso da normal com variância populacional conhecida é um caso especial do caso da normal com variância populacional desconhecida. Em particular, o intervalo de confiança obtido para a variância populacional desconhecida é válido mesmo quando ela é conhecida. Apesar disso, é indesejável usar este intervalo neste caso. Por quê?
Obtenha a linha de raciocínio completa para obter o intervalo de confiança no caso da normal com variância desconhecida.