Álgebra Linear e os Estimadores de Mínimos Quadrados
Introdução
Em diversas situações práticas nos deparamos com problemas onde existe uma variável (X) mais fácil de ser observada e/ou controlada e temos o interesse de predizer outra variável (Y) que, em contrapartida, é mais difícil de ser observada e/ou controlada.
Seguramente, o modelo de regressão linear simples é uma escolha natural para descrever a relação entre as duas variáveis e então obter predições de Y atráves da relação estabelecida.
Neste modelo assumimos que a variavel explicativa X é fixa, isto é, não existe um mecanismo aleatório que gera os valores observados xi. Na prática observamos os seguintes pares (y1,x1),(y2,x2),…,(yn,xn), de forma que a relação entre as variáveis é expressa por
yi=β0+β1xi+εi,i=1,2,…,n em que β0 e β1 são constantes desconhecidas (parâmetros) e εi é um erro aleatório que não conseguimos controlar durante o experimento.
Álgebra Linear
Note que a variável resposta (Y) é escrita como combinação linear da variável independente (X) mais o erro aleatório (εi). Em notação matricial o modelo fica escrito da seguinte forma
y=Xβ+ε em que
y=(y1,…,yn)⊤;
X=(1|x) é uma matrix n×2, sendo 1 um vetor coluna de uns e x=(x1,…,xn)⊤;
β=(β0,β1)⊤;
ε=(ε1,…,εn)⊤.
A componente de erro aleatório, ε, indica que y não possui uma relação determinística com X. Em outras palavras, podemos dizer que o vetor y não esta no mesmo espaço vetorial gerado pelas colunas da matriz X. Tal espaço será denota por C(X).
Portanto, nosso objetivo é encontrar um vetor ˆβ=(ˆβ0,ˆβ1)⊤ que projete o vetor y em C(X). Existem infinitos vetores desse tipo. No entanto, existe apenas um vetor ˆβ no qual a distância y ao espaço vetorial C(X) é minima. Este vetor é a projeção ortogonal de y em C(X).
Vamos supor n=3 então C(X) é um subespaço vetorial de R3 e temos a seguinte representação:
Sabemos então que ε é perpendicular a C(X), logo o produto interno entre ε e X é 0. Ou seja,
X⋅ε=0.
Sabemos também que
ε=y−ˆy=y−Xˆβ.
Assim,
X⋅ε=X⋅(y−Xˆβ)=X⊤(y−Xˆβ)
X⊤Xˆβ=X⊤y(equações normais)
Neste ponto devemos observar que só vai existir solução se:
- X⊤X tiver posto completo;
- o que implica que as colunas de X devem ser linearmente independentes.
Note que a matriz X é composta pelos vetores 1 e xi. O vetor xi só será combinação linear de 1 se os valores observados forem todos iguais, o que na prática não faz nenhum sentido.
Dessa forma, a solução das equações normais é dada por
ˆβ=(X⊤X)−1X⊤y.
Conclusões
Vimos que os estimadores de mínimos quadrados podem ser obtidos utilizando ferramentas da álgebra linear sem suposição da distribuição dos erros. Contudo, para estudar o comportamento dos estimadores, realizar inferências acerca dos parâmetros e predizer novas observações será necessário impor suposições com relação a distribuição dos ε. Neste ponto que surge a estatística!