22 Junho 2021 22:57

Homoscedástico

O que é homoscedástico?

Homoscedástico (também chamado de “homocedástico”) refere-se a uma condição na qual a variância do resíduo, ou termo de erro, em um modelo de regressão é constante. Ou seja, o termo de erro não varia tanto quanto o valor da variável preditora muda. Outra maneira de dizer isso é que a variação dos pontos de dados é aproximadamente a mesma para todos os pontos de dados. Isso sugere um nível de consistência e torna mais fácil modelar e trabalhar com os dados por meio de regressão. No entanto, a falta de homocedasticidade pode sugerir que o modelo de regressão pode precisar incluir variáveis ​​preditoras adicionais para explicar o desempenho da variável dependente.

Principais vantagens

  • A homocedasticidade ocorre quando a variância do termo de erro em um modelo de regressão é constante. 
  • Se a variância do termo de erro for homocedástica, o modelo foi bem definido. Se houver muita variação, o modelo pode não ser bem definido. 
  • Adicionar variáveis ​​preditoras adicionais pode ajudar a explicar o desempenho da variável dependente.
  • Ao contrário, a heteroscedasticidade ocorre quando a variância do termo de erro não é constante.

Como funciona a homocedasticidade

Homoscedasticidade é uma suposição da modelagem de regressão linear e dados desse tipo funcionam bem com o método dos mínimos quadrados. Se a variância dos erros em torno da linha de regressão varia muito, o modelo de regressão pode ser mal definido. O oposto de homocedasticidade é heteroscedasticidade, assim como o oposto de “homogêneo” é “heterogêneo”. Heteroscedasticidade (também conhecida como “heterocedasticidade”) refere-se a uma condição na qual a variância do termo de erro em uma equação de regressão não é constante.



Ao considerar que a variância é a diferença medida entre o resultado previsto e o resultado real de uma determinada situação, determinar a homocedasticidade pode ajudar a determinar quais fatores precisam ser ajustados para precisão.

Considerações Especiais

Um modelo de regressão simples, ou equação, consiste em quatro termos. No lado esquerdo está a variável dependente. Representa o fenômeno que o modelo busca “explicar”. No lado direito, estão uma constante, uma variável preditora e um termo residual ou de erro. O termo de erro mostra a quantidade de variabilidade na variável dependente que não é explicada pela variável preditora.

Exemplo de homocedástico

Por exemplo, suponha que você queira explicar as pontuações dos testes dos alunos usando a quantidade de tempo que cada aluno passou estudando. Nesse caso, as pontuações do teste seriam a variável dependente e o tempo gasto no estudo seria a variável preditora. 

O termo de erro mostraria a quantidade de variação nas pontuações do teste que não foi explicada pela quantidade de tempo de estudo. Se essa variação for uniforme ou homocedástica, isso sugeriria que o modelo pode ser uma explicação adequada para o desempenho do teste – explicando-o em termos de tempo gasto no estudo.

Mas a variação pode ser heteroscedástica. Um gráfico dos dados do termo de erro pode mostrar que uma grande quantidade de tempo de estudo correspondeu muito de perto a altas pontuações de teste, mas as pontuações de teste de baixo tempo de estudo variaram amplamente e até incluíram algumas pontuações muito altas. Portanto, a variância das pontuações não seria bem explicada simplesmente por uma variável preditora – a quantidade de tempo de estudo. Nesse caso, algum outro fator provavelmente está em ação, e o modelo pode precisar ser aprimorado para identificá-lo.

Uma investigação mais aprofundada pode revelar que alguns alunos viram as respostas ao teste com antecedência ou que já haviam feito um teste semelhante e, portanto, não precisaram estudar para esse teste específico. Por falar nisso, pode acontecer que os alunos tenham níveis diferentes de habilidades para passar em testes, independentemente do tempo de estudo e do desempenho em testes anteriores, independentemente do assunto.

Para melhorar o modelo de regressão, o pesquisador teria que experimentar outras variáveis ​​explicativas que pudessem fornecer um ajuste mais preciso aos dados. Se, por exemplo, alguns alunos tivessem visto as respostas com antecedência, o modelo de regressão teria então duas variáveis ​​explicativas: o tempo de estudo e se o aluno tinha conhecimento prévio das respostas. Com essas duas variáveis, mais da variância dos escores do teste seria explicada e a variância do termo de erro poderia ser homocedástica, sugerindo que o modelo estava bem definido.