23 Junho 2021 10:10

Fator de inflação de variância (VIF)

O que é um fator de inflação de variância (VIF)?

O fator de inflação de variância (VIF) é uma medida da quantidade de  multicolinearidade  em um conjunto de múltiplas   variáveis ​​de regressão. Matematicamente, o VIF para uma variável de modelo de regressão é igual à proporção da variância geral do modelo   para a variância de um modelo que inclui apenas aquela única variável independente. Essa proporção é calculada para cada variável independente. Um VIF alto indica que a variável independente associada é altamente colinear com as outras variáveis ​​no modelo.

Principais vantagens

  • Um fator de inflação de variância (VIF) fornece uma medida de multicolinearidade entre as variáveis ​​independentes em um modelo de regressão múltipla.
  • A detecção de multicolinearidade é importante porque, embora a multicolinearidade não reduza o poder explicativo do modelo, ela reduz a significância estatística das variáveis ​​independentes. 
  • Um grande fator de inflação de variância (VIF) em uma variável independente indica uma relação altamente colinear com as outras variáveis ​​que devem ser consideradas ou ajustadas na estrutura do modelo e na seleção de variáveis ​​independentes.

Compreendendo um fator de inflação de variação (VIF)

Um fator de inflação de variância é uma ferramenta para ajudar a identificar o grau de multicolinearidade. Uma regressão múltipla é usada quando uma pessoa deseja testar o efeito de várias variáveis ​​em um determinado resultado. A variável dependente é o resultado que está sendo influenciado pelas variáveis ​​independentes – as entradas no modelo. A multicolinearidade existe quando há uma relação linear, ou correlação, entre uma ou mais das variáveis ​​independentes ou entradas.

A multicolinearidade cria um problema na regressão múltipla porque as entradas estão todas influenciando umas às outras. Portanto, eles não são realmente independentes e é difícil testar o quanto a combinação das variáveis ​​independentes afeta a variável dependente, ou resultado, dentro do modelo de regressão. Em termos estatísticos, um modelo de regressão múltipla onde há alta multicolinearidade tornará mais difícil estimar a relação entre cada uma das variáveis ​​independentes e a variável dependente. Pequenas mudanças nos dados usados ​​ou na estrutura da equação do modelo podem produzir mudanças grandes e erráticas nos coeficientes estimados nas variáveis ​​independentes.

Para garantir que o modelo seja especificado e funcionando corretamente, existem testes que podem ser executados para multicolinearidade. O fator de inflação da variância é uma dessas ferramentas de medição. O uso de fatores de inflação de variância ajuda a identificar a gravidade de quaisquer problemas de multicolinearidade para que o modelo possa ser ajustado. O fator de inflação da variância mede o quanto o comportamento (variância) de uma variável independente é influenciado, ou inflado, por sua interação / correlação com as outras variáveis ​​independentes. Fatores de inflação de variância permitem uma medida rápida de quanto uma variável está contribuindo para o erro padrão na regressão. Quando existem questões significativas de multicolinearidade, o fator de inflação da variância será muito grande para as variáveis ​​envolvidas. Depois que essas variáveis ​​são identificadas, várias abordagens podem ser usadas para eliminar ou combinar variáveis ​​colineares, resolvendo o problema da multicolinearidade.

Considerações Especiais

Multicolinearidade

Embora a multicolinearidade não reduza o poder preditivo geral de um modelo, ela pode produzir estimativas dos coeficientes de regressão que não são estatisticamente significativas. Em certo sentido, pode ser considerado uma espécie de contagem dupla no modelo. Quando duas ou mais variáveis ​​independentes estão intimamente relacionadas ou medem quase a mesma coisa, o efeito subjacente que elas medem está sendo contabilizado duas vezes (ou mais) nas variáveis. Torna-se difícil ou impossível dizer qual variável está realmente influenciando a variável independente. Isso é um problema porque o objetivo de muitos modelos econométricos é testar exatamente esse tipo de relação estatística entre as variáveis ​​independentes e a variável dependente.

Por exemplo, suponha que um economista queira testar se existe uma relação estatisticamente significativa entre a taxa de desemprego (variável independente) e a taxa de inflação (variável dependente). A inclusão de variáveis ​​independentes adicionais relacionadas à taxa de desemprego, como uma nova solicitação inicial de auxílio-desemprego, provavelmente introduziria a multicolinearidade no modelo. O modelo geral pode apresentar um poder explicativo forte e estatisticamente suficiente, mas ser incapaz de identificar se o efeito se deve principalmente à taxa de desemprego ou aos novos pedidos iniciais de auxílio-desemprego. Isso é o que o VIF detectaria e sugeriria possivelmente retirar uma das variáveis ​​do modelo ou encontrar uma maneira de consolidá-las para capturar seu efeito conjunto, dependendo de qual hipótese específica o pesquisador está interessado em testar.