Regressão Stepwise - KamilTaylan.blog
23 Junho 2021 7:49

Regressão Stepwise

O que é regressão Stepwise?

A regressão passo a passo é a construção iterativa passo a passo de um modelo de regressão que envolve a seleção de variáveis ​​independentes a serem usadas em um modelo final. Envolve adicionar ou remover variáveis ​​explicativas potenciais em sucessão e testar a significância estatística após cada iteração.

A disponibilidade de pacotes de software estatístico possibilita a regressão stepwise, mesmo em modelos com centenas de variáveis.

Principais vantagens

  • A regressão Stepwise é um método que examina iterativamente a significância estatística de cada variável independente em um modelo de regressão linear.
  • A abordagem de seleção direta começa com nada e adiciona cada nova variável de forma incremental, testando a significância estatística.
  • O método de eliminação para trás começa com um modelo completo carregado com várias variáveis ​​e, em seguida, remove uma variável para testar sua importância em relação aos resultados gerais.
  • A regressão stepwise tem suas desvantagens, no entanto, pois é uma abordagem que ajusta os dados em um modelo para atingir o resultado desejado.

Tipos de regressão Stepwise

O objetivo básico da regressão stepwise é, por meio de uma série de testes (por exemplo, testes F, testes t ), encontrar um conjunto de variáveis ​​independentes que influenciam significativamente a variável dependente. Isso é feito com computadores por meio de iteração, que é o processo de chegar a resultados ou decisões por meio de rodadas ou ciclos de análise repetidos. A realização de testes automaticamente com a ajuda de pacotes de software estatístico tem a vantagem de economizar tempo e limitar erros.

A regressão stepwise pode ser alcançada testando uma variável independente por vez e incluindo-a no modelo de regressão se for estatisticamente significativa ou incluindo todas as variáveis ​​independentes potenciais no modelo e eliminando aquelas que não são estatisticamente significativas. Alguns usam uma combinação de ambos os métodos e, portanto, existem três abordagens para a regressão stepwise:

  1. A seleção direta começa sem variáveis ​​no modelo, testa cada variável à medida que é adicionada ao modelo e, em seguida, mantém aquelas que são consideradas mais estatisticamente significativas – repetindo o processo até que os resultados sejam ótimos.
  2. A eliminação reversa começa com um conjunto de variáveis ​​independentes, excluindo uma de cada vez e, em seguida, testando se a variável removida é estatisticamente significativa.
  3. A eliminação bidirecional é uma combinação dos dois primeiros métodos que testam quais variáveis ​​devem ser incluídas ou excluídas.

Exemplo

Um exemplo de regressão stepwise usando o método de eliminação reversa seria uma tentativa de entender o uso de energia em uma fábrica usando variáveis ​​como tempo de funcionamento do equipamento, idade do equipamento, tamanho da equipe, temperaturas externas e época do ano. O modelo inclui todas as variáveis ​​- em seguida, cada uma é removida, uma de cada vez, para determinar qual é a menos estatisticamente significativa. No final, o modelo pode mostrar que a época do ano e as temperaturas são mais significativas, possivelmente sugerindo que o pico de consumo de energia na fábrica é quando o uso do ar condicionado está no máximo. 

Limitações da regressão Stepwise

A análise de regressão, tanto relações preço / lucro e os retornos das ações ao longo de muitos anos para determinar se as ações com relações P / L baixas (variável independente) oferecem retornos mais elevados (variável dependente). O problema com essa abordagem é que as condições de mercado freqüentemente mudam e os relacionamentos que existiram no passado não são necessariamente verdadeiros no presente ou no futuro.

Enquanto isso, o processo de regressão stepwise tem muitos críticos e há até mesmo apelos para parar de usar o método por completo. Os estatísticos observam várias desvantagens da abordagem, incluindo resultados incorretos, um viés inerente ao próprio processo e a necessidade de poder computacional significativo para desenvolver modelos de regressão complexos por meio de iteração.