Correlação Espúria
O que é correlação espúria?
Em estatística, uma correlação espúria, ou espúria, refere-se a uma conexão entre duas variáveis que parece causal, mas não é. Relacionamentos espúrios inicialmente parecerão mostrar que uma variável afeta diretamente outra, mas esse não é o caso. Essa correlação espúria geralmente é causada por um terceiro fator que não é aparente no momento do exame, às vezes chamado de fator de confusão.
Principais vantagens
- Correlação espúria, ou espúria, ocorre quando dois fatores parecem casualmente relacionados, mas não estão.
- O aparecimento de uma relação causal é frequentemente devido a um movimento semelhante em um gráfico que acaba sendo uma coincidência ou causado por um terceiro fator de “confusão”.
- A correlação espúria pode ser causada por pequenos tamanhos de amostra ou desfechos arbitrários.
- Estatísticos e cientistas usam análises estatísticas cuidadosas para determinar relações espúrias.
- A confirmação de uma relação causal requer um estudo que controle todas as variáveis possíveis.
Como funciona a correlação espúria
Quando duas variáveis aleatórias acompanham uma à outra de perto em um gráfico, é fácil suspeitar de correlação onde uma mudança em uma variável causa uma mudança na outra variável. Deixando de lado a causalidade, que é outro tópico, essa observação pode levar o leitor do gráfico a acreditar que o movimento da variável A está vinculado ao movimento da variável B ou vice-versa.
No entanto, um exame estatístico mais próximo pode mostrar que os movimentos alinhados são coincidentes ou causados por um terceiro fator que afeta as duas variáveis. Esta é uma correlação espúria. Pesquisas conduzidas com amostras pequenas ou desfechos arbitrários são particularmente suscetíveis a espúrias.
Exemplos de correlação espúria
Correlações interessantes são fáceis de encontrar, mas muitas se revelarão espúrias. Três exemplos são a teoria do comprimento da saia, o indicador do Super Bowl e uma correlação sugerida entre a corrida e as taxas de conclusão da faculdade.
A Teoria do Comprimento da Saia
Originada na década de 1920, a teoria do comprimento da saia sustenta que o comprimento da saia e a direção do mercado de ações estão correlacionados. Se o comprimento da saia for longo, a correlação é que o mercado de ações está em baixa. Se os comprimentos das camisas forem curtos, o mercado está em alta.
O indicador do Super Bowl
No final de janeiro, muitas vezes há conversas sobre o chamado indicador do Super Bowl, o que sugere que uma vitória da equipe da American Football Conference provavelmente significa que o mercado de ações cairá no próximo ano, enquanto uma vitória da National Football Conference equipe prenuncia um aumento no mercado.
Desde o início da era do Super Bowl, o indicador tem sido preciso em 74% do tempo, ou 40 dos 54 anos, de acordo com a OpenMarkets. É uma conversa divertida, mas provavelmente não algo que um consultor financeiro sério recomendaria como estratégia de investimento para clientes.
Desempenho educacional e raça
Os cientistas sociais têm se concentrado em identificar quais variáveis impactam o sucesso educacional. De acordo com EducationData.org, em 2019, os brancos de 25 a 29 anos tinham 55% mais probabilidade de concluir a faculdade do que os negros. Os dados indicam que a raça tem um efeito causal nas taxas de conclusão da faculdade; entretanto, não é a raça em si que impacta a realização educacional, mas os efeitos do racismo na sociedade, que é a terceira variável “oculta”.
O racismo afeta as pessoas de cor, colocando-as em desvantagem educacional e econômica. Por exemplo, as escolas em comunidades não brancas enfrentam maiores desafios e recebem menos financiamento, os pais em populações não brancas têm empregos com salários mais baixos e menos recursos para dedicar à educação de seus filhos e muitas famílias vivem em desertos alimentares e sofrem de desnutrição. O racismo, então, é uma variável causal que impacta o nível educacional, não a raça.
Como detectar correlações espúrias
Estatísticos e outros cientistas que analisam dados devem estar sempre atentos a relacionamentos espúrios. Existem vários métodos que eles usam para identificá-los, incluindo:
- Garantir uma amostra representativa adequada
- Obtenção de um tamanho de amostra adequado
- Desconfie de endpoints arbitrários
- Controlando para tantas variáveis externas quanto possível
- Usando uma hipótese nula e verificando um valor p forte
Muitos relacionamentos espúrios podem ser identificados usando o bom senso. Se uma correlação for encontrada, geralmente há mais de uma variável em jogo e as variáveis geralmente não são imediatamente óbvias.
Perguntas frequentes sobre correlações espúrias
Como você sabe se uma correlação é espúria?
A maneira óbvia de detectar uma relação espúria nas descobertas da pesquisa é usar o bom senso. Só porque duas coisas ocorrem e parecem estar ligadas, não significa que não haja outros fatores em ação. No entanto, para ter certeza, os métodos de pesquisa são examinados criticamente. Nos estudos, todas as variáveis que podem impactar os achados devem ser incluídas no modelo estatístico para controlar seu impacto na variável dependente.
O que é um exemplo de correlação, mas não de causalidade?
Um exemplo de correlação é que mais sono leva a um melhor desempenho durante o dia. Embora haja uma correlação, não há necessariamente causa. Mais sono pode não ser a razão de um indivíduo ter um desempenho melhor; por exemplo, eles podem estar usando uma nova ferramenta de software que está aumentando sua produtividade. Para encontrar a causalidade, deve haver evidência factual de um estudo que mostra uma relação causal entre sono e desempenho.
Qual é o significado de regressão espúria?
A regressão espúria é um modelo estatístico que mostra evidências estatísticas enganosas de uma relação linear; em outras palavras, uma correlação espúria entre variáveis independentes não estacionárias.
O que é um exemplo de causalidade falsa?
A falsa causalidade ocorre quando assumimos rapidamente que uma coisa causa outra porque notamos uma relação entre elas. Por exemplo, podemos supor que Harry tem treinado muito para se tornar um corredor mais rápido porque seus tempos de corrida melhoraram. No entanto, a realidade pode ser que os tempos de corrida de Harry tenham melhorado porque ele tem novos tênis feitos com a tecnologia mais recente. A suposição inicial era uma causalidade falsa.