23 Junho 2021 12:25

Definição de média Winsorized

Qual é a média Winsorized?

Média winsorizada é um método de cálculo da média que substitui inicialmente os valores menores e maiores pelas observações mais próximas a eles. Isso é feito para limitar o efeito de outliers ou valores extremos anormais, ou outliers, no cálculo. Depois de substituir os valores, a fórmula da média aritmética é então usada para calcular a média winsorizada.

principais conclusões

  • A média winsorizada é um método de média que envolve a substituição dos menores e maiores valores de um conjunto de dados pelas observações mais próximas a eles.
  • Ele atenua os efeitos de outliers, substituindo-os por valores menos extremos.
  • A média winsorizada não é a mesma que a média aparada, que envolve a remoção de pontos de dados em vez de substituí-los – embora os resultados das duas tendam a ser próximos.

Fórmula para a média Winsorized

As médias Winsorized são expressas de duas maneiras. Uma média winsorizada “k n ” refere-se à substituição das menores e maiores observações ‘k’, onde ‘k’ é um número inteiro. Uma média winsorizada “X%” envolve a substituição de uma determinada porcentagem de valores de ambas as extremidades dos dados.

A média winsorizada é obtida substituindo-se os pontos de dados menores e maiores, somando todos os pontos de dados e dividindo a soma pelo número total de pontos de dados.

O que o Winsorized significa para você?

A média winsorizada é menos sensível a valores discrepantes porque pode substituí-los por valores menos extremos. Ou seja, é menos suscetível a valores discrepantes em relação à média aritmética. No entanto, se uma distribuição tiver caudas grossas, o efeito de remover os valores mais altos e mais baixos na distribuição terá pouca influência devido ao alto grau de variabilidade nos números da distribuição.

Exemplo de como usar a média Winsorized

Vamos calcular a média winsorizada para o seguinte conjunto de dados: 1, 5, 7, 8, 9, 10, 34. Neste exemplo, assumimos que a média winsorizada está na primeira ordem, na qual substituímos os menores e maiores valores por suas observações mais próximas.

O conjunto de dados agora aparece da seguinte forma: 5, 5, 7, 8, 9, 10, 10. Tirar uma média aritmética do novo conjunto produz uma média winsorizada de 7,7, ou (5 + 5 + 7 + 8 + 9 + 10 + 10) dividido por 7. Observe que a média aritmética teria maior – 10,6. A média winsorizada reduz efetivamente a influência do valor 34 como um outlier.

Ou considere uma média winsorizada de 20% que pega os 10% superiores e os 10% inferiores e os substitui pelo próximo valor mais próximo. Vamos winsorizar o seguinte conjunto de dados: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Os dois Os menores e maiores pontos de dados – 10% dos 20 pontos de dados – serão substituídos pelo próximo valor mais próximo. Assim, o novo conjunto de dados é o seguinte: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. A média winsorizada é 33,9, ou o total dos dados (678) dividido pelo número total de pontos de dados (20).

Média Winsorized vs. Média Trimmed

A média winsorizada inclui a modificação de pontos de dados, enquanto a média aparada envolve a remoção de pontos de dados. É comum que a média winsorizada e a média aparada sejam próximas ou, às vezes, iguais em valor uma à outra.

Limitações da média Winsorized

Uma das principais desvantagens dos meios winsorizados é que eles naturalmente introduzem algum viés no conjunto de dados. Ao reduzir a influência de outliers, a análise é modificada para uma melhor análise, mas também remove informações sobre os dados subjacentes.