Sobreajuste
O que é overfitting?
Overfitting é um erro de modelagem nas estatísticas que ocorre quando uma função está muito alinhada a um conjunto limitado de pontos de dados. Como resultado, o modelo é útil em referência apenas ao seu conjunto de dados inicial e não a quaisquer outros conjuntos de dados.
Overfitting do modelo geralmente assume a forma de fazer um modelo excessivamente complexo para explicar idiossincrasias nos dados em estudo. Na realidade, os dados frequentemente estudados contêm algum grau de erro ou ruído aleatório. Portanto, tentar fazer com que o modelo esteja muito próximo de dados levemente imprecisos pode infectar o modelo com erros substanciais e reduzir seu poder preditivo.
Principais vantagens
- Overfitting é um erro que ocorre na modelagem de dados como resultado do alinhamento de uma função específica com um conjunto mínimo de pontos de dados.
- Os profissionais financeiros correm o risco de overfitting de um modelo com base em dados limitados e acabar com resultados que são falhos.
- Quando um modelo foi comprometido por overfitting, o modelo pode perder seu valor como ferramenta preditiva de investimento.
- Um modelo de dados também pode ser insuficiente, o que significa que é muito simples, com poucos pontos de dados para ser eficaz.
- O overfitting é um problema mais frequente do que o underfitting e normalmente ocorre como resultado da tentativa de evitar o overfitting.
Compreendendo o Overfitting
Por exemplo, um problema comum é usar algoritmos de computador para pesquisar extensos bancos de dados de dados históricos de mercado a fim de encontrar padrões. Com estudo suficiente, muitas vezes é possível desenvolver teoremas elaborados que parecem prever retornos no mercado de ações com grande precisão.
No entanto, quando aplicados a dados fora da amostra, tais teoremas podem provavelmente provar ser meramente o ajuste excessivo de um modelo para o que na realidade eram apenas ocorrências casuais. Em todos os casos, é importante testar um modelo em relação aos dados que estão fora da amostra usada para desenvolvê-lo.
Como prevenir overfitting
Maneiras de evitar overfitting incluem validação cruzada, na qual os dados usados para treinar o modelo são divididos em dobras ou partições e o modelo é executado para cada dobra. Em seguida, é calculada a média da estimativa de erro geral. Outros métodos incluem ensembling: as previsões são combinadas a partir de pelo menos dois modelos separados, aumento de dados, em que o conjunto de dados disponível é feito para parecer diverso, e simplificação de dados, em que o modelo é simplificado para evitar sobreajuste.
Os profissionais financeiros devem estar sempre cientes dos perigos de overfitting ou underfitting em um modelo baseado em dados limitados. O modelo ideal deve ser equilibrado.
Overfitting no aprendizado de máquina
O overfitting também é um fator no aprendizado de máquina. Pode surgir quando uma máquina foi ensinada a fazer a varredura de dados específicos de uma maneira, mas quando o mesmo processo é aplicado a um novo conjunto de dados, os resultados são incorretos. Isso ocorre por causa de erros no modelo que foi construído, já que provavelmente apresenta baixo viés e alta variância. O modelo pode ter recursos redundantes ou sobrepostos, tornando-se desnecessariamente complicado e, portanto, ineficaz.
Overfitting vs. Underfitting
Um modelo com ajuste excessivo pode ser muito complicado, tornando-o ineficaz. Mas um modelo também pode ser insuficiente, o que significa que é muito simples, com poucos recursos e poucos dados para construir um modelo eficaz. Um modelo overfit tem baixa tendência e alta variância, enquanto um modelo underfit é o oposto – tem alta tendência e baixa variância. Adicionar mais recursos a um modelo muito simples pode ajudar a limitar o preconceito.
Exemplo de overfitting
Por exemplo, uma universidade que está tendo uma taxa de evasão universitária maior do que gostaria decide criar um modelo para prever a probabilidade de um candidato chegar à formatura.
Para fazer isso, a universidade treina um modelo a partir de um conjunto de dados de 5.000 candidatos e seus resultados. Em seguida, executa o modelo no conjunto de dados original – o grupo de 5.000 candidatos – e o modelo prevê o resultado com 98% de precisão. Mas, para testar sua precisão, eles também executaram o modelo em um segundo conjunto de dados – mais 5.000 candidatos. No entanto, desta vez, o modelo é apenas 50% preciso, pois o modelo se ajustava muito a um subconjunto de dados estreito, neste caso, os primeiros 5.000 aplicativos.