Problemas del sobreentrenamiento y del subentrenamiento

Tanto el subentrenamiento como el sobreentrenamiento son un problema: el primero porque el aprendiz no ha sido entrenado adecuadamente ni siquiera para ser capaz de ajustarse a los datos que se conocen, y el segundo porque se ajusta tanto que ha perdido la capacidad de generalización.

Cualquier algoritmo puede caer en el sobreentrenamiento, aunque hay algunos con más tendencia que otros. Así, los algoritmos basados en árboles de decisión suenen tender con facilidad al sobreentrenamiento, de ahí que sea necesario, por ejemplo, limitar la profundidad máxima del árbol.

Otro factor a considerar es el tamaño del conjunto de datos de entrenamiento: si es demasiado pequeño es fácil caer en sobreentrenamiento pues en cuanto nuestro modelo sea mínimamente complejo ya estaría adaptándose en exceso a dichos datos. Por el contrario, si el conjunto de datos de entrenamiento es grande y hay suficiente variación en los datos, podemos construir modelos más complejos antes de caer en sobreentrenamiento.