La regularización es un conjunto de técnicas que se utilizan para prevenir el sobreentrenamiento de un modelo. El objetivo es reducir la complejidad de éste de forma controlada, para que pueda generalizar mejor su resultado a nuevos datos sin perder precisión en los datos de entrenamiento. Esto normalmente se logra agregando un término de regularización a la función de coste que el modelo está tratando de minimizar.
Aun cuando hay diferentes formas de aplicar este concepto, existen dos tipos principales de regularización: L1 y L2.
Para entender estos métodos de regularización, volvamos a, por ejemplo, la Adaline. Recordemos que el objetivo era encontrar un conjunto de pesos wi que minimizase una función error cuando aplicásemos el algoritmo a un conjunto de datos:
siendo ŷ la predicción para una cierta muestra antes de ser pasada por la función escalón.
Si suponemos que estamos trabajando con cuatro características predictivas, es posible que, desde un punto de vista puramente matemático, los pesos ideales sean 8523, -1627, 4920 y -3250, escribiéndose, por tanto, la función anterior de la siguiente manera:
Esto, una vez más, puede ser el resultado ideal desde un punto de vista matemático. El problema con el que podemos encontrarnos es que, a pequeñas diferencias en los valores de entrada xi le correspondan predicciones muy distintas.
Por ejemplo, para la muestra (0.70, 0.12, -0.65, 1.12), el resultado de la ecuación anterior sería -1067.140. Pero si la muestra cambia un poco, por ejemplo (0.65, 0.21, -0.19, 0.99), ahora el resultado sería de +1045.980, valor completamente opuesto al anterior.
Esta variabilidad en el resultado de un modelo es lo que se conoce como varianza.