Regularización en árboles de decisión

Por defecto, un árbol de decisión siempre va a tender de una forma natural a sobreentrenarse, pues continuará dividiendo los datos hasta que la pureza de todos los grupos sea máxima. Para evitar el sobreentrenamiento y mejorar la generalización del resultado obtenido, existen varios métodos, accesibles a través de los siguientes parámetros en la implementación de Scikit-Learn:

  • max_depth o Profundidad del árbol: limitando la profundidad del árbol conseguimos que la división de las muestras sea más fácilmente generalizable.
  • min_samples_split o Número mínimo de muestras requerido para dividir un nodo: Si un nodo no contiene el número de muestras mínimo especificado, no podrá ser dividido, limitando también de este modo el sobreentrenamiento.
  • min_samples_leftNúmero mínimo de muestras por hoja: si una división implica separar el número de muestras de un nodo de forma que en uno de los nodos hijo no se alcance el valor mínimo establecido de muestras, no se permitirá la división.
  • max_leaf_nodes Número máximo de hojas: También es posible limitar el número de hojas a crear en el árbol, lo que lleva a modelos más generalizables.
  • min_impurity_splitMínimo de impureza para dividir un nodo: si la impureza de un nodo no alcanza el valor mínimo, no se permitirá su división.