Funciones de impureza

Es decir, como ya se ha comentado, para la división de las muestras consideradas en un nodo, el algoritmo va a seleccionar un criterio de división según el cual la pureza de los grupos resultantes mejore la pureza original. La pregunta que podemos hacernos es ¿cómo medimos la pureza (o impureza) de un conjunto de datos? Pues bien, en clasificación, tres de las funciones de impureza más usadas son el índice Gini, la entropía y el error de clasificación.

Antes de ver en qué consiste cada uno de estos criterios, vamos a suponer que estamos trabajando en un escenario con k clases, y que pk representa la proporción de elementos de la clase k en el grupo de muestras. Por ejemplo, si en un nodo del árbol de decisión hay 5 muestras de las que 3 son de clase 0 y 2 son de clase 1, p0 sería igual a 3/5 (es decir, 0.6), y p1 sería igual a 2/5 (es decir, 0.4).