Información sobre el entrenamiento

Veamos con más detalle la información dada por la función plot_tree() al respecto del entrenamiento del modelo. Fijémonos en los primeros nodos:

Información sobre el entrenamiento

Nodo superior

En el nodo superior se nos informa de que partimos de un dataset con 150 muestras, de las que 50 pertenecen a la clase 0, 50 a la clase 1 y otras 50 a la clase 2. El fondo blanco de este rectángulo nos indica que no hay ninguna muestra dominante.

Esta distribución de muestras supone que la impureza de este dataset va a ser la máxima posible. Como, por defecto, la clase DecisionTreeClassifier va a aplicar el índice Gini, podemos calcular nosotros la impureza:

gini = 1 - 0.333333 ** 2 - 0.333333 ** 2 - 0.333333 ** 2
gini
0.666667333333

Esta información también se muestra en el nodo superior. Por último, en la parte superior se indica cuál ha sido la condición ideal para definir la primera división: si la longitud del sépalo es menor o igual a 5.45.

Nodo inferior izquierdo

Las muestras que cumplan la condición anterior van a incluirse en un grupo representado por el nodo que se muestra en la parte inferior izquierda. En él vemos que se han incluido 52 muestras, y que 45 de éstas pertenecen a la clase 0, 6 a la clase 1 y 1 a la clase 2, lo que supone un índice Gini de 0.237. El color anaranjado de este rectángulo significa que la clase mayoritaria es la 0, y el color fuerte del naranja nos indica que las muestras de esta clase son mucho más numerosas que las de las otras dos clases. En este nodo se ha determinado que la condición ideal para dividirlo es que el ancho del sépalo sea menor o igual a 2.8.

Nodo inferior derecho

A este nodo han llegado las 98 muestras de la división inicial que no cumplían la condición. De éstas, 5 son de la clase 0, 44 de la clase 1 y 49 de la clase 2. La clase mayoritaria es la 2, por lo que el rectángulo se muestra violeta. Pero su escaso brillo nos indica que esta clase no sobresale por encima de las otras dos. El índice de Gini asociado a esta distribución de muestras es de 0.546 y, para este grupo, se ha determinado que la condición ideal para realizar una nueva división es que la longitud del sépalo sea menor o igual a 6.15.