Ganancia de información

Se ha comentado que el proceso seguido por el árbol de decisión se basa en la idea de separar los datos de forma que se mejore la pureza de los bloques resultantes. Esta mejora es la que se mide mediante la llamada ganancia de información (information gain o IG en inglés), definida mediante la siguiente fórmula:

En la que:

I es la función que mide la impureza
D_p es el dataset "padre" que se está dividiendo
N_p es el número de elementos del dataset padre
D_j es el dataset j-ésimo en el que se ha dividido D_p
N_j es el número de elementos del dataset D_j

Básicamente estamos restando a la impureza del dataset inicial la impureza de los bloques resultantes ponderados según su número de elementos con respecto al total.

Si estamos trabajando en un escenario de clasificación binaria, la función anterior queda:

Ganancia de información en un escenario de clasificación binaria

En este caso D_left es uno de los dos bloques resultantes de la división (y N_left su número de elementos) y D_right el segundo bloque (y N_right su número de elementos).

Ésta es la función objetivo que se desea maximizar en cada "split" buscando la característica adecuada por la que realizar la división y el umbral adecuado.

Pongamos un ejemplo: supongamos que el dataset padre contiene 90 muestras y una impureza medida vía Índice Gini de 0.4. Este dataset se divide en dos grupos de 60 y 30 elementos, cuyas impurezas son 0.2 y 0.5 respectivamente. La ganancia de información sería:

IG = 0.4 - 60/90 * 0.2 - 30/90 * 0.5 = 0.1

Acerca de Interactive Chaos

Información de contacto