Índice de error

Por último, el índice de error o error de clasificación se calcula con la siguiente fórmula:

Es decir, es la clase mayoritaria (aquella con la mayor proporción de elementos) la que establece el error. En un escenario de clasificación binaria, la expresión anterior queda reducida a:

Siendo p, en este caso, la proporción de la clase mayoritaria.

En nuestro ejemplo, la mayor proporción viene dada por la clase 0 (recordemos que era la clase con 3 muestras), por lo que:

error de clasificación = 1 - 3/5 = 0.4

Podemos representar esta función de impureza en un escenario de clasificación binaria con el siguiente código:

x = np.linspace(0, 1, 100)
y = 1 - np.maximum(x, 1- x)

fig, ax = plt.subplots()
ax.plot(x, y)
ax.grid(color = "#EEEEEE", zorder = 0)
ax.set_xlabel("p")
ax.set_ylabel("Índice Gini")
plt.show()

También aquí la función tiene su máximo cuando las dos clases están igualmente representadas en el dataset, en cuyo caso toma el valor 0.5.

Acerca de Interactive Chaos

Información de contacto