Índice de error

Por último, el índice de error o error de clasificación se calcula con la siguiente fórmula:

Error de clasificación

Es decir, es la clase mayoritaria (aquella con la mayor proporción de elementos) la que establece el error. En un escenario de clasificación binaria, la expresión anterior queda reducida a:

Error de clasificación

Siendo p, en este caso, la proporción de la clase mayoritaria.

En nuestro ejemplo, la mayor proporción viene dada por la clase 0 (recordemos que era la clase con 3 muestras), por lo que:

error de clasificación = 1 - 3/5 = 0.4

Podemos representar esta función de impureza en un escenario de clasificación binaria con el siguiente código:

x = np.linspace(0, 1, 100)
y = 1 - np.maximum(x, 1- x)

fig, ax = plt.subplots()
ax.plot(x, y)
ax.grid(color = "#EEEEEE", zorder = 0)
ax.set_xlabel("p")
ax.set_ylabel("Índice Gini")
plt.show()

Error de clasificación

También aquí la función tiene su máximo cuando las dos clases están igualmente representadas en el dataset, en cuyo caso toma el valor 0.5.