Curva ROC

Hemos visto que, de las métricas que son extraíbles de una matriz de confusión, hay dos enfoques que determinan la bondad del clasificador binario (sean cuales sean los nombres que les demos o cómo los calculemos): la capacidad de detectar, y la exactitud cuando se detecta. Estas métricas son independientes: podemos tener un clasificador que detecte como positivos todos los que existan, pero que no sea muy exacto pues esté detectando como positivos muchas muestras que no lo son. O al revés: el clasificador puede estar detectando como positivas pocas muestras, pero lo puede estar haciendo de forma muy exacta, marcando como positivas solo las que realmente lo son.

Un clasificador ideal detectaría todas las muestras positivas y solo esas. Es decir, si hablamos de las métricas de precisión y exhaustividad, el clasificador ideal tendría una precisión de 1 y una exhaustividad (recall o TPR) de 1. Si, por el contrario, estamos refiriéndonos a la métrica de FPR, el clasificador ideal tendría un FPR de 0 (no habría falsos negativos).

En todo caso, sean cuáles sean las métricas involucradas, nos encontramos con estos dos enfoques independientes comentados, enfoques que pueden ser llevados a un plano en el que, en un eje, se muestre el rendimiento del clasificador según uno de esos enfoques y, en el otro eje, se muestre el rendimiento del clasificador según el segundo de esos enfoques.