Regresión logística

El algoritmo de logistic regression o regresión logística también se conoce como regresión logit, o clasificador de máxima entropía, y se encuadra dentro de los conocidos como modelos lineales generalizados.

El objetivo de este objetivo es, en un escenario de clasificación binaria, aproximar la probabilidad de que una muestra pertenezca a una cierta clase a partir de una combinación lineal de las características predictiva, es decir, a partir de la siguiente expresión:

a1*x1 + a2*x2 + … + an*xn        [1]

expresión en la que x1, x2, …, xn son las características predictivas y a1, a2 …, an son los coeficientes de la combinación lineal. No es difícil ver que esta expresión coincide con lo que hemos llamado net input, z o wT.x en las neuronas artificiales vistas hasta ahora.

Un ejemplo de aplicación de este algoritmo es la clasificación de correos electrónicos en spam o no spam. Para ello podemos partir de un conjunto de emails de entrenamiento que, por tanto, ya hayan sido clasificados. Tendríamos que representar el contenido de cada correo electrónico como un conjunto de características numéricas -para lo que podríamos recurrir, por ejemplo, a un modelo de bolsa de palabras, que representa cada correo electrónico como un vector conteniendo la frecuencia de aparición de cada palabra que exista en el conjunto de entrenamiento-. Una vez entrenado el modelo mediante un algoritmo de regresión logística, bastaría con aplicarlo a un nuevo mensaje para obtener la probabilidad de que sea spam. Si esta probabilidad supera un cierto umbral predefinido, sería clasificado como spam; en caso contrario, sería clasificado como no spam.