La función sigmoide

Sin embargo, resulta obvio que, si el objetivo es predecir la probabilidad de un cierto evento, la relación entre las variables independientes mencionadas y la etiqueta (la probabilidad) no puede ser del tipo

p = a1*x1 + a2*x2 + … + an*xn     [2]

entre otras cosas porque la probabilidad p va a tomar un valor en el rango [0, 1], mientras que nuestra combinación línea va a devolver valores potencialmente en el rango (-∞, +∞).

Para solucionar este problema no se considera la probabilidad a la izquierda de la igualdad en [2], sino la función logit que, aun involucrando la probabilidad p, tiene como rango (-∞, +∞). Esta función está definida de la siguiente forma:

Función logit

Si llevamos esta función a una gráfica, podemos ver su forma:

Función logit

Es decir, nuestro modelo vendrá definido por la expresión

Regresión logística

Como el objetivo es aproximar la probabilidad del evento, podemos extraer la variable p de la ecuación. Para ello obtenemos la exponencial de las expresiones a ambos lados de la igualdad:

Regresión logística

Multiplicamos por (1 - p):

Regresión logística

Multiplicamos la exponencial por los dos términos en el paréntesis:

Regresión logística

Pasamos las probabilidades al lado izquierdo de la igualdad:

Regresión logística

Sacamos p como factor común de la suma:

Regresión logística

Y despejamos:

Regresión logística

Esta expresión suele mostrarse tras dividir el numerador y el denominador por la exponencial:

Regresión logística

O, lo que es lo mismo:

Regresión logística

 (pues recordemos que Regresión logística)

Por último, ya se ha comentado que a1x1 + a2x+ ⋯ + anxn es lo que veníamos denominando net input o z, por lo que la ecuación queda finalmente de la siguiente forma:

Regresión logística

Esta es la llamada función sigmoide y su aspecto es el siguiente:

Función sigmoide