Modelos lineales generalizados

Los modelos lineales ordinarios asumen la ya mencionada relación lineal entre las características predictivas y la variable objetivo. Concretamente, entre otras cosas presuponen que la distribución de la variable objetivo es gaussiana. Esto supone, por ejemplo, que un aumento en el valor de una de las características va a suponer una variación equivalente en la respuesta de la función, lo que no siempre es cierto:

  • La variable dependiente (la variable objetivo) puede no tener una distribución continua: si estamos prediciendo la edad de una persona en función de características físicas, el valor predicho no puede ser negativo, y el valor máximo también tiene un límite, aunque sea menos preciso. O si estamos prediciendo el número de hijos de una pareja, el resultado no puede ser "2.34 hijos". De hecho, la distribución en este último ejemplo va a estar fuertemente desequilibrada hacia la izquierda (la mayoría de las parejas hoy día tienen pocos hijos -o ninguno- frente a las que tienen muchos).
  • La influencia de las características predictivas en la variable objetivo no tiene porqué ser estrictamente lineal: la relación entre la edad y diferentes indicadores de la salud de un individuo no va a ser siempre lineal. Por ejemplo, la pulsación máxima en reposo a los 80 años no es la mitad de la máxima recomendada a los 40, ni 10 veces menos que la máxima recomendada a los 8 años. Probablemente existen relaciones más complejas que, en una fórmula, se expresaría con potencias o funciones no lineales (logaritmos, etc.). Esta relación es lo que se denomina función de enlace.

Los modelos generales generalizados eliminan estos condicionantes permitiendo distribuciones no gaussianas en la variable objetivo, así como funciones de enlace más complejas.

Como ejemplo de modelo lineal de este conjunto de modelos veremos la regresión logística, utilizada -a pesar de su nombre- en escenarios de clasificación.