Los modelos lineales asumen la existencia de una relación lineal entre la variable objetivo y las características predictivas:
...donde ŷ es la variable objetivo a predecir, wi son los coeficientes y xi son las características predictivas.
El modelo más sencillo es el de regresión lineal, que aproxima la variable objetivo minimizando la suma de los cuadrados de las desviaciones (método de los mínimos cuadrados). En todo caso este algoritmo parte de la suposición de que las características predictivas son independientes. Cuando existe una dependencia lineal (colinealidad), los coeficientes de la función de regresión calculados tienden a ser muy elevados, volviéndose la función excesivamente sensible a las variaciones de las características predictivas -frecuentemente aleatorias-, generando valores con una alta varianza (lo que conocemos por sobreentrenamiento).