La regresión lineal es el método más sencillo entre los modelos lineales. Como se ha comentado en la introducción, estima la variable objetivo mediante una combinación lineal de las características predictivas, minimizando la suma de los cuadrados de los residuales, residual sum of squares o RSS (lo que se conoce como técnica de mínimos cuadrados):
donde n es el número de muestras, yi es el valor real observado y f(xi) el valor predicho. Esta expresión es la función de coste de la regresión lineal.
Scikit-Learn implementa este algoritmo en la clase sklearn.linear_model.LinearRegression. Veámoslo en funcionamiento con el dataset de precios de viviendas en Boston.