Tal y como se ha comentado, el regresor lineal ofrece la ventaja de que el mínimo de la función de coste puede extraerse directamente de la llamada "ecuación normal". Sin embargo, esta ecuación implica calcular la inversa del resultado de un producto de matrices, lo que resulta inviable si el tamaño de la matriz de características es excesivamente grande.
Como alternativa, el Regresor Descenso de Gradiente Estocástico es entrenado usando como optimizador -tal y como podemos imaginar por su nombre- el algoritmo de Descenso de Gradiente Estocástico, evaluando el gradiente a partir de una muestra escogida aleatoriamente.
Scikit-Learn implementa este algoritmo en la clase sklearn.linear_model.SGDRegressor, permitiendo regularizar el resultado con las normas L1 y/o L2.
Scikit-Learn no implementa ni Batch Gradient Descent ni Mini-batch Gradient Descent.