Proceso de entrenamiento

Veamos entonces cual es el proceso de entrenamiento de un perceptrón multicapa:

Inicialmente los parámetros (pesos y bias) se inicializan con algunos valores, típicamente valores aleatorios.
A continuación, se pasan todas las muestras del dataset de entrenamiento por la red, una por una, obteniendo predicciones para cada una de ellas.
Para cada muestra se obtiene el gradiente parcial de la función de coste achacable a ella (el conjunto de derivadas parciales con respecto a todos y cada uno de los parámetros)
Una vez obtenidas todas las predicciones se calcula el gradiente total de la función de coste como suma de los gradientes parciales
Se modifica cada parámetro de la red restando el producto de la derivada parcial de la función de coste que le corresponda y la tasa de aprendizaje

En este punto la red está configurada de forma que el error global cometido es algo inferior al que existía antes de comenzar este proceso.

Acerca de Interactive Chaos