Obtención de la función de error

En la red neuronal que hemos puesto como ejemplo podemos ver cómo el error puede expresarse en función de los parámetros de la red. Recordemos cuál era la configuración de ésta:

Esquema de la red neuronal

Obsérvese que en el diagrama anterior se ha dado nombre a los valores que devuelve cada neurona de la capa oculta (a1 y a2), a los valores devueltos por las funciones sumatorias (z1, z2 y z3) y a las funciones de activación que, para simplificar la explicación, suponemos igual en todas las neuronas (σ).

Con esta nomenclatura vemos que la salida de la red, ŷ, es, para empezar, el resultado de aplicar la función σ al valor z3. Es decir:

ŷ = σ(z3)

(Recordemos que la función de activación -sea cual sea- es conocida, por ejemplo, una función sigmoide)

Ahora podemos expresar el valor z3 en función de los valores a partir de los que se calcula: los pesos w31 y w32 que multiplican a los valores a1 y a2 respectivamente, y el bias b3:

[1] ŷ = σ(w31*a1+ w32*a2 + b3)

A su vez podríamos expresar a1 y a2 como función de σ, de los pesos w11, w12, w21 y w22 que multiplican a los valores de entrada x1 y x2, y de los bias b1 y b2:

[2] a1 = σ(z1) = σ(w11*x1 + w12*x2 + b1)

[3] a2 = σ(z2) = σ(w21*x1 + w22*x2 + b2)

Si combinamos [1][2][3] obtenemos:

[4] ŷ = σ(w31*σ(w11*x1 + w12*x2 + b1) + w32*σ(w21*x1 + w22*x2 + b2) + b3)

La expresión anterior nos devuelve la predicción, ŷ, correspondiente a una muestra de entrada formada por los valores x1 y x2.

Si habíamos decidido que la función de error fuese la suma de los cuadrados de las desviaciones de cada predicción con respecto al valor real, es decir, si el error viene dado por la siguiente expresión:

C = ?(ŷi - yi)2

...tenemos que, expresando la predicción para la muestra i-ésima (ŷi) según la expresión [4], el error queda perfectamente descrito por la siguiente función:

C = ?(σ(w31*σ(w11*x1i + w12*x2i + b1) + w32*σ(w21*x1i + w22*x2i + b2) + b3) - yi)2

...siendo yi, como sabemos, el valor objetivo o etiqueta de la muestra i-ésima, y los valores x1i y x2i los dos valores de las características predictivas de la muestra i-ésima.