Obtención de la función de error

En la red neuronal que hemos puesto como ejemplo podemos ver cómo el error puede expresarse en función de los parámetros de la red. Recordemos cuál era la configuración de ésta:

Obsérvese que en el diagrama anterior se ha dado nombre a los valores que devuelve cada neurona de la capa oculta (a₁ y a₂), a los valores devueltos por las funciones sumatorias (z₁, z₂ y z₃) y a las funciones de activación que, para simplificar la explicación, suponemos igual en todas las neuronas (σ).

Con esta nomenclatura vemos que la salida de la red, ŷ, es, para empezar, el resultado de aplicar la función σ al valor z₃. Es decir:

ŷ = σ(z₃)

(Recordemos que la función de activación -sea cual sea- es conocida, por ejemplo, una función sigmoide)

Ahora podemos expresar el valor z₃ en función de los valores a partir de los que se calcula: los pesos w₃₁ y w₃₂ que multiplican a los valores a₁ y a₂ respectivamente, y el bias b₃:

[1] ŷ = σ(w₃₁*a₁+ w₃₂*a₂ + b₃)

A su vez podríamos expresar a₁ y a₂ como función de σ, de los pesos w₁₁, w₁₂, w₂₁ y w₂₂ que multiplican a los valores de entrada x₁ y x₂, y de los bias b₁ y b₂:

[2] a₁ = σ(z₁) = σ(w₁₁*x₁ + w₁₂*x₂ + b1)

[3] a₂ = σ(z₂) = σ(w₂₁*x₁ + w₂₂*x₂ + b2)

Si combinamos [1], [2] y [3] obtenemos:

[4] ŷ = σ(w₃₁*σ(w₁₁*x₁ + w₁₂*x₂ + b1) + w₃₂*σ(w₂₁*x₁ + w₂₂*x₂ + b2) + b₃)

La expresión anterior nos devuelve la predicción, ŷ, correspondiente a una muestra de entrada formada por los valores x₁ y x₂.

Si habíamos decidido que la función de error fuese la suma de los cuadrados de las desviaciones de cada predicción con respecto al valor real, es decir, si el error viene dado por la siguiente expresión:

C = ?(ŷ_{i -}y_i)²

...tenemos que, expresando la predicción para la muestra i-ésima (ŷ_i) según la expresión [4], el error queda perfectamente descrito por la siguiente función:

C = ?(σ(w₃₁*σ(w₁₁*x_1i + w₁₂*x_2i + b1) + w₃₂*σ(w₂₁*x_1i + w₂₂*x_2i + b2) + b₃) - y_i)²

...siendo y_i, como sabemos, el valor objetivo o etiqueta de la muestra i-ésima, y los valores x_1i y x_2i los dos valores de las características predictivas de la muestra i-ésima.

Obtención de la función de error

Acerca de Interactive Chaos

Información de contacto