Cálculo de los gradientes

La teoría que hay detrás del descenso de gradiente parece clara. Ahora ¿cómo se aplicaría a una red neuronal? Recordemos el esquema de nuestra red:

Según hemos visto, la función de error, C, depende de todos los parámetros de la red. En este caso:

C = C(w₁₁, w₁₂, b₁, w₂₁, w₂₂, b₂, w₃₁, w₃₂, b₃)

El objetivo, por lo tanto, es calcular la derivada parcial de C con respecto a todos los parámetros, lo que no parece sencillo considerando la función que vimos que liga a C con dichos parámetros:

C = ?(σ(w₃₁*σ(w₁₁*x_1i + w₁₂*x_2i + b1) + w₃₂*σ(w₂₁*x_1i + w₂₂*x_2i + b2) + b₃) - y_i)²

(y recordemos una vez más que el ejemplo en el que estamos trabajando es extremadamente simple)

Acerca de Interactive Chaos

Información de contacto