Volviendo a nuestra red, si partimos de la función de coste comentada:
C = ?(ŷi - yi)2 = ?Ci
...podríamos comenzar calculando la derivada parcial de Ci con respecto a w31. Si tenemos en cuenta que Ci depende de la predicción ŷi, que esta predicción depende a su vez de z3, y que z3 depende de w31, podríamos aplicar la regla de la cadena de la siguiente forma:
Las funciones Ci, ŷi y z3 son conocidas y expresables con respecto a ŷi , z3 y w31 respectivamente:
Si calculamos las derivadas parciales que nos interesan:
(σ' es la derivada de la función de activación)
...y combinamos todo, obtenemos la siguiente expresión:
Todos estos valores son conocidos: la predicción ŷi, el valor objetivo yi, la derivada de σ (ya que es una función conocida como la sigmoide) y el valor a1 devuelto por la neurona 1.