Y una vez que nos hayamos decantado por un modelo, ¿cuál será el error que cometerá con datos nuevos? Si podemos permitírnoslo, no deberíamos considerar la medida que hayamos realizado sobre los datos de validación (sea cual sea el método de validación usado), pues precisamente nos hemos decantado por aquel modelo que haya mostrado mejores resultados con dicho conjunto. Desde cierto punto de vista podríamos decir que, al decantarnos por aquel algoritmo o aquella configuración que mejor resultado haya dado en el conjunto de validación, hemos "sobreentrenado" el modelo para asegurar su resultado con esos datos, corriendo el riesgo de que pierda capacidad de generalizar su resultado. Esto compromete la capacidad del conjunto de validación para servir de referencia final
Haría falta un tercer grupo de datos, también conocido y etiquetado, diferente de los datos de entrenamiento y de validación. Llamamos a estos datos conjunto de datos de prueba. Y este conjunto de datos solo debería servir para probar el modelo final y hacer una estimación de su capacidad predictiva. Si, en función del resultado que obtengamos, volvemos a modificar la configuración del algoritmo, volveríamos a tender a "sobreentrenar" el modelo, en esta ocasión para ajustarlo al conjunto de datos de prueba.
En este caso podríamos dividir los datos conocidos en tres bloques de, por ejemplo, 50%, 30% y 20% para formar, respectivamente, los conjuntos de datos de entrenamiento, validación y prueba:
Obviamente, para ejecutar esta estrategia necesitaremos suficientes datos. Tengamos en cuenta que cada muestra que ocultamos al algoritmo durante su entrenamiento va a suponer restarle capacidad predictiva.